数据挖掘案例:建立客户流失模型-CDA数据分析师官网

热线电话：13121318867

数据挖掘案例:建立客户流失模型

2016-08-04

数据挖掘案例:建立客户流失模型

随着市场竞争的加剧，中国电信面临的压力越来越大，客户流失也日益增大。从统计数据看，今年固话小灵通的销户数已经超过了开户数。面对如此严峻的市场形式，当务之急就是要尽全力减少客户的流失。因此，利用数据挖掘方法，建立一套可以及时预测客户流失率的模型就相当有必要。

    （一）确定客户流失模型的目标：预测可能流失的客户名单。经过对市场的分析，我们发现固话小灵通流失率比较大，而宽带等数据业务还处于增长期，流失率比较小。因此，我们把预测的产品范围限定在固话和小灵通上。另外，我们也不考虑那些因为欠费被强制销户的客户，因为这些客户没有什么价值。还有，对已经加入了某一类有销户时间限制套餐且未到期的客户也可以不考虑。这样，我们建模的目标范围变得更加明确。
    （二）获取用于建模的数据。建模的数据可以从各个营运系统中提取。可以从IBSS系统提取客户数据、服务数据、产品数据、套餐数据、业务数据：从计费账务系统提取市话计费数据、长途计费数据、智能网计费数据、省数据业务计费数据；从CMMS系统提取渠道数据；从资源系统提取地址数据、资源数据；从交换系统提取通话数据等等。另外有一些数据需要通过市场调查获取，比如调查哪些地区是其他运营商有布线的固话竞争区域。可以在区域范围内的交接箱资料加上“竞争区域”的标识。
    （三）对数据进行清洗、格式化，转换成建模数据集。一个客户可能有多个固话和小灵通，销户指的是固话小灵通拆机，而不是指客户不再使用所有的电信产品。因此真正的客户预测流失上并不具有价值。经过分析，我们确定建模的对象为服务实体，即固话和小灵通。模型集的行代表一个固话或小灵通，计费等数据则对应到各个列。另外。为了使预测结果更接近于现实情况，我们取最近12个月的计费数据。接下来，我们要剔除一些无效的变量，如身份证号、电话号码、绝对日期、地址数据等。这些交量对建模没有用处。最后就是加入衍生变量。这个过程需要我们对电信业务进行深入的分析并充分发挥创造性，这样才能生成一组对建模很有意义的衍生变量。如根据固话对应的交接箱，我们提取出“是否处于竞争区域”的变量；从通话日期可以提取出“星期几”、“是否节假日”等变量，另外，还可以通过组合生成全部月份的变量总和及其方差，各月变量占总和的比等变量。经过这些清洗和转换工作，我们便生成了用于建模的数据集。
    （四）建立模型。我们选用SAS EM软件包作为建模工具，在挖掘算法方面选用决策树算法。决策树算法可以处理上百个字段，具有探索功能，且高度自动化。考虑到固话和小灵通这两类产品有很大的区别，因此需要分别建立预测模型。接下来，我们对客户进行分类。按月平均消费额分成高价值客户和低价值客户。另外再分出两类特殊客户，近期开户的客户和有申请套餐的客户，对这四类客户分别建立模型，再将模型进行合并。
    （五）模型评估。对模型的评估同样分成四类客户分别评分。即生成四类客户的评分数据集，分别输入模型中，得出预测结果。把结果和实际情况进行比较来评价模型的有效性。
    （六）模型预测结果用于支持决策。客户流失率预测模型建立后，我们就及时预测某个客户流失的可能性大小。当其流失可能性高于某一分值，我们就认为他是将可能流失的客户，就可以及时的推出针对性的营销套餐来留下该客户