建模准备一定要做的这几件事-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读建模准备一定要做的这几件事

建模准备一定要做的这几件事

2018-08-21

建模准备一定要做的这几件事

今天我们来说建模中容易忽视，但是独立完成模型时一定要自己分析的一个步骤--建模准备。

建模准备这里我想跟大家分享五个点，就是在建模准备中需要做的五个方面。

业务目的

模型都是建立在业务目的上的，我们要根据不同的业务目的建立不同的模型，那么业务目的会从以下三个方面出发：

1、客户。客户可以分为：有钱还的，没钱还但是心里想还的，没钱但是心里不想还的，以及有钱但是我就是不还的。后面两种不还钱的人，我们定义他们为欺诈客户，就是来借钱之前想着不还的，对于前两种以及后面两种客户，我们的有不同的方式区别，

2、产品。不同的客户的客户特征是不同的，譬如贷款产品中会分出商人以及上班族的不同贷款，那么这时，我们假设客户的一个变量，工资流水，对于商人来说可能有淡季旺季，所以流水可能波动大，但是上班族，除了年终的时候会波动一下，其实时候毫无波澜。

3、行为。客户行为，是申请进件客户，还是还款中客户还是逾期需要催收的客户。

好坏客户定义

请看图，c-m1的意思就是正常客户变成逾期一期的占比，15年12月份有10000人来申请，那么在1月份有504个人逾期了，那么这504个人在2月份就是逾期一期的，跟着2月份来了，这504个人里面有77%还了钱就变成正常客户了，但是有23%的人还是不还，所以在2月份里面有大概116个人是2016年1月逾期了2期的人，接着3月份，这些有些还了一期的钱变成逾期两期的人，有些人全还了变成正常的人了，但是还有41.82%的人还是不还，那么3月是是2016年1月逾期了3期的人里面有大概49个人。到了4月份，之前3月份逾期了3期的那些人有些还钱了，但是还是有82.70%的人继续逾期，大概是40个人逾期4期了。五月份了，这40个人有那么4.33%的人选择了还钱，但是还有38个人继续不还钱，这38个人在五月份就是逾期了5期了，六月份了，这38个人有97.62%的还是继续不还，大概算一个人还了，可以看大随着逾期的期数越多，会还钱的人越来越少，可以根据转化率看到，最后的38个人与刚开始的49人，占比是77%，可以确定是的一旦客户逾期3期以上的时候就有很大的概率变成坏账客户。

定义逾期多少期我们可以定义为逾期客户之后，还需要确定还多少期之后的逾期三期的客户算坏客户，我们这里提一点是，我们本次的评分卡是围绕申请评分卡展开的，那么申请评分卡的定位客户是：想要还但是没钱还的，即会出现短期或者长期资金紧缺的情况，那么这里就需要提到“账龄”，在图中可以发现在9个月之后，坏账率趋于平缓，即在还了9个月到12个月期间的客户我们可以判定其是因为资金的不足才坏账的。即可以在9-12之间选择一个账龄，确定坏客户的标准。然而在一般是实战建模中与新巴塞尔资本协议中针对内部风险规范，也是建议12个月为单位较为合适。

准备建模样本数据

A卡一般可做贷款0-1年的信用分析，B卡则是在申请人有了一定行为后，有了较大数据进行的分析，一般为3-5年，C卡则对数据要求更大，需加入催收后客户反应等属性数据。

评分卡数据需要累积到一段时间达到数据量的时候才能见面，图中的横轴是一条时间轴，左边的为客户的观察期，右边为客户的展现期，那么刚才我们已经有了好坏定义，这时候就要用这个规则取数，假设我们刚才去的是12期逾期90+，那么这时候观察期就是12期+90天，展现期中逾期30天的客户就是坏客户，展现期没有逾期的客户就是好客户，那么这时候你会问还了12期的逾期30天的客户算什么，算不到展现期的客户，因为这时候你不能确定他是不是会在第31天就还上了。

如果你们是数学专业或者有上过多元统计分析这类的都知道，建模数据都会分训练集以及测试集，测试集的作用是测试训练集出来的模型可不可以对训练集之外的数据用，那么在实际建模中还会加一个验证集，测试集以及训练集的好坏比例是跟建模样本的比例是一样的，验证样本是取建模数据往后退大概一两个月的数据作为验证样本，这部分数据不仅测试模型能不能训练集之外客户可不可以用，还有验证模型是不是会随着时间的迁移而出现了效果偏差，但是模型效果出现偏差是肯定的，但是是否效果大幅度下降。

排除不可建模样本数据

排除不要的样本，以免影响变量效果，在风控系统中，被拒绝规则婉拒的客户我们不加入建模样本中，但是后期需要拒绝演绎还是需要这部分样本，为什么这部分数据不要呢，因为本身我们不能确定他是不是真的是坏的，这里要说明一点是，拒绝规则是拒绝掉那些可能性很大是坏客户的人，但是并不在公司的贷款中逾期，所以不能定义他就是坏的。

不到展现期客户，即在观察期的客户，就是刚开借钱，但是还了几期，还没逾期，不能判定是不是坏人也不能进入模型样本，至于还了多少期还没逾期的算好客户的，命中黑名单的客户也同样的道理。

讨论是否进行样本分群

刚才说的不同的产品会有不同的客户特征，但是即使同样的产品，同样的客户行为，那么样本还会有不同的特征，譬如男女的逾期表现在某种程度上来讲，女性逾期了会比男性低，所以如果在数据足够的前提下，可以考虑通过不同的方式对客户分群，分群的方式可以根据变量的分类的逾期率的不同，例如刚才讲的是男女分群，男女前提是这两种类型的人逾期率有一个差别，对于其他变量也一样。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；