
你应该知道的模型评估的五个方法
好久没更新了,我怕再不更,我要掉粉了,这次来更新的是模型评估的常见的五个方法:
1、混淆矩阵。
2、提升图&洛伦兹图。
3、 基尼系数
4、ks曲线
5、roc曲线。
1
混淆矩阵不能作为评估模型的唯一标准,混淆矩阵是算模型其他指标的基础,后面会讲到,但是对混淆矩阵的理解是必要的。
模型跑出来的“Y”值为每个客户的预测违约概率,可以理解为客户的有多大的可能违约。把概率等分分段,y坐标为该区间的人数,可以得到这样子一个图表。
可以看到图中这条线,一切下去,在左边就算是违约的客户,那么右边就是正常的客户,本身模型没办法百分百的判断客户的状态,所以cd就算是会误判的,d本来是是左边这个小山的客户,那就是坏客户,但是模型预测他的概率比较高别划分到了好客户的这边了,所以d就是被预测为好客户的坏客户,同样的道理,c就是被预测为坏客户的好客户。
2
提升图&洛伦兹图
假设我们现在有个10000的样本,违约率是7%,我们算出这10000的样本每个客户的违约概率之后降序分为每份都是1000的记录,那么在左图中,第一份概率最高的1000个客户中有255个违约的。违约客户占了全部的36.4。如果不对客户评分,按照总体的算,这个分组;理论上有70个人是违约的。
把刚才的图,每组中的随机违约个数以及模型违约个数化成柱形图,可以看到假设现在是p值越大的客户,违约概率越大,那就是说这里第一组的1000个人就是概率倒序排序之后的前1000个人。那么可以看到通过模型,可以识别到第一组的客户违约概率是最高的,那么在业务上运用上可以特别注意这部分客户,可以给予拒绝的处理。
那么洛伦兹图就是将每一组的一个违约客户的个数累计之后连接成一条线,可以看到在12组的时候,违约人数的数量上升是一个比较明显的状态,但是越到后面的组,违约人数上升的越来越少了。那么在衡量一个模型的标准就是这个条曲线是越靠近y轴1的位置越好,那样子就代表着模型能预测的违约客户集中在靠前的几组,所以识别客户的效果就是更好。
3
基尼系数
洛伦茨曲线是把违约概率降序分成10等分,那么基尼统计量的上图是把违约概率升序分成10等分,基尼统计量的定义则为:
G的值在0到1之间,在随机选择下,G取0。G达到0.4以上即可接受。
4
ks值
ks曲线是将每一组的概率的好客户以及坏客户的累计占比连接起来的两条线,ks值是当有一个点,好客户减去坏客户的数量是最大的。那么ks的值的意义在于,我在那个违约概率的点切下去,创造的效益是最高的,就图中这张图来说就是我们大概在第三组的概率的中间的这个概率切下,我可以最大的让好客户进来,会让部分坏客户进来,但是也会有少量的坏客户进来,但是这已经是损失最少了,所以可以接受。那么在建模中是,模型的ks要求是达到0.3以上才是可以接受的。
5
roc
灵敏度可以看到的是判断正确的违约客户数,这里给他个名字为违约客户正确率(tpr),误判率就是判断错误的正常客户数(fpr)。特殊性就是正常客户的正确率,那么roc曲线是用误判率和违约客户数画的一条曲线。这里就需要明确一点就是,我们要的效果是,tpr的越高越好,fpr是越低越好。ROC曲线就是通过在0-1之间改变用于创建混淆矩阵的临界值,绘制分类准确的违约记录比例与分类错误的正常记录比例。具体我们来看图。
我们首先来看A,B点的含义,A点的TPR大概为0.7左右,FPR大概是0.3左右,那么就是说假设我错误的将30%坏客户判断是坏的,那么可以识别70%的客户肯定坏的。B点的TPR大概为0.3左右,FPR大概是0.7左右,那就是我错误的将70%好客户当做坏客户,只能得到30%的客户是确定 坏客户。所以这么说的话,点越靠近左上方,模型就是越好的,对于曲线也是一样的。
总结
我个人建议,要依据不同的业务目的,选取不同的评估方式, 基尼系数、提升图可以用于用人工审批情况的业务目的,不同的分组突出客户的质量的高低,ks、roc可以用于线上审批审核的情况,根据最小损失公式,计算出概率点。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-06-052025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27