当前机器学习用于保险业和信用评分的可能性分析-CDA数据分析师官网

热线电话：13121318867

当前机器学习用于保险业和信用评分的可能性分析

2020-03-06

作者 | Daniel Faggella
编译 | CDA数据分析师

机器学习在金融领域的出现，让人们对使用AI自动执行从欺诈检测到客户服务的流程产生了强烈的兴趣。尽管某些用例的确定性不如其他用例，但我们的研究使我们相信，在未来五年中，银行将继续投资于机器学习，以进行与风险相关的流程，包括保险业。

在关于行业AI播客的采访中，我们与ZestFinance的CTO Jay Budzik进行了交谈，探讨了承销商如何利用基于机器学习的信用模型来赢得更多业务，并通过利用新的数据源来降低风险的方式。现在这些都可以通过数字方式获得，并且已经成熟，可以用于机器学习模型。

这些模型正在挑战传统的信用评分技术，包括FICO评分和简单的评分卡。在本文中，我们讨论了机器学习如何扩展贷方的客户基础，以涵盖所谓的“看不见信用”（信用记录薄弱或没有信用历史的人）以及信用评分不能准确反映其风险的人。

我们从新的数据源入手：FICO和传统信用评分的范围太窄而无法为关键的人口统计数据提供服务，而这些人口统计结果通常都被拒之门外。

传统信用评分变量与新数据源

FICO分数：概述

在过去的三十年中，FICO评分和类似的信用评分已成为信用建模的标准。FICO允许银行，信用卡公司和其他贷方客观地评估信贷申请人的信誉。分数是根据五个因素计算得出的，每个因素都由几个权重不同的变量组成，每个变量都占总FICO得分的百分比：

信用历史记录（35％）：一个人的信用历史记录由信用报告上的污点和良好信用两部分组成。这些污点主要包括逾期付款，破产，丧失抵押品赎回权以及类似的情况，这些情况代表一个人无力偿还债务。
信用使用率（30％）：FICO得分取决于一个人在给定的计费周期中使用了多少信用额度，一个人开设了多少个信用帐户以及一个人的预付款中有多少是分期付款贷款等因素。
信用记录的时间长度（15％）：持有开放信用帐户的时间越长（只要他们使用它们），他们的FICO得分就越高。
信用类型（10％）：一个人的FICO分数受其信用额度变化的影响。信用类型包括抵押，汽车贷款和信用卡。
新近度（10％）：FICO得分取决于一个因素，即最近一次申请信用，还清帐户或增加余额的因素，以及其他变量。

看不见的信用和信用历史的Catch-22

所有这些因素的共同点是，必须事先获得信贷额度。结果，传统的信用评分通常是“隐形信用”进入的障碍。根据美国消费者金融保护局（CFPB）的数据，2015年有2600万看不见信用的美国人，接近十分之一的美国人。此外，CFPB发现“低收入社区的消费者更有可能没有信用记录或没有足够的当前信用记录来产生信用评分。”

这些人群最有可能需要贷款购买大笔商品，但是由于缺乏信用记录，因此在承销商使用传统信用评分来评估贷款和信用额度时，他们无法获得贷款和信用额度的批准：这就是Catch-22。

还有一些借款人的信用评分不能准确反映他们对贷方的风险。益百利（Experian）发现，千禧一代的平均信用评分约为638，低于美国全国平均水平，也远低于前几代。该公司承认，部分原因是这些借款人的年龄；他们的信用记录很薄，信用记录占FICO分数的30％。结果，放贷者可能不批准它们的贷款，因为它们的分数太低，而实际上却没有带来太大的风险。他们还很年轻。

尽管FICO和传统的信用评分被证明对年纪较大的中产阶级美国人有用，但这些评分对习惯于使用借记卡购物的千禧一代和低收入美国人而言可能没有那么大的用处。这些看不见信用的借款人不一定具有风险，但是放款人很少批准它们，因为没有信用评分，他们的风险尚不清楚。

“随着时间变化”的挑战

据该公司称，FICO分数不会随着时间而改变。ZestFinance认为，这会使FICO分数很难区分以下两个人：

某人在五年前的信用报告中有几笔滞纳金，但是自从那以后没有再付款
直到最近几个月才从未在其信用报告中延迟付款的人，在此期间，他们连续错过了几次付款

FICO和传统的信贷模式可能难以解释这两个借款人的生活随时间变化并影响其偿债能力的情况。尤其对于年轻人而言，这可能会带来麻烦，其中许多人正举债挣扎。

益百利（Experian）在Opploans的一项调查中报告说，大约四分之一的千禧一代认为他们没有得到良好信誉的教育。同一项调查还发现15％的千禧一代经常错过信用卡付款。

他们可能会在以后的生活中找到自己的财务基础，从而可以轻松按时付款，但是传统的信用评分不会立即反映出来。这些借款人可能因为他们年轻时建立的不良信用记录而难以获得批准，并且无法开设信用帐户将使他们的得分保持较低。再次，这是一个陷阱22。

新的数据源可能是解决方案。

信用评分的新数据源

根据Budzik的说法，FICO分数可能会将一打或两个变量纳入其分数：

我们为客户量产的模型中往往包含数百或数千个变量。我们有一个拥有2200个变量的公司，它在从事自动贷款业务。

更多的数据意味着更细微的信用模型，这些模型可以使承销商更准确地了解贷款申请人是否存在风险。新数据源可能包括：

未决案件的公共记录
汽车贷款申请人希望购买的汽车的品牌和型号
借款人希望为其抵押的财产的卫星图像
借款人在其信用卡上购买的产品种类

这些类别的数据将以某种方式通知贷款申请人的信誉，但是传统的信贷模型并未考虑其中的任何一个。

机器学习的优势

根据Budzik：

为了能够考虑更多的变量，[贷方]需要能够处理它们的新算法。机器学习提供了解决该问题的方法。ML可以考虑所有这些变量，但不会犯错误。传统的评分技术会被诸如数学的相关性和局限性之类的东西绊倒。

通过机器学习，理论上可计入信用模型的数据源数量是无限的。存在无数变量可以预测申请人的还贷能力，并且机器学习擅长在大型数据集中查找模式。基于ML的信用模型可能会考虑到尚未知道的数据点，以预测借款人偿还其贷款的可能性。

例如，Zest 与Discover合作，利用信用卡公司的消费者支出数据库，为其75亿美元的个人贷款业务建立了新模式。Zest声称该模型评估了数百个申请人数据点，比Discover以前使用的信用模型高出十倍。

据称建模者发现，折扣商店购物的历史增加了申请人获得个人贷款的机会，而申请人在贷款申请上写上雇主的法定全名会降低这种可能性。

从座机或手机而不是Skype或其他互联网电话服务致电Discover的申请人被认为是更安全的选择，因为它们更容易追溯到个人。

此外，这些来源的组合本身会创建自己的数据点。例如，贷款申请人有时会购买汽车配件的事实可能不会影响他们自行偿还汽车贷款的能力。

乙UT这与该申请人要拿出贷款可能表明更低或更高的可能性，申请人将支付那笔贷款后面的车的品牌组合。保险人几乎不可能弄清这种关系，但它们在很大程度上是机器学习的价值。

此外，机器学习可能比传统的信用模型更具适应性。开发新的信贷模型可能需要一年甚至更长的时间，这可能会阻碍银行跟上不断变化的经济形势的能力。

客户和市场可以相对快速地变化。一些用于信贷承销的机器学习软件带有自动风险管理功能，该软件可以使贷方在不到一个月的时间内对模型进行调整，以便随着经济的发展适应其承销业务。

基于机器学习的信贷模型对贷款人意味着什么

机器学习可以允许银行和其他贷方通过批准更多的信用隐性申请人和更多信用评分不完整的信用状况申请人来增加收入。例如，ZestFinance声称已借助基于机器学习的信贷模型帮助Prestige Financial Services将贷款批准增加了14％。

同时，贷方可能能够增加收入而又不会增加风险。承销商可以开始拒绝比其信用评分所暗示的风险高的贷款申请人。结果，贷方可以减少从这些借款人那里蒙受的损失。

机器学习还可以实现更准确的基于风险的定价。如前所述，与传统模型相比，基于ML的信用模型可以处理更多的数据，从而使申请人的支付能力更加细致入微。结果，贷方可以更加细化他们为借款人提供的利率。

ML可以弥补两个非常相似的借款人之间的微小差异，而这些差异可能值得通过为一个借款人提供更高的利率来加以利用。这样可以增加每个借款人的利润率，而不会增加承销商审查借款人申请的时间。结果，从规模上讲，贷方可能会看到收入的大幅增长。

对消费者意味着什么

依靠新数据源的机器学习模型可以以传统模型完全专注于信用历史记录的方式评估信用隐性申请人。基于机器学习的信用模型的结果是，申请人可能会发现贷方正在批准它们，而这是他们以前所没有的。信用记录薄弱的年轻人可能能够建立自己的信用，因为贷方可以开始注册。

同样，在未来，千禧一代可能会发现，过去的信用失误并不能阻止他们在将来更有能力偿还贷款时获得大笔购买的贷款。

另外，Budzik指出：

贷方可以避免这种情况，而不是批准将要违约的人……通过向无法付款的人提供信贷来制造麻烦，而可以避免这种情况并防止这种情况发生在消费者身上

如前所述，具有良好信用评分的贷款申请人可能构成比其评分所反映的更大的风险。分数在700左右并触犯法律的申请人可能被迫在一年内分期付款。这样的判断可能会影响申请人偿还贷款的能力，影响其信用评分，并给他们的未来造成更长期的损害。

基于机器学习的信用模型会考虑未决的案件，这可能表明承销商不会完全批准申请人，即使他们的信用评分表明他们值得贷款。放贷人本质上可以通过不首先批准贷款来对付风险较高的消费者拖欠其贷款的风险。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

机器学习数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇机器学习算法和超参数选择艺术

下一篇2019年AI人工智能领域都发生了什么？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

当前机器学习用于保险业和信用评分的可能性分析

传统信用评分变量与新数据源

FICO分数：概述

看不见的信用和信用历史的Catch-22

“随着时间变化”的挑战

信用评分的新数据源

机器学习的优势

基于机器学习的信贷模型对贷款人意味着什么

对消费者意味着什么

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少寒谈传统制造业与互联网行业数 ...

学完商业数据分析，开启 CDA 量化策略：从业务思维 ...

CDA持证人专访：赵森淼谈药企数据分析从业体验与转 ...

【CDA干货】卡方检验与T检验结果的标准化解读方法及 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载