
作者 | Daniel Faggella
编译 | CDA数据分析师
机器学习在金融领域的出现,让人们对使用AI自动执行从欺诈检测到客户服务的流程产生了强烈的兴趣。 尽管某些用例的确定性不如其他用例,但我们的研究使我们相信,在未来五年中,银行将继续投资于机器学习,以进行与风险相关的流程,包括保险业。
在关于行业AI播客的采访中,我们与ZestFinance的CTO Jay Budzik进行了交谈,探讨了承销商如何利用基于机器学习的信用模型来赢得更多业务,并通过利用新的数据源来降低风险的方式。现在这些都可以通过数字方式获得,并且已经成熟,可以用于机器学习模型。
这些模型正在挑战传统的信用评分技术,包括FICO评分和简单的评分卡。 在本文中,我们讨论了机器学习如何扩展贷方的客户基础,以涵盖所谓的“看不见信用”(信用记录薄弱或没有信用历史的人)以及信用评分不能准确反映其风险的人。
我们从新的数据源入手:FICO和传统信用评分的范围太窄而无法为关键的人口统计数据提供服务,而这些人口统计结果通常都被拒之门外。
在过去的三十年中,FICO评分和类似的信用评分已成为信用建模的标准。FICO允许银行,信用卡公司和其他贷方客观地评估信贷申请人的信誉。分数是根据五个因素计算得出的,每个因素都由几个权重不同的变量组成,每个变量都占总FICO得分的百分比:
所有这些因素的共同点是,必须事先获得信贷额度。结果,传统的信用评分通常是“隐形信用”进入的障碍。根据美国消费者金融保护局(CFPB)的数据,2015年有2600万看不见信用的美国人,接近十分之一的美国人。此外,CFPB发现“低收入社区的消费者更有可能没有信用记录或没有足够的当前信用记录来产生信用评分。”
这些人群最有可能需要贷款购买大笔商品,但是由于缺乏信用记录,因此在承销商使用传统信用评分来评估贷款和信用额度时,他们无法获得贷款和信用额度的批准:这就是Catch-22。
还有一些借款人的信用评分不能准确反映他们对贷方的风险。益百利(Experian)发现,千禧一代的平均信用评分约为638,低于美国全国平均水平,也远低于前几代。该公司承认,部分原因是这些借款人的年龄;他们的信用记录很薄,信用记录占FICO分数的30%。结果,放贷者可能不批准它们的贷款,因为它们的分数太低,而实际上却没有带来太大的风险。他们还很年轻。
尽管FICO和传统的信用评分被证明对年纪较大的中产阶级美国人有用,但这些评分对习惯于使用借记卡购物的千禧一代和低收入美国人而言可能没有那么大的用处。这些看不见信用的借款人不一定具有风险,但是放款人很少批准它们,因为没有信用评分,他们的风险尚不清楚。
据该公司称,FICO分数不会随着时间而改变。ZestFinance认为,这会使FICO分数很难区分以下两个人:
FICO和传统的信贷模式可能难以解释这两个借款人的生活随时间变化并影响其偿债能力的情况。尤其对于年轻人而言,这可能会带来麻烦,其中许多人正举债挣扎。
益百利(Experian)在Opploans的一项调查中报告说,大约四分之一的千禧一代认为他们没有得到良好信誉的教育。同一项调查还发现15%的千禧一代经常错过信用卡付款。
他们可能会在以后的生活中找到自己的财务基础,从而可以轻松按时付款,但是传统的信用评分不会立即反映出来。这些借款人可能因为他们年轻时建立的不良信用记录而难以获得批准,并且无法开设信用帐户将使他们的得分保持较低。再次,这是一个陷阱22。
新的数据源可能是解决方案。
根据Budzik的说法,FICO分数可能会将一打或两个变量纳入其分数:
我们为客户量产的模型中往往包含数百或数千个变量。我们有一个拥有2200个变量的公司,它在从事自动贷款业务。
更多的数据意味着更细微的信用模型,这些模型可以使承销商更准确地了解贷款申请人是否存在风险。新数据源可能包括:
这些类别的数据将以某种方式通知贷款申请人的信誉,但是传统的信贷模型并未考虑其中的任何一个。
根据Budzik:
为了能够考虑更多的变量,[贷方]需要能够处理它们的新算法。机器学习提供了解决该问题的方法。ML可以考虑所有这些变量,但不会犯错误。传统的评分技术会被诸如数学的相关性和局限性之类的东西绊倒。
通过机器学习,理论上可计入信用模型的数据源数量是无限的。存在无数变量可以预测申请人的还贷能力,并且机器学习擅长在大型数据集中查找模式。基于ML的信用模型可能会考虑到尚未知道的数据点,以预测借款人偿还其贷款的可能性。
例如,Zest 与Discover合作,利用信用卡公司的消费者支出数据库,为其75亿美元的个人贷款业务建立了新模式。Zest声称该模型评估了数百个申请人数据点,比Discover以前使用的信用模型高出十倍。
据称建模者发现,折扣商店购物的历史增加了申请人获得个人贷款的机会,而申请人在贷款申请上写上雇主的法定全名会降低这种可能性。
从座机或手机而不是Skype或其他互联网电话服务致电Discover的申请人被认为是更安全的选择,因为它们更容易追溯到个人。
此外,这些来源的组合本身会创建自己的数据点。例如,贷款申请人有时会购买汽车配件的事实可能不会影响他们自行偿还汽车贷款的能力。
乙UT这与该申请人要拿出贷款可能表明更低或更高的可能性,申请人将支付那笔贷款后面的车的品牌组合。保险人几乎不可能弄清这种关系,但它们在很大程度上是机器学习的价值。
此外,机器学习可能比传统的信用模型更具适应性。开发新的信贷模型可能需要一年甚至更长的时间,这可能会阻碍银行跟上不断变化的经济形势的能力。
客户和市场可以相对快速地变化。一些用于信贷承销的机器学习软件带有自动风险管理功能,该软件可以使贷方在不到一个月的时间内对模型进行调整,以便随着经济的发展适应其承销业务。
机器学习可以允许银行和其他贷方通过批准更多的信用隐性申请人和更多信用评分不完整的信用状况申请人来增加收入。例如,ZestFinance声称已借助基于机器学习的信贷模型帮助Prestige Financial Services将贷款批准增加了14%。
同时,贷方可能能够增加收入而又不会增加风险。承销商可以开始拒绝比其信用评分所暗示的风险高的贷款申请人。结果,贷方可以减少从这些借款人那里蒙受的损失。
机器学习还可以实现更准确的基于风险的定价。如前所述,与传统模型相比,基于ML的信用模型可以处理更多的数据,从而使申请人的支付能力更加细致入微。结果,贷方可以更加细化他们为借款人提供的利率。
ML可以弥补两个非常相似的借款人之间的微小差异,而这些差异可能值得通过为一个借款人提供更高的利率来加以利用。这样可以增加每个借款人的利润率,而不会增加承销商审查借款人申请的时间。结果,从规模上讲,贷方可能会看到收入的大幅增长。
依靠新数据源的机器学习模型可以以传统模型完全专注于信用历史记录的方式评估信用隐性申请人。基于机器学习的信用模型的结果是,申请人可能会发现贷方正在批准它们,而这是他们以前所没有的。信用记录薄弱的年轻人可能能够建立自己的信用,因为贷方可以开始注册。
同样,在未来,千禧一代可能会发现,过去的信用失误并不能阻止他们在将来更有能力偿还贷款时获得大笔购买的贷款。
另外,Budzik指出:
贷方可以避免这种情况,而不是批准将要违约的人……通过向无法付款的人提供信贷来制造麻烦,而可以避免这种情况并防止这种情况发生在消费者身上
如前所述,具有良好信用评分的贷款申请人可能构成比其评分所反映的更大的风险。分数在700左右并触犯法律的申请人可能被迫在一年内分期付款。这样的判断可能会影响申请人偿还贷款的能力,影响其信用评分,并给他们的未来造成更长期的损害。
基于机器学习的信用模型会考虑未决的案件,这可能表明承销商不会完全批准申请人,即使他们的信用评分表明他们值得贷款。放贷人本质上可以通过不首先批准贷款来对付风险较高的消费者拖欠其贷款的风险。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-08-28