京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者 | Daniel Faggella
编译 | CDA数据分析师
机器学习在金融领域的出现,让人们对使用AI自动执行从欺诈检测到客户服务的流程产生了强烈的兴趣。 尽管某些用例的确定性不如其他用例,但我们的研究使我们相信,在未来五年中,银行将继续投资于机器学习,以进行与风险相关的流程,包括保险业。
在关于行业AI播客的采访中,我们与ZestFinance的CTO Jay Budzik进行了交谈,探讨了承销商如何利用基于机器学习的信用模型来赢得更多业务,并通过利用新的数据源来降低风险的方式。现在这些都可以通过数字方式获得,并且已经成熟,可以用于机器学习模型。
这些模型正在挑战传统的信用评分技术,包括FICO评分和简单的评分卡。 在本文中,我们讨论了机器学习如何扩展贷方的客户基础,以涵盖所谓的“看不见信用”(信用记录薄弱或没有信用历史的人)以及信用评分不能准确反映其风险的人。
我们从新的数据源入手:FICO和传统信用评分的范围太窄而无法为关键的人口统计数据提供服务,而这些人口统计结果通常都被拒之门外。
在过去的三十年中,FICO评分和类似的信用评分已成为信用建模的标准。FICO允许银行,信用卡公司和其他贷方客观地评估信贷申请人的信誉。分数是根据五个因素计算得出的,每个因素都由几个权重不同的变量组成,每个变量都占总FICO得分的百分比:
所有这些因素的共同点是,必须事先获得信贷额度。结果,传统的信用评分通常是“隐形信用”进入的障碍。根据美国消费者金融保护局(CFPB)的数据,2015年有2600万看不见信用的美国人,接近十分之一的美国人。此外,CFPB发现“低收入社区的消费者更有可能没有信用记录或没有足够的当前信用记录来产生信用评分。”
这些人群最有可能需要贷款购买大笔商品,但是由于缺乏信用记录,因此在承销商使用传统信用评分来评估贷款和信用额度时,他们无法获得贷款和信用额度的批准:这就是Catch-22。
还有一些借款人的信用评分不能准确反映他们对贷方的风险。益百利(Experian)发现,千禧一代的平均信用评分约为638,低于美国全国平均水平,也远低于前几代。该公司承认,部分原因是这些借款人的年龄;他们的信用记录很薄,信用记录占FICO分数的30%。结果,放贷者可能不批准它们的贷款,因为它们的分数太低,而实际上却没有带来太大的风险。他们还很年轻。
尽管FICO和传统的信用评分被证明对年纪较大的中产阶级美国人有用,但这些评分对习惯于使用借记卡购物的千禧一代和低收入美国人而言可能没有那么大的用处。这些看不见信用的借款人不一定具有风险,但是放款人很少批准它们,因为没有信用评分,他们的风险尚不清楚。
据该公司称,FICO分数不会随着时间而改变。ZestFinance认为,这会使FICO分数很难区分以下两个人:
FICO和传统的信贷模式可能难以解释这两个借款人的生活随时间变化并影响其偿债能力的情况。尤其对于年轻人而言,这可能会带来麻烦,其中许多人正举债挣扎。
益百利(Experian)在Opploans的一项调查中报告说,大约四分之一的千禧一代认为他们没有得到良好信誉的教育。同一项调查还发现15%的千禧一代经常错过信用卡付款。
他们可能会在以后的生活中找到自己的财务基础,从而可以轻松按时付款,但是传统的信用评分不会立即反映出来。这些借款人可能因为他们年轻时建立的不良信用记录而难以获得批准,并且无法开设信用帐户将使他们的得分保持较低。再次,这是一个陷阱22。
新的数据源可能是解决方案。
根据Budzik的说法,FICO分数可能会将一打或两个变量纳入其分数:
我们为客户量产的模型中往往包含数百或数千个变量。我们有一个拥有2200个变量的公司,它在从事自动贷款业务。
更多的数据意味着更细微的信用模型,这些模型可以使承销商更准确地了解贷款申请人是否存在风险。新数据源可能包括:
这些类别的数据将以某种方式通知贷款申请人的信誉,但是传统的信贷模型并未考虑其中的任何一个。
根据Budzik:
为了能够考虑更多的变量,[贷方]需要能够处理它们的新算法。机器学习提供了解决该问题的方法。ML可以考虑所有这些变量,但不会犯错误。传统的评分技术会被诸如数学的相关性和局限性之类的东西绊倒。
通过机器学习,理论上可计入信用模型的数据源数量是无限的。存在无数变量可以预测申请人的还贷能力,并且机器学习擅长在大型数据集中查找模式。基于ML的信用模型可能会考虑到尚未知道的数据点,以预测借款人偿还其贷款的可能性。
例如,Zest 与Discover合作,利用信用卡公司的消费者支出数据库,为其75亿美元的个人贷款业务建立了新模式。Zest声称该模型评估了数百个申请人数据点,比Discover以前使用的信用模型高出十倍。
据称建模者发现,折扣商店购物的历史增加了申请人获得个人贷款的机会,而申请人在贷款申请上写上雇主的法定全名会降低这种可能性。
从座机或手机而不是Skype或其他互联网电话服务致电Discover的申请人被认为是更安全的选择,因为它们更容易追溯到个人。
此外,这些来源的组合本身会创建自己的数据点。例如,贷款申请人有时会购买汽车配件的事实可能不会影响他们自行偿还汽车贷款的能力。
乙UT这与该申请人要拿出贷款可能表明更低或更高的可能性,申请人将支付那笔贷款后面的车的品牌组合。保险人几乎不可能弄清这种关系,但它们在很大程度上是机器学习的价值。
此外,机器学习可能比传统的信用模型更具适应性。开发新的信贷模型可能需要一年甚至更长的时间,这可能会阻碍银行跟上不断变化的经济形势的能力。
客户和市场可以相对快速地变化。一些用于信贷承销的机器学习软件带有自动风险管理功能,该软件可以使贷方在不到一个月的时间内对模型进行调整,以便随着经济的发展适应其承销业务。
机器学习可以允许银行和其他贷方通过批准更多的信用隐性申请人和更多信用评分不完整的信用状况申请人来增加收入。例如,ZestFinance声称已借助基于机器学习的信贷模型帮助Prestige Financial Services将贷款批准增加了14%。
同时,贷方可能能够增加收入而又不会增加风险。承销商可以开始拒绝比其信用评分所暗示的风险高的贷款申请人。结果,贷方可以减少从这些借款人那里蒙受的损失。
机器学习还可以实现更准确的基于风险的定价。如前所述,与传统模型相比,基于ML的信用模型可以处理更多的数据,从而使申请人的支付能力更加细致入微。结果,贷方可以更加细化他们为借款人提供的利率。
ML可以弥补两个非常相似的借款人之间的微小差异,而这些差异可能值得通过为一个借款人提供更高的利率来加以利用。这样可以增加每个借款人的利润率,而不会增加承销商审查借款人申请的时间。结果,从规模上讲,贷方可能会看到收入的大幅增长。
依靠新数据源的机器学习模型可以以传统模型完全专注于信用历史记录的方式评估信用隐性申请人。基于机器学习的信用模型的结果是,申请人可能会发现贷方正在批准它们,而这是他们以前所没有的。信用记录薄弱的年轻人可能能够建立自己的信用,因为贷方可以开始注册。
同样,在未来,千禧一代可能会发现,过去的信用失误并不能阻止他们在将来更有能力偿还贷款时获得大笔购买的贷款。
另外,Budzik指出:
贷方可以避免这种情况,而不是批准将要违约的人……通过向无法付款的人提供信贷来制造麻烦,而可以避免这种情况并防止这种情况发生在消费者身上
如前所述,具有良好信用评分的贷款申请人可能构成比其评分所反映的更大的风险。分数在700左右并触犯法律的申请人可能被迫在一年内分期付款。这样的判断可能会影响申请人偿还贷款的能力,影响其信用评分,并给他们的未来造成更长期的损害。
基于机器学习的信用模型会考虑未决的案件,这可能表明承销商不会完全批准申请人,即使他们的信用评分表明他们值得贷款。放贷人本质上可以通过不首先批准贷款来对付风险较高的消费者拖欠其贷款的风险。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据工作的全流程中,数据清洗是最基础、最耗时,同时也是最关键的核心环节,无论后续是做常规数据分析、可视化报表,还是开展 ...
2026-03-20在大数据与数据驱动决策的当下,“数据分析”与“数据挖掘”是高频出现的两个核心概念,也是很多职场人、入门学习者容易混淆的术 ...
2026-03-20在CDA(Certified Data Analyst)数据分析师的全流程工作闭环中,统计制图是连接严谨统计分析与高效业务沟通的关键纽带,更是CDA ...
2026-03-20在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12