京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者 | Daniel Faggella
编译 | CDA数据分析师
机器学习在金融领域的出现,让人们对使用AI自动执行从欺诈检测到客户服务的流程产生了强烈的兴趣。 尽管某些用例的确定性不如其他用例,但我们的研究使我们相信,在未来五年中,银行将继续投资于机器学习,以进行与风险相关的流程,包括保险业。
在关于行业AI播客的采访中,我们与ZestFinance的CTO Jay Budzik进行了交谈,探讨了承销商如何利用基于机器学习的信用模型来赢得更多业务,并通过利用新的数据源来降低风险的方式。现在这些都可以通过数字方式获得,并且已经成熟,可以用于机器学习模型。
这些模型正在挑战传统的信用评分技术,包括FICO评分和简单的评分卡。 在本文中,我们讨论了机器学习如何扩展贷方的客户基础,以涵盖所谓的“看不见信用”(信用记录薄弱或没有信用历史的人)以及信用评分不能准确反映其风险的人。
我们从新的数据源入手:FICO和传统信用评分的范围太窄而无法为关键的人口统计数据提供服务,而这些人口统计结果通常都被拒之门外。
在过去的三十年中,FICO评分和类似的信用评分已成为信用建模的标准。FICO允许银行,信用卡公司和其他贷方客观地评估信贷申请人的信誉。分数是根据五个因素计算得出的,每个因素都由几个权重不同的变量组成,每个变量都占总FICO得分的百分比:
所有这些因素的共同点是,必须事先获得信贷额度。结果,传统的信用评分通常是“隐形信用”进入的障碍。根据美国消费者金融保护局(CFPB)的数据,2015年有2600万看不见信用的美国人,接近十分之一的美国人。此外,CFPB发现“低收入社区的消费者更有可能没有信用记录或没有足够的当前信用记录来产生信用评分。”
这些人群最有可能需要贷款购买大笔商品,但是由于缺乏信用记录,因此在承销商使用传统信用评分来评估贷款和信用额度时,他们无法获得贷款和信用额度的批准:这就是Catch-22。
还有一些借款人的信用评分不能准确反映他们对贷方的风险。益百利(Experian)发现,千禧一代的平均信用评分约为638,低于美国全国平均水平,也远低于前几代。该公司承认,部分原因是这些借款人的年龄;他们的信用记录很薄,信用记录占FICO分数的30%。结果,放贷者可能不批准它们的贷款,因为它们的分数太低,而实际上却没有带来太大的风险。他们还很年轻。
尽管FICO和传统的信用评分被证明对年纪较大的中产阶级美国人有用,但这些评分对习惯于使用借记卡购物的千禧一代和低收入美国人而言可能没有那么大的用处。这些看不见信用的借款人不一定具有风险,但是放款人很少批准它们,因为没有信用评分,他们的风险尚不清楚。
据该公司称,FICO分数不会随着时间而改变。ZestFinance认为,这会使FICO分数很难区分以下两个人:
FICO和传统的信贷模式可能难以解释这两个借款人的生活随时间变化并影响其偿债能力的情况。尤其对于年轻人而言,这可能会带来麻烦,其中许多人正举债挣扎。
益百利(Experian)在Opploans的一项调查中报告说,大约四分之一的千禧一代认为他们没有得到良好信誉的教育。同一项调查还发现15%的千禧一代经常错过信用卡付款。
他们可能会在以后的生活中找到自己的财务基础,从而可以轻松按时付款,但是传统的信用评分不会立即反映出来。这些借款人可能因为他们年轻时建立的不良信用记录而难以获得批准,并且无法开设信用帐户将使他们的得分保持较低。再次,这是一个陷阱22。
新的数据源可能是解决方案。
根据Budzik的说法,FICO分数可能会将一打或两个变量纳入其分数:
我们为客户量产的模型中往往包含数百或数千个变量。我们有一个拥有2200个变量的公司,它在从事自动贷款业务。
更多的数据意味着更细微的信用模型,这些模型可以使承销商更准确地了解贷款申请人是否存在风险。新数据源可能包括:
这些类别的数据将以某种方式通知贷款申请人的信誉,但是传统的信贷模型并未考虑其中的任何一个。
根据Budzik:
为了能够考虑更多的变量,[贷方]需要能够处理它们的新算法。机器学习提供了解决该问题的方法。ML可以考虑所有这些变量,但不会犯错误。传统的评分技术会被诸如数学的相关性和局限性之类的东西绊倒。
通过机器学习,理论上可计入信用模型的数据源数量是无限的。存在无数变量可以预测申请人的还贷能力,并且机器学习擅长在大型数据集中查找模式。基于ML的信用模型可能会考虑到尚未知道的数据点,以预测借款人偿还其贷款的可能性。
例如,Zest 与Discover合作,利用信用卡公司的消费者支出数据库,为其75亿美元的个人贷款业务建立了新模式。Zest声称该模型评估了数百个申请人数据点,比Discover以前使用的信用模型高出十倍。
据称建模者发现,折扣商店购物的历史增加了申请人获得个人贷款的机会,而申请人在贷款申请上写上雇主的法定全名会降低这种可能性。
从座机或手机而不是Skype或其他互联网电话服务致电Discover的申请人被认为是更安全的选择,因为它们更容易追溯到个人。
此外,这些来源的组合本身会创建自己的数据点。例如,贷款申请人有时会购买汽车配件的事实可能不会影响他们自行偿还汽车贷款的能力。
乙UT这与该申请人要拿出贷款可能表明更低或更高的可能性,申请人将支付那笔贷款后面的车的品牌组合。保险人几乎不可能弄清这种关系,但它们在很大程度上是机器学习的价值。
此外,机器学习可能比传统的信用模型更具适应性。开发新的信贷模型可能需要一年甚至更长的时间,这可能会阻碍银行跟上不断变化的经济形势的能力。
客户和市场可以相对快速地变化。一些用于信贷承销的机器学习软件带有自动风险管理功能,该软件可以使贷方在不到一个月的时间内对模型进行调整,以便随着经济的发展适应其承销业务。
机器学习可以允许银行和其他贷方通过批准更多的信用隐性申请人和更多信用评分不完整的信用状况申请人来增加收入。例如,ZestFinance声称已借助基于机器学习的信贷模型帮助Prestige Financial Services将贷款批准增加了14%。
同时,贷方可能能够增加收入而又不会增加风险。承销商可以开始拒绝比其信用评分所暗示的风险高的贷款申请人。结果,贷方可以减少从这些借款人那里蒙受的损失。
机器学习还可以实现更准确的基于风险的定价。如前所述,与传统模型相比,基于ML的信用模型可以处理更多的数据,从而使申请人的支付能力更加细致入微。结果,贷方可以更加细化他们为借款人提供的利率。
ML可以弥补两个非常相似的借款人之间的微小差异,而这些差异可能值得通过为一个借款人提供更高的利率来加以利用。这样可以增加每个借款人的利润率,而不会增加承销商审查借款人申请的时间。结果,从规模上讲,贷方可能会看到收入的大幅增长。
依靠新数据源的机器学习模型可以以传统模型完全专注于信用历史记录的方式评估信用隐性申请人。基于机器学习的信用模型的结果是,申请人可能会发现贷方正在批准它们,而这是他们以前所没有的。信用记录薄弱的年轻人可能能够建立自己的信用,因为贷方可以开始注册。
同样,在未来,千禧一代可能会发现,过去的信用失误并不能阻止他们在将来更有能力偿还贷款时获得大笔购买的贷款。
另外,Budzik指出:
贷方可以避免这种情况,而不是批准将要违约的人……通过向无法付款的人提供信贷来制造麻烦,而可以避免这种情况并防止这种情况发生在消费者身上
如前所述,具有良好信用评分的贷款申请人可能构成比其评分所反映的更大的风险。分数在700左右并触犯法律的申请人可能被迫在一年内分期付款。这样的判断可能会影响申请人偿还贷款的能力,影响其信用评分,并给他们的未来造成更长期的损害。
基于机器学习的信用模型会考虑未决的案件,这可能表明承销商不会完全批准申请人,即使他们的信用评分表明他们值得贷款。放贷人本质上可以通过不首先批准贷款来对付风险较高的消费者拖欠其贷款的风险。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27