京公网安备 11010802034615号
经营许可证编号:京B2-20210330
用大数据来判定你的人品
电脑的作用可不仅仅是让你解决复杂的数学问题和播放萌猫视频,随着计算机技术的发展,它将能够判别出我们的为人,也许我们要为此感到庆幸。
一家名为 Upstart 的公司在过去的 15 个月中已经向那些几乎没有信用评级的人们借出了 1.35 亿美元。这些人大多是刚刚毕业的大学生,他们没有可抵押的资产、汽车,也没有相关的信用卡记录。
通常贷款机构会用上述指标来为一个人进行信用评级,以此判定他们是否能够获得贷款资格。然而这些年轻人刚刚踏入职场,还没有为自己建立起这一套用于判定信用等级的依据。因此 Upstart 转而参考了这些人的 SAT 得分、学校背景、所学专业以及在校平均成绩。这家公司需要参考的指标与公司对于录取新员工所做的背景调查差不多,除此之外他还会评估申请者的人格特质。
「如果两个人拥有同样的工作和同样的生活背景,比如都已经有孩子,相比之下那个在校时取得了更高 GPA 得分的人更有可能在五年之后还款。」Upstart 的联合创始人与产品主管 Paul Gu 解释道,「这无关于你的支付能力,它谨代表了你对于履行自己的义务是否看重。」
这种判定方法已经通过数据得以验证,那些会反复检查作业以及为了应对突击测试而额外花时间学习的人更有可能履行自己的债务。
Upstart 会通过数据分析和面对面交流来判定一个人的偿债能力。「我猜你可能会将这些特质称作性格特征,但是我们并没有使用这种标签。」年仅 24 岁的 Paul 向我们解释道。
拥有看重自己所承担义务的人格特质不仅能使人进入更好的学校,取得更好的成绩,同样也会让其看重自己的债务问题。ZestFinance 的创始人 Douglas Merrill 是谷歌公司前高管,他的公司也会通过一些非标准化的数据来判定是否要给一个借款人提供贷款。
Zest 公司的一个常用指标就是该人是否曾经放弃过一个预付费的手机号码。人的居住地变化不定,在找人的时候手机号码相比居住地址更加可靠。放弃了一个常用号码可能意味着你想要(或者不得不)逃避家人与潜在雇主的联系,这对于个人信用来说是一个糟糕的信号。
Zest 最近将业务拓展到那些「次优」借款人中,这些人可能是从最优借款人分类中跌落,也可能是从次级贷款借款人目录中得以提升。Zest 公司所面临的问题就是找出这些人为什么信用评级发生了变动,并且想要从中找出那些潜在的可靠的借款人。或许他们评级发生变化只是因为运气糟糕,比如承担了一次额外的医药费支出。
「『性格』这个词内涵丰富,一个人是否拥有还款能力和是否愿意还钱之间存在着本质的区别。」Merrill 进一步说明道,「如果仅仅是看金融机构提供的流水数据,你难以看出一个人是否具有还款意愿。」
Merrill 拥有心理学博士学位(他从普林斯顿大学毕业,从这点来看 Paul 应该是想要借钱给他的),他认为数据驱动的人格特质分析相比标准化的评判指标要更加公平。
「我们总是用各种方法来评判别人,但是如果没有数据支持,我们就是依靠自己的选择性偏见来做出判断。我们的判断通常来自于自身的认识,这通常就意味着人们总是会偏爱那些与自身相似的人。」利用熟悉感来进行风险管理非常原始的方法,这种方法得出的结果有失公平。
一个人的性格特征(我们通常会选择更为中性的词来表示相同的意思)如今已经可以由许多算法来完成判定。一家名为 Workday 的公司提供基于云端的性格分析软件,该公司发布了一款包含 45 项员工绩效指标的产品,其中包括了一个人在同一职位上工作了多长时间,以及他们的工作业绩如何。该软件中的指标可以用于预测一个员工离职的可能性,并且还能对于如何留住这类员工提供合适的参考建议,比如是给他换个新工作还是进行岗位调整。该产品还能够判断出主管经理是否具有留住人才能力,并且将其分为「人才大师」和「人才终结者」。
在 Workday 公司内部他们会使用该软件产品分析自己的销售队伍,并试图找出一个成功销售员的决定因素,结果发现造就成功销售员的首要品质就是坚韧不拔。
「在决定是否要雇佣某人或者晋升某人时,我们都会有着自己的偏见。」Workday 公司技术策略主管 Dan Beck 如此解释道,「如果你能够使用客观的数据去纠正这种存有偏见的判断,自然是极好的。」
Dan Beck 认为人们研究这些性格特征将会鼓励自身向这些好的品质看齐,因为「如果你知道一种指向成功的模式,那么为什么你自己不接受这种模式呢?」
从某种意义上来看,从数据中研究成功者的性格与行为特征与看名人传记寻找其成功的线索没有什么区别。只不过数据研究这种方式其范围要广得多,因为它的基础建立在观察每一个人的行为方式之上,而不像名人传记仅仅从个案研究入手。
我们有理由相信基于数据分析的性格特质判断会更加可靠。斯坦福大学计算机科学教授 Jure Leskovec 完成了一项对比研究,其内容是将数据分析的预测结果和与法官保释听证会的结果作比较。在保释听证会中法官们只有短短几分钟去评判一个囚犯是否应该获得保释,其结果是否会存在着危害社会的风险。据 Jure Leskovec 介绍,研究早期结果显示,依据数据分析的预测结果在预防犯罪上相比依靠法官个人经验判断获得了 30% 的提升。
「算法是客观的,偏见来源于人心。」Leskovec对其研究进行了总结。
然而这同时道出了很真实且重要的一点:任何算法都不是从天而降的。算法是由人写出来的,即使通过算法得出的结果并无偏见,但是在设计算法的过程中可能偏见已经存在其中,我们最终可能会接受一种有缺陷的信念即数学计算得出结果的永远符合事实。
Upstart 公司的创始人 Paul 表示他拥有完美的 SAT 得分,但是却从耶鲁辍学了,如果按照他自己最初设计的算法,连他本人也无法从 Upstart 公司获取贷款资格。据此他改变了对于算法的设计,因为他意识到了在今后工作中所承担的责任。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在使用Excel透视表进行数据汇总分析时,我们常遇到“需通过两个字段相乘得到关键指标”的场景——比如“单价×数量=金额”“销量 ...
2025-11-14在测试环境搭建、数据验证等场景中,经常需要将UAT(用户验收测试)环境的表数据同步到SIT(系统集成测试)环境,且两者表结构完 ...
2025-11-14在数据驱动的企业中,常有这样的困境:分析师提交的“万字数据报告”被束之高阁,而一张简洁的“复购率趋势图+核心策略标注”却 ...
2025-11-14在实证研究中,层次回归分析是探究“不同变量组对因变量的增量解释力”的核心方法——通过分步骤引入自变量(如先引入人口统计学 ...
2025-11-13在实时数据分析、实时业务监控等场景中,“数据新鲜度”直接决定业务价值——当电商平台需要实时统计秒杀订单量、金融系统需要实 ...
2025-11-13在数据量爆炸式增长的今天,企业对数据分析的需求已从“有没有”升级为“好不好”——不少团队陷入“数据堆砌却无洞察”“分析结 ...
2025-11-13在主成分分析(PCA)、因子分析等降维方法中,“成分得分系数矩阵” 与 “载荷矩阵” 是两个高频出现但极易混淆的核心矩阵 —— ...
2025-11-12大数据早已不是单纯的技术概念,而是渗透各行业的核心生产力。但同样是拥抱大数据,零售企业的推荐系统、制造企业的设备维护、金 ...
2025-11-12在数据驱动的时代,“数据分析” 已成为企业决策的核心支撑,但很多人对其认知仍停留在 “用 Excel 做报表”“写 SQL 查数据” ...
2025-11-12金融统计不是单纯的 “数据计算”,而是贯穿金融业务全流程的 “风险量化工具”—— 从信贷审批中的客户风险评估,到投资组合的 ...
2025-11-11这个问题很有实战价值,mtcars 数据集是多元线性回归的经典案例,通过它能清晰展现 “多变量影响分析” 的核心逻辑。核心结论是 ...
2025-11-11在数据驱动成为企业核心竞争力的今天,“不知道要什么数据”“分析结果用不上” 是企业的普遍困境 —— 业务部门说 “要提升销量 ...
2025-11-11在大模型(如 Transformer、CNN、多层感知机)的结构设计中,“每层神经元个数” 是决定模型性能与效率的关键参数 —— 个数过少 ...
2025-11-10形成购买决策的四个核心推动力的是:内在需求驱动、产品价值感知、社会环境影响、场景便捷性—— 它们从 “为什么买”“值得买吗 ...
2025-11-10在数字经济时代,“数字化转型” 已从企业的 “可选动作” 变为 “生存必需”。然而,多数企业的转型仍停留在 “上线系统、收集 ...
2025-11-10在数据分析与建模中,“显性特征”(如用户年龄、订单金额、商品类别)是直接可获取的基础数据,但真正驱动业务突破的往往是 “ ...
2025-11-07在大模型(LLM)商业化落地过程中,“结果稳定性” 是比 “单次输出质量” 更关键的指标 —— 对客服对话而言,相同问题需给出一 ...
2025-11-07在数据驱动与合规监管双重压力下,企业数据安全已从 “技术防护” 升级为 “战略刚需”—— 既要应对《个人信息保护法》《数据安 ...
2025-11-07在机器学习领域,“分类模型” 是解决 “类别预测” 问题的核心工具 —— 从 “垃圾邮件识别(是 / 否)” 到 “疾病诊断(良性 ...
2025-11-06在数据分析中,面对 “性别与购物偏好”“年龄段与消费频次”“职业与 APP 使用习惯” 这类成对的分类变量,我们常常需要回答: ...
2025-11-06