京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代,你是否拥有“文科思维”
最近,我所在的团队为一家车贷公司搭建了一套信审数据模型,该模型可以根据贷款申请者的数据自动预测其在未来能否按时还款,决定是否通过用户的贷款申请。
相比人工信审,模型预测是全自动的机器过程,在保证判断准确率的前提下,它能为公司节省大量的人力成本。
项目在客户的工作地点开展,我们的工位处于一个信审专区,周围是大量的信审工作人员,他们每天的工作是审核贷款申请者的资料,联系申请者核实信息,工作间隙,我们总能听到有趣的对话:
信审员:“你有几个儿子?”
贷款申请者:“三个。”
信审员:“刚刚打电话给你老婆,她说你们只有两个儿子,这是怎么回事?”
贷款申请者身旁传来窃窃私语……
信审员:“你旁边的人是谁啊?你有几个儿子还需要别人来提醒你?”
……
对话进行到这里时,信审人员会在系统内记录下该申请者和配偶提供的信息不一致,存在可能的骗贷行为,这将成为该申请者能否被成功授信的“减分项”。
虽然目的均为实现快速、准确的信贷审核,但数据建模的工作逻辑与人工审核存在明显的差异。数据分析专家面对的是一串串数字,而业务人员面对的是鲜活的申请者。
数据分析出发点所有客户的申请资料,包括此人性别、年龄、资产情况等基本信息,以及一些来自第三方平台的风险数据(如该申请者有无犯罪记录),简单地说,我们工作的出发点是一张Excel表格。
反观另一面,信贷审核人员在处理每笔信贷业务时,他们除了面对每个申请者的具体信息,还会通过电话核实申请者的身份,最终作出人工决策。
数据表格是分析师们每天的工作伙伴
初入数据行业时,我以为只要玩转手中各种复杂的表格,写一手漂亮的建模代码,从透视表中找到有趣的发现,就足以成就一个让客户满意的项目。
然而,老板在入职第一天就语重心长地告诉我:“大数据是有局限性的,它无法替代你对真实业务的体会,这也是我们为何要驻场工作。”
在客户的呼叫中心驻场1个多月后,我似乎明白了老板挂在嘴边的这种“体会”。
大数据是我们认识世界的一种方式,它将关于你的一切量化为很多数据标签,然后将它们存储在表格里,比如你的性别是男性,今天打车回家花了30元,周末玩了两小时王者荣耀。
大数据的优势很明显,它具有一个对所有人通用的结构,每个用户这些维度的数据都会被记录在表格中,淘宝知道每个用户的双11消费能力,今日头条对你感兴趣的新闻了如指掌,信贷公司记载了你过往的信用记录。
然而,大数据的不足之处在于,它仅仅是对世界的一个切片,对于切片之外的事物一无所知。
面试官面试新员工时,首先会查看申请者的简历,简历上的教育背景、工作经验、语言能力是以固定结构记录的数据,然而申请者在面试中给予面试官的感受,比如她是气场强大的女神还是平易近人的萌妹子,大数据则无法给予答案。
在最近的项目中,我们通过数据发现那些教育程度较高的贷款申请者更容易在未来逾期还款,这听上去有些违背常理,然而精通业务的经理告诉我们这是合理的现象,那些所谓的高学历是申请者在填写表格时编造的。后者并不是大数据能够捕捉的行为,然而对理解申请者的行为至关重要。
金融大鳄乔治·索罗斯的团队在做出重要投资决策时,他们不仅仅关注能被写进表格的金融数据,同时亲自前往欧洲各地,在当地的酒吧与人们聊天,了解未来可能的宏观政策变化,索罗斯甚至依赖自己的背痛预判可能的风险。这些无法被标准地量化,甚至听上去有些荒谬的决策标准却成就了他们在1992年9月的“黑色星期三”狙击英镑,几周内赚取11亿美元的空前收益。
咨询顾问Christian Madsbjerg的《意会:算法时代人文科学的力量》一书是本文的主要参考书目,该书目前暂无中文版
通常,我们可以把人类认识世界的途径分为两种:
一种是如今家喻户晓的大数据;
另一种则是一直长久存在,却往往在这个时代被我们忽视的“厚数据”。如果将大数据比作对客观世界的标准化切片,厚数据则是我们在每个独特场景的深度感知。
简历上的文字是大数据,而面试官对申请者的感觉是厚数据;表格中教育程度一列等于“大学”是大数据,而填写者在背后的伪装是厚数据;股票、汇率的历史走势是大数据,而酒吧人们的闲聊和索罗斯的背痛是厚数据。
大数据的不足之处在于它缺乏厚数据携带的场景。存在主义哲学家海德格尔(Martin Heidegger)提出了“存在”(being)这一概念,它指的是世间万物存在的场景(context),我们对于任何事物的理解都不能将其孤立为一个元素,而是应考虑这个元素所处的具体场景,以及它与其它元素的相互关系。
海德格尔等人在他们的现象学(phenomenology)中对这个概念进行了更详细的阐释,现象学的目的在于描述事物真实存在的方式,而不是我们觉得他们应该存在的方式,而事物“真实存在的方式”必然离不开它所处的场景,而不是像大数据那样对现实进行标准化的切片。
需要注意的是,现象学中的“真实存在”,并不是指这件事必须在客观上是正确的,比如“世界上只有男和女两种性别”,而是当我们在某一场景下听到一个现象学的描述,被问及“你觉得是这样吗?”时,我们会点头表示同意。
同样的一杯红酒,在点亮烛光的法国餐厅与嘈杂的办公桌前饮用,注定是不一样的感受,虽然它们的化学质地是相同的。
同样是一个小时,在思修课堂和情人坡度过,必然是不同的长度,虽然它们的自然属性没有差异。
两名被数据标记有存在犯罪记录的贷款申请者,虽然数据将它们一视同仁,然而一位只是过失的交通肇事,另一位则有抢劫银行的前科,他们在未来的还款能力或许大相径庭。
身为数据工作者,当然希望数据和算法能尽可能多地代替人类的工作,但正如我们在项目中看到的,现实并非如此,仅仅面对数据和算法并无法洞察每个申请者所处的独特场景。机器学习与人类决策是相互补充,而非相互替代的关系。
这也是为什么,数据分析师们一定要驻场工作,因为只有像信审专员那样身处业务前线,才能对那些贷款的申请者形成更加深刻的体会。
之所以与大家分享场景、厚数据、现象学这些概念,是因为在这个大数据概念传遍街头巷尾的时代,我们极易选择用简单的数据标签衡量一切:
选择去哪家餐馆,只看大众点评的总体评分,并不在意网友的大段评论。
决定在哪里读大学,先看学校的综合及专业排名,不在乎学长学姐们分享的体会。
想了解用户对产品的满意度,只要求1000人在问卷上打分,不会深度访谈用户使用产品时的具体想法和感受。
后者事实上代表了一种以现象学为基础的“文科思维”,即我们只关注每个独特场景下的主观体验,不会尝试将许多场景标准化,然后贴上统一的数据标签。
研究文科思维的专家Christian Madsbjerg认为文科思维是培养我们对外界的敏感度的重要途径,所谓的敏感度,指的是我们察觉事物间微妙差别的能力。正如两杯红酒,在不同地点的1小时,两名数据画像相同的申请者,辨别它们之间的差异需要的正是文科思维。
Madsbjerg指出学习诸如艺术、历史、哲学、社会学、人类学这些人文学科是培养文科思维的重要手段。因为这些学科中存在大量基于具体场景的思考和感知,比如艺术课教你欣赏达芬奇的作品,社会学家擅长消费者深度访谈,人类学家喜欢实地观察原始部落等,它们不会教你如何将世界编码成一张数据表格,却能培养你洞察世间微妙区别的能力。
前段时间看了《看不见的客人》,这是一部悬疑剧,剧情围绕一名成功的银行家与一名女律师之间的对话展开,女律师试图帮助银行家摆脱杀人的罪名,但殊不知她就是杀人案中被害者的母亲。
《看不见的客人》中的女律师
与我一起看电影的小闷同学在女律师出场时脱口而出:“我感觉这个律师就是他妈妈。”她的感觉惊人的准确。
电影结束我问小闷,她是如何做出这样的判断的,小闷说律师的面部表情看上去很奇怪,不像一名提供专业服务的人,这显然不是机器学习算法所能实现的。
今天的内容或许能给小闷对外界的敏感提供解释:她是一名文科生,而且很喜欢看电影。
最后,与你分享一个关于文科生的好消息。薪酬调研公司PayScale曾做过一项调查,在薪酬排名前20的毕业生专业中,计算机工程、化学工程这样的理工类专业长期占榜,而社会学、历史学这样的人文学科则十分罕见。
这听上去符合我们的直觉,但如果我们观察那些收入排在前10%的人,具有政治科学、哲学、戏剧、历史背景的专业人士则会脱颖而出,宝洁前CEO雷富礼曾对实现商业成功单单提出一条建议:取得一个文科(或称“自由技艺”)学位(pursue a degree in liberal arts)。
这样的建议无疑是有道理的,毕竟,真实的世界不是电子表格。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20