京公网安备 11010802034615号
经营许可证编号:京B2-20210330
P2P大数据的争议与悖论_数据分析师培训
作为互联网金融的一种模式,P2P行业如何发展一直是舆论的焦点。其中最被大家推崇的一种观点是P2P的发展必须结合大数据,无论监管、媒体、还是我们从业者,都达成了共识,许多公司为之努力并且做了尝试。但是我却认为,P2P不能迷信大数据,大数据并不是万能的,与其执着于用大数据做风控,不如用来做营销。
一、P2P的大数据为什么做不了风控?
目前,在国内金融领域,用大数据做风控,成功的案例只有两家,一家是阿里小贷,另一家是证监会。阿里小贷通过卖家海量的交易信息和流水,在几秒钟内完成对商家的授信;证监会通过海量的交易信息挖掘出关联交易,捕捉老鼠仓的基金经理。也有其他一些电商平台号称利用大数据做风控审核,但是其模式的实质是应收账款质押融资(类似保理)或者是货物质押式融资。其实阿里和证监会之所以成功,原因在于两点,一、数据可以做到即时更新,既数据是鲜活的;二是平台本身对用户有约束力。这两点也被人们称为闭环的数据。那么问题就来了,目前国内的P2P公司并没有闭环的交易数据,对用户的约束力也不足够,那么又何来跟大数据结合一说呢?
有人说利用客户多维度的信息,例如近千个维度,对借款人做综合的评估。这种方式听起来不错,但实际情况是,对一个人信用的评估如果用这样的手段,会发现维度和维度之间并非相互独立的,而是有逻辑关系的,1000个维度中实际有用的维度可能只有100个,900个是没用的,也就是说这样一个风控模型几乎是建立不起来的,纬度的逻辑关系会有冲突,就算真的建立起来了,能通过该模型验证的也极可能是人格完美的人,例如耶稣和甘地,而不是金融信用良好的客户,不同的数据纬度应该对应一个人不同的方面,绝大多数的纬度根本体现和一个人金融信用的相关性。
再说数据来源,有一种说法是互联网上的社交数据可以作为参考依据,这其实牵涉到两个问题。其一,在互联网上人性是被放大的,现实中不敢说的话,在网络上却敢说,现实中内向的人在网络上或许会非常外向。也就是说互联网上的社交信息很难还原现实中人的信用;其二,社交信用并不一定能代表金融信用。据征信公司根据以往的征信记录来看,人的信用是多方面的,例如朋友信用、爱情信用、事业信用、其他社会信用和金融信用等,如果把每一类信用都看成一个面,其他几个面的信用与金融信用并不一定存在相关性。最近我去英国考察,国外有朋友用facebook上的社交数据做金融的尝试,即利用互联网上的个人信息评估其信用,并作授信。目前这项服务的相关数据还未披露,但是通过一些国外的朋友间接打听,网络上的社交金融可能并不成功,原因就在于此。
二、P2P的大数据如何做创新?
如果说P2P执着雨打数据风控,不如尝试用大数据做营销。事实上,大数据的提出者谷歌就是利用大数据做营销的。打比方说,现在新新贷有一位借款用户,如果他的借款次数在2次以上,且还款情况良好,可以通过数据分析,我们可以用系统的方式为他量身定制贷款方案,利率、手续费、还款方式、期限、额度等都会和原来的服务不同。
这个看似简单,背后要做的工作很多,首先要看过往的借款记录,新新贷会通过他的以往数据信息推算出他在什么时间节点需要资金周转,例如一个借款人申请借款的时间是8月,但可以通过计算得知他资金周转其实发生在6月,再分析数据,是因为5月份的货物滞压造成,再进一步分析造成货物滞压的原因。贷后管理中,客户经理会了解借款人的经营情况,根据更新过的数据,利用系统的方式推算出可能造成他下一次资金周转的时间,提前推送定制的服务方案。这种服务方案更像量身定制,而非让客户被动接受他不一定适合的信贷产品。在服务方案的制定过程中会根据他的年龄、学历、所在地区、交易流水等情况和数据库中类似的借款人做对比分析,评估他的优势劣势,和同行业企业的相似程度,根据以往借款人的额度、利率、还款方式等信息,重新评估当下借款人的额度、利率、还款方式等等。目前,我们已经尝试了几个这样的服务方案,做到了客户自己还没有发觉有融资问题是,我们就提前推送服务。
三、没有大数据,还能做数据挖掘
但是P2P最终还是希望用大数据完成授信和风险控制以降低服务成本。刚才已经谈到,那除非是用闭环的大数据才有可能,也就是说必须有数据即时更新和平台约束力两点。如果P2P无法直接做到这两点怎么办?我觉得可以通过其他的方式无限接近这两个特征。其一,不定期更新用户的数据,以我们来说,风控人员在客户贷后3个月后必须对客户进行2次尽职调查,对用户的信息做更新,重新评估其违约的概率。有人说这么做会增加成本,但P2P本来就在做商业银行和BAT都不做的脏活累活。对一家P2P公司来说,现在正处在数据原始积累的过程中,获取借款人越多真实数据越有利。未来P2P的核心竞争力与其说是风控能力,不如说是数据的积累和数据的处理能力。
另一方面,小微企业客户的账目往往混乱,在实际的风险控制中还需要还原他们的资产负债表和现金流量表,对他们进行财务输出,建立财务的标准,这些标准的信息积累就为数据积累做好了度量衡统一的准备。这些工作看似不够互联网化,不够科技化,但是只有这样的工作才能获得用户精准的数据,有效的数据,否则用系统的手段处理,就会在大量的洗脏数据的过程中,增加机会成本。
我个人认为,与其执着于在线上获取数据,不如脚踏实地在线下做好借款人的数据分析。例如,我们在数据积累的过程中,发现抽烟的借款人逾期率高于不抽烟的人,有宗教信仰的借款人逾期率低于没有宗教信仰的借款人,世界杯期间看足球的借款人违约率高于不看足球比赛的借款人。借款人的这些信息和数据几乎是没办法在线上获取的,即使获取也无法核实真伪,但是通过线下实地走访,这些信息很容易获得。这些有参考价值的数据对大数据和风险控制结合是有帮助,排除对借款人最有影响的地区、行业等因素,用户自身的一些行为是否存在相关性,是对风险控制审核的重要参考。
P2P结合大数据的路还很漫长,目前国内还没有成功的案例,大数据对P2P来说首先用于营销,其次用于风险控制,在数据的积累过程中去做更多深入的挖掘,可能才是真正的未来。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16