
听说的多,见过的少:大数据征信怎么做的
4月2日,北京温特莱大厦,宜信大数据创新中心副总经理雷鹏向记者演示了宜信大数据授信的成果。
一家在eBay上运营的商户,在授权宜信获得其相关经营数据后提交贷款申请,随后,几乎以实时的速度获得宜信十万元的授信额度。
雷鹏演示的是宜信基于大数据的信用贷款产品——商通贷,通过与知名电子商务平台eBay合作,面向eBay上的中国商户发放信用贷款,这一点与阿里小贷的模式比较相似。
互联网技术的发展,让大数据成为“风口上的那头猪”,但是有关大数据的应用多存在理念方面,大数据在现实生活的应用尚处于探索阶段。对于金融业至关重要的征信领域,大数据能够发挥多大的作用?以互联网金融公司为代表的新兴金融业率先对这一领域进行探索。
宜信自去年以来组建大数据创新中心,重点研究大数据征信的应用。商通贷是宜信探索大数据征信的一次尝试,于2014年9月开始运营。据宜信公司高级副总裁、大数据创新中心总经理张小沛透露,通过与eBay等电商平台的合作,宜信已经通过商通贷发放数亿量级的贷款,贷款逾期率几乎为零。而在此之前,宜信P2P业务宜人贷已经通过大数据征信开发出极速放贷模式,同样可以实现实时放贷,并保持相当低的逾期率。
现在的问题是:作为“听说的人多,看见的人少”的大数据征信的在现实生活中如何应用?通过宜信商通贷的研发或许可以得到一些答案。
宜信商通贷大数据征信样本
宜信在大数据上的投入可谓大手笔,为组建大数据创新中心,唐宁从美国找来一直致力于大数据研究的张小沛,此前,张小沛在美国HULU等平台负责大数据广告精准投放,对于大数据有多年实操经验,而其团队的多位科学家均来自HULU和国内科研机构。
去年9月份,宜信大数据创新中心推出商通贷,其目标客户是中小型电商。
以商通贷的合作伙伴eBay为例,在eBay上的中国商户多从事出口行业,对流动资金需求较高。
“在华南、华东有十几万外贸电商在eBay开店,然后将产品卖到全球去,这些人去银行融资挺难的,因为很多人是80后,可能车房等固定资产在手里头,银行就挺难去衡量他的信用的。”张小沛谈到宜信商通贷的目标客户时表示。
商通贷接入eBay平台后,商户只要授权宜信获得自己的经营数据以及社交等数据,宜信便可综合评估店铺经营数据,评价数据和其他互联网数据,结合自己独特的信用风险评分模型,在30秒内即可完成对申请者的授信,并作出付款判断,申请者最高可获得100万的授信。
欲在30秒内完成授信,大数据征信是核心,而数据采集正是难点所在。
数据采集最重要的是需要数据的真实性,这也是商通贷一开始选择eBay、亚马逊等国际电商合作的主要原因,以避免国内电商存在的刷单行为。
宜信在与eBay谈数据开放时,eBay法务部大约对这一合作审核了三个月的时间,其中很重要的原因是担心商户数据泄露。
“像这种合作都要在eBay美国审批,对一个美国公司在合作中要把数据分享给一家中国的实体来说,有非常多的问题和挑战,我们中间做了大量的工作,提供公司资质、各方面的良好的记录。” 雷鹏表示。
获得eBay同意和商户授权后,宜信商通贷才能接入商户后台进行大数据分析。其基本的原理是:宜信从eBay平台获取商户过去2年到4年的连续经营的记录,这些记录反映了商户的交易情况,包括退换货、客户满意度、物流,当这些信息被传递回来后。宜信再将这些数据放入大数据分析模型去判断,然后给商户一个合理的额度。
那么哪些数据是宜信大数据分析模型中所必须的变量呢?雷鹏认为可以分为四个方面:
第一,要确定借款人身份的真实性。首先确认借款人是真实的,在eBay业务的业务也得是真实的,这就需要商户开放数据给宜信。所以在申请材料中,店铺注册人与实际经营人是中国籍公民(港澳台除外),22-55周岁(含);
第二,要确认借款人的社交关系。人是社会动物,社交关系是真实存在的。亲朋好友之间的关系更是一种具有社会约束力的力量。
“孤零零一个人,很难将信用这个事儿变成一个有约束力的事儿。所以社交关系很重要,就是能形成一种社会的约束力。不按信用做事情会有社会压力。”雷鹏表示。他表示宜信可以通过技术手段,运用大数据透过各种网络信息获得个人的各种社交关系。因此,在申请贷款时,商通贷的借款人还要提交三个相应的联系人,包括亲属和同事等。
第三,经济能力和还款能力。宜信可以从平台上和其他数据源上获得借款人的综合信息,包括银行交易流水,退单情况,业务的季节性因素、客户满意度等,这些维度的数据可以用来确认借款人的还款能力的。
第四,还款意愿。有的人有还款能力,但有时候会忘记还款,有的人属于恶意拖欠。因此判断个人的还款意愿难度很大,宜信所做的是通过对借款人既往违约记录和对信用的守约性等额外信息的判断,包括电话欠费记录等。
“所以我们讲起大数据,可大到非常大,但是真的梳理逻辑,基本上就这四个大的维度,然后在这个维度内,逐一提供更丰富的信息,去更精准的判断。”雷鹏表示。
数据模型分析征信应用
要实现雷鹏所说的精准判断,宜信需要通过大数据征信模型对数据进行加工和深度分析,将所有的数据融在一起做成N个模型,然后对借款人的信用进行判断。
在美国做过多年广告搜索引擎的张小沛认为,所有的数据都是信用数据,宜信的大数据开放系统并不是传统金融机构应用的分析模型,在她看来传统金融机构应用的数据分析模型,最多只能放几百个变量,而在互联网广告精确搜索中可以将几十万甚至几百万个变量放进模型里,只需要通过机器学习,便可以对数据进行精准的分析,宜信的大数据征信模型正是将互联网的技术手段应用到了垂直的金融授信额度预估场景里面。
“机器学习没有那么神奇,要得出结论,必须要有一些样本数据,正样本和负样本,正样本是借债还钱的好客户,负样本是借了不还的客户。”张小沛表示。
从这个角度来说,宜信在8年多的时间里已经积累了200多万的客户,有大量的正负样本。而有的P2P企业刚刚起步就开始说自己可以做大数据分析,张小沛认为这种事情不可思议。
“他连正样本、负样本都没有,我都不知道是怎么做出来的。”张小沛表示。在她看来,即使只有正负样本其实也不一定能够做出精确的数据,因为还要有对整同维度领域的知识有深刻理解,这些都是走过弯路、交过很多学费走过来的.
张小沛所说的弯路和学费,其实是指宜信在多年的经营过程中出现的违约现象,而这些违约现在从大数据分析的角度来看,反而可以作为参考样本,加入数据分析模型中,进而实现更为客观的征信判断。同时她并不认为数据模型可以完全的避免出现违约,而是一个不断修正和不断迭代过程。
“如果模型算出来百分之百都是对的,那是有问题的。说明整个金字塔里头你只考虑到尖端人群,所以不管做精准广告还是做信用信贷的审核,当看到每一个都是正确的时候,应该非常谨慎的下探,去探索边界,找到平衡。否则你就漏掉了太多值得服务的人群。”
但是即便如宜信这样在普惠金融领域深耕多年,并积累多年的数据资源,走过很多弯路的互联网金融企业,在应用大数据方面也存在不少掣肘。
“撬动社会多方的资源才可能真正形成大的大数据,所以在这个地方真正难度大的地方不是在技术上,而是在数据的来源上。”雷鹏对凤凰财经表示。
而数据来源的难点也不只是在采集上,雷鹏认为难点是各个利益方怎么样进行合作,自愿地把数据分享出来。实际上真正把这个分享落地的过程中,信用关系是一方面,利益分配是另一方面,技术操作、落地、还有时效性都是可能潜在的挑战。为此,在推出商通贷的过程中,宜信并不仅仅介入ebay等电商平台,还和其他数据平台有合作,以获得庞大的数据进行分析。
宜信最希望接入的数据方就是央行征信中心的数据,但是由于互联网金融公司法律地位未明,至今这一需求尚处于探索之中,唐宁认为互联网金融公司接入央行征信系统已经到了临门一脚的时刻了。
在唐宁看来随着互联网金融发展,随之产生了一人多贷,多头负债等问题,如果P2P能够接入到央行征信之中,一方面是从央行那里获取数据,一方面把宜信多年积累的上千万数据能够央行征信体系之中,对于整个的金融体系建设非常重要。
“就我们几年下来积累的话,真正服务过的客户就有真正快两百万,那么真正有申请的话来讲的话,那是上千万,这是非常宝贵的数据。”唐宁表示。
商通贷应用场景探索
商通贷在推广中要解决的是应用场景的问题。当前,国内大型电商如淘宝、天猫、京东均在打造自身的金融体系,阿里旗下的阿里小贷可以为淘宝、天猫上的商户服务,并积累了多年的运营经验,后来者如京东也在不遗余力的打造自己的供应链金融,二者的共同点是打造自己的商业闭环。
目前的情况是,做金融出身的宜信并不具备这种商业闭环的条件,但在唐宁看来专业做金融是自己的优势所在,毕竟随着互联网的发展,电商将成为趋势,而不是几家电商平台高度垄断,而商通贷瞄准的恰是这部分中小电商。另外,他认为随着电子商务的发展,电商与金融的分工会更加明确。
以美国为例,ebay和亚马逊都是巨无霸型的电子商务平台,他们并没有做自己的金融系统,而是专业的做电商,在金融领域选择和其他金融企业合作,而中国实现这种分工还需要一个过程。虽然如此,张小沛认为宜信的第三方身份也有利于其与其他电商合作,而不是向京东与阿里一样互相排斥。
“你专注做你的电商,我来帮你做金融服务,嵌到你的场景里头去,实际上是帮你提高转化率的,帮你把你的闭环做得更顺畅这样子的,我这个中间各自有各自的价值,最后是共赢的关系。”张小沛表示。
此外,相对于阿里与京东的闭环模式,宜信商通贷还面临着对商户掌控能力的挑战。
以阿里小贷为例,阿里巴巴掌握了天猫与淘宝上的商户的经营数据,一旦这些商户出现借贷违约情况,阿里小贷具有较强的主动性,可以减少自身的损失。而商通贷主要通过与其他电商平台的合作,获得授权方能获得用户数据,而且对商户不具备强制性。这要求宜信必须在大数据分析上拥有更强的竞争力,而这对刚刚起步的大数据征信是一个挑战。
在唐宁看来,宜信已经在大数据征信上处于领先地位,一旦把这个挑战解决了,宜信商通贷就可以面向所有电商平台和数据伙伴提供服务,并不局限于某一个体系之中,这需要宜信在大数据征信中不断的探索。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01