京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据风控已显山露水 哪些数据才是风控所需?
美国科学家近日宣布探测到引力波的存在,如获证实,将是物理学界里程碑式的重大成果。一时间,“引力波”成为热词,相关的知识普及也随之而来。然而,5年前国内一位下岗工人在节目上提及引力波时,却遭到了在场嘉宾的讥讽,这位工人还没有对自己的“发明发现”做详细阐述,便被频频打断和否定,只得匆匆下场。五年后的如今,引力波被捕捉到有存在的痕迹,着实是戏剧化的一幕。
当引力波还是一个新鲜事物时,人们没有预见到它的未来,甚至有人无知地直接否认它的存在。这让我也想到“青蒿素”,在屠呦呦教授没拿奖之前也无人所知。然而,纵然当初无人问津,如今可不是大放异彩。
如今的“大数据风控”这一词,或许就如五年前的“引力波”、一年前的“青蒿素”一样,尚处于一个初生试水、萌芽之姿的阶段,机遇与挑战并存。一方面,不可否认地存在鱼龙混杂、乱象丛生的问题,”挂羊头卖狗肉”有名无实的事例也有,对于一些没有核心数据却吹嘘数据风控的大忽悠平台我们当然要擦亮火眼金睛。做大数据风控本要求的是硬技术,谁能真正掌握谁才能扎根发展,行业内已经出现了一些有益的探索,显示了用大数据做风控的优势。
大数据风控已显山露水
目前市场的大数据风控系统现状是:大公司通过大数据挖掘,自建信用评级系统;小公司通过信息分享,借助第三方获得信用评级咨询服务。
已有的风控大致分为两种模式,一种是类似于阿里的风控模式,他们通过自身系统大量的电商交易以及支付信息数据建立了封闭系统的信用评级和风控模型。另外一种则是众多中小互联网金融公司通过贡献数据给一个中间征信机构,再分享征信信息。
那么,哪些数据才是风控所需的呢?
1、电商大数据
电商平台能够累积大量的交易信息,可作为信用评级参考的原材料。阿里金融是利用电商大数据进行风控的领头羊,在很多行业人士还在云里雾里的时候,阿里已经建立了相对完善的大数据挖掘系统。通过阿里巴巴、淘宝、天猫、支付宝等积累的大量交易支付数据作为最基本的数据原料,再加上卖家提供的销售数据、银行流水、水电缴纳等情况作为辅助数据原料。所有信息汇总后,将数值输入网络行为评分模型,进行信用评级。
2、信贷记录大数据
小贷类网站积累的信贷大数据包括信贷额度、违约记录等等。但单一企业缺陷在于数据的数量级别低和地域性太强。还有部分小贷网站平台通过线下采集数据转移到线上的方式来完善信用数据。这些特点决定了如果单兵作战他们必定付出巨大成本。因此,贡献数据、共享数据的模式正逐步被认可,抱团取暖胜过单打独斗。
3、社交网站大数据
社交大数据是风控大数据的一个重要组成部分。通过社交人际网络关系数据和生活圈中其他如水电煤缴费信息、信用卡还款信息、支付和交易信息等,可以多方面地反映出用户的习惯偏好、价值取向、人际交往、信誉度和活跃度等信息。
利用社交网站大数据进行网络借贷风控的典型是美国的Lending Club。Lending club于2007年在facebook上开张,通过在上面镶嵌的一款应用搭建借贷双方平台,利用社交网络关系数据和朋友之间的相互信任聚合人气。借款人被分为若干信用等级,但是却不必公布自己的信用历史。
4、信用卡借记类数据
信用卡类网站的大数据同样对互联网金融的风险控制非常有价值。申请信用卡的年份、是否通过、授信额度、卡片种类;信用卡还款数额、对优惠信息的关注等都可以作为信用评级的参考数据。
5、消费数据
第三方支付类平台做风控的机遇在于,能基于用户的消费数据做信用分析。支付的方向、每月支付的额度、购买产品品牌都可以作为信用评级的重要参考数据。
6、生活服务类数据
生活服务类网站的大数据如水、电、煤气、有线电视、电话、网络费、物业费交纳平台则客观真实地反映了个人的基本信息,是信用评级中一类重要的数据类型。
大数据的海量也就意味着,对数据的理解和对有效数据的挑选非常重要,并非所有数据都是风控有用信息。要选取哪些数据原料进行挖掘,什么数据才是金融风控真正所需的,对数据的类型和实效性都要有所考量。
17年前,很多人认为互联网是泡沫,现在证明互联网没被高估;7年前,很多人认为电子商务是泡沫,但今天中国已经有几亿人的电商市场。如今,大数据风控方兴未艾,也伴随着一些泡沫,但只要它朝着健康的方向发展,未来已来。大数据的相关理论与分析方法,很好地弥补了数据获得的时间连续性、数据的地理位置分布、数据样本的覆盖程度等传统分析方法中的不足,其精准度更高、覆盖面更广和响应速度更快的特点,运用到风险防控中大有裨益。大数据风控本身并非是忽悠,是真的具有发展的潜力,只是其研究还更待成熟。
最后借助苏萌教授在进行大数据辩论时的一句总结:所有新鲜事物都需要一定的泡沫,才能吸引到更多的投资和关注,最终才能让真正好的东西沉淀下来。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据统计分析中,卡方检验是一种常用的非参数检验方法,核心用于判断两个或多个分类变量之间是否存在显著关联,广泛应用于市场 ...
2026-05-18在企业数字化转型的浪潮中,很多企业陷入了“技术堆砌”的误区——上线了ERP、CRM、BI等各类系统,积累了海量数据,却依然面临“ ...
2026-05-18小陈是某电商平台的数据分析师。老板交给他一个任务:“我们平台的注册用户已经突破1000万了,想了解一下用户的平均月消费金额。 ...
2026-05-18【专访摘要】本次CDA持证专访邀请到拥有丰富物流供应链数据分析经验的赖尧,他结合自身在京东、华莱士、兰格赛等企业的从业经历 ...
2026-05-15在数字化时代,企业的每一次业务优化、每一项技术迭代,都需要回答一个核心问题:这个动作到底能带来多少价值?是提升了用户转化 ...
2026-05-15在数据仓库建设中,事实表与维度表是两大核心组件,二者相互关联、缺一不可,共同构成数据仓库的基础架构。事实表聚焦“发生了什 ...
2026-05-15 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-05-15【核心关键词】互联网、机会、运营、关键词、账户、数字化、后台、客户、成本、网络、数据分析、底层逻辑、市场推广、数据反馈 ...
2026-05-14在Python数据分析中,Pandas作为核心工具库,凭借简洁高效的数据处理能力,成为数据分析从业者的必备技能。其中,基于两列(或多 ...
2026-05-14 很多人把统计学理解为“一堆公式和计算”,却忽略了它的本质——一门让数据“开口说话”的科学。真正的数据分析高手,不是会 ...
2026-05-14在零售行业存量竞争日趋激烈的当下,客户流失已成为侵蚀企业利润的“隐形杀手”——据行业数据显示,零售企业平均客户流失率高达 ...
2026-05-13当流量红利消退、用户需求日趋多元,“凭经验决策、广撒网投放”的传统营销模式早已难以为继。大数据的崛起,为企业营销提供了全 ...
2026-05-13 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-05-13在手游行业存量竞争日趋激烈、流量成本持续高企的当下,“拉新”早已不是行业核心痛点,“留存”尤其是“付费留存”,成为决定手 ...
2026-05-12 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-05-12用户调研是企业洞察客户需求、优化产品服务、制定运营策略的核心前提,而调研数据的可靠性,直接决定了决策的科学性与有效性。在 ...
2026-05-11在市场竞争日趋激烈、流量成本持续攀升的今天,企业的核心竞争力已从“获取流量”转向“挖掘客户价值”。客户作为企业最宝贵的资 ...
2026-05-11 很多数据分析师精通Excel单元格操作,熟练应用多种公式,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质 ...
2026-05-11在互联网运营、产品优化、用户增长等领域,次日留存率是衡量产品价值、用户粘性与运营效果的核心指标,更是判断新用户是否认可产 ...
2026-05-09相关性分析是数据分析领域中用于探究两个或多个变量之间关联强度与方向的核心方法,广泛应用于科研探索、商业决策、医疗研究、社 ...
2026-05-09