京公网安备 11010802034615号
经营许可证编号:京B2-20210330
浅谈大数据在金融业的运用
“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。”
毫无争议的,我们已经进入到大数据时代。而金融业无疑又是大数据的最重要的应用领域之一。今天,我们就来简单谈谈大数据在金融业的应用,未尽事宜,可以留言(订阅号:洪言微语)讨论交流。
什么是大数据
关于这个,已经了比较标准的答案,就不在赘述了。所谓大数据,是指多个来源和多种格式的大量结构化和非结构化数据。有两个关键点:
一是大。即数据量要非常多,数量少了不叫大数据。在实践中,一般至少要有10TB(1TB等于1024GB,想想你32G的苹果手机,可以装多少数据?)的数据量才能称之为大数据,而在类似苏宁金融等互金巨头,基本都沉淀了PB级(1PB约等于105万GB,相当于3.3万个32G的U盘,截止目前,人类生产的所有印刷材料的数据量也不过200PB)的数据量。
大数据科学家JohnRauser就提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。啪菠萝·毕加索的定义是,大数据就是多,就是多,原来的设备存不下、算不动。这里强调的便是大。
二是数据来自多种数据源,数据种类和格式丰富,不仅包括结构化数据,还包括半结构化和非结构化数据。意味着,即便数据量很大,但如果局限于单个领域,也不能称之为大数据。因为大数据的一个重要作用就是利用不同来源、不用领域的数据进行非线性地分析,用于未来的预测。
比如,《大数据时代》在作者Schönberger的对大数据的定义就是,“大数据,不是随机样本,而是所有数据;不是精确性,而是混杂性;不是因果关系,而是相关关系”。这里强调的便是数据的多样性。
有了大数据,自然就要有大数据技术,即从各种各样类型的巨量数据中,快速获取有价值信息的技术,强调快,这是大数据技术与传统数据挖掘技术的重要区别。
从巨量数据中提取的有价值信息,即是大数据在各个领域的具体运用,比如基于大数据进行客群的细分,进而提供定制化服务;基于大数据模拟现实环境,进而进行精准评估和预测;基于大数据进行产品和模式创新,降低业务成本、提升经营效率等等。
不过,关于大数据的应用,有一个广为流传的段子,即:
“Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too .”
正如这个段子所讲,很多领域的大数据应用,还只是停留在想象的层面。
金融大数据数据领域应用逻辑
说道大数据在金融领域的应用,一般认为有精准营销和大数据风控两个方面。
精准营销就不说了,基于行为数据去预测用户的偏好和兴趣,继而推荐合适的金融产品,相比传统的短信群发模式,不知要先进了多少倍,这个大家都容易理解。
而对于大数据风控,其逻辑便在于“未来是过去的重复”,即用已经发生的行为模式和逻辑来预测未来。
统计学规律告诉我们,在实验条件不变的条件下,重复实验多次,随机事件的频率等于其概率。意味着,随着随机事件的大量发生,我们是可以发现其内在规律的。而大数据里面包含的海量数据,就为我们发觉隐藏在随机事件后面的规律提供了条件。
大数据风控的两个应用,信用风险和欺诈风险,背后都是这个逻辑,通过分析历史事件,找到其内在规律,建成模型,然后用新的数据去验证和进化这个模型。
以美国主流的个人信用评分工具FICO信用分为例,FICO分的基本思路便是:
把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势和经常违约、随意透支、甚至申请破产的各种陷入财务困境的借款人的发展趋势是否相似。
FICO评分是传统金融机构对大数据的运用,再来看看典型互金机构ZestFinance对大数据的运用,ZestFinance的客群主要就是FICO评分难以覆盖的人群,要么是在FICO得分过低金融机构拒绝放贷的人,要么是FICO得分适中,金融机构同意放贷但利率较高的人。
在ZestFinance的评分模型中,会大量应用到非征信数据(50%-70%左右),在其官方宣传中,提到会用到 3500 个数据项,从中提取 70,000 个变量,利用 10 个预测分析模型,如欺诈模型、身份验证模型、预付能力模型、还款能力模型、还款意愿模型以及稳定性模型,进行集成学习或者多角度学习,并得到最终的消费者信用评分。
而欺诈风险的防控,本质上也是通过对历史欺诈行为的分析,不断梳理完善风险特征库,比如异地登录、非常用设备登录等行为,都是一种风险信号,建立一系列的风险规则判定集,预测用户行为背后的欺诈概率。
几个待解决的问题
第一个就是数据共享的问题。大数据的应用,前提是要有大数据,而在很多金融机构而言,并没有所谓的大数据,何谈应用呢。我们知道,在次级类用户的信用评价中,非征信数据发挥着重要的作用,但是要获得有价值的数据并不容易。
一般来讲,盈利性质的商业公司和企业都不会轻易泄露自己的数据、建模方法和分析过程,这个无可厚非,但客观上便产生了这样一种效果,几大互联网巨头变成了数据黑洞,用户的数据进得去、出不来,可以为企业自身而用,但不能为整个行业或社会而用。此外,散落在税务、公积金、海关、工商等领域的数据梳理和整合,也是漫长的过程。
第二个便是数据保护的问题。正如我在之前的一篇文章《在上市平台信而富财报中,我找到了四个行业秘密》中提到,
“没错,数据是核心驱动力。但问题是,在数据保护和用户隐私等相关法律框架最终明确落地之前,对互金平台而言,数据既是宝贵的资产,也可能演变成为声誉风险、合规风险、用户诉讼风险等各类问题的潜在来源,是福是祸,尚是未知之数。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27