京公网安备 11010802034615号
经营许可证编号:京B2-20210330
浅谈大数据在金融业的应用
毫无争议的,我们已经进入到大数据时代。而金融业无疑又是大数据的最重要的应用领域之一。今天,我们就来简单谈谈大数据在金融业的应用。
什么是大数据
关于这个,已经了比较标准的答案,就不在赘述了。所谓大数据,是指多个来源和多种格式的大量结构化和非结构化数据。有两个关键点:
一是大。即数据量要非常多,数量少了不叫大数据。在实践中,一般至少要有10TB(1TB等于1024GB,想想你32G的苹果手机,可以装多少数据?)的数据量才能称之为大数据,而在类似苏宁金融等互金巨头,基本都沉淀了PB级(1PB约等于105万GB,相当于3.3万个32G的U盘,截止目前,人类生产的所有印刷材料的数据量也不过200PB)的数据量。
大数据科学家JohnRauser就提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。啪菠萝·毕加索的定义是,大数据就是多,就是多,原来的设备存不下、算不动。这里强调的便是大。
二是数据来自多种数据源,数据种类和格式丰富,不仅包括结构化数据,还包括半结构化和非结构化数据。意味着,即便数据量很大,但如果局限于单个领域,也不能称之为大数据。因为大数据的一个重要作用就是利用不同来源、不用领域的数据进行非线性地分析,用于未来的预测。
比如,《大数据时代》在作者Schönberger的对大数据的定义就是,“大数据,不是随机样本,而是所有数据;不是精确性,而是混杂性;不是因果关系,而是相关关系”。这里强调的便是数据的多样性。
有了大数据,自然就要有大数据技术,即从各种各样类型的巨量数据中,快速获取有价值信息的技术,强调快,这是大数据技术与传统数据挖掘技术的重要区别。
从巨量数据中提取的有价值信息,即是大数据在各个领域的具体运用,比如基于大数据进行客群的细分,进而提供定制化服务;基于大数据模拟现实环境,进而进行精准评估和预测;基于大数据进行产品和模式创新,降低业务成本、提升经营效率等等。
不过,关于大数据的应用,有一个广为流传的段子,即:
“Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too .”
正如这个段子所讲,很多领域的大数据应用,还只是停留在想象的层面。
金融大数据数据领域应用逻辑
说道大数据在金融领域的应用,一般认为有精准营销和大数据风控两个方面。
精准营销就不说了,基于行为数据去预测用户的偏好和兴趣,继而推荐合适的金融产品,相比传统的短信群发模式,不知要先进了多少倍,这个大家都容易理解。
而对于大数据风控,其逻辑便在于“未来是过去的重复”,即用已经发生的行为模式和逻辑来预测未来。
统计学规律告诉我们,在实验条件不变的条件下,重复实验多次,随机事件的频率等于其概率。意味着,随着随机事件的大量发生,我们是可以发现其内在规律的。而大数据里面包含的海量数据,就为我们发觉隐藏在随机事件后面的规律提供了条件。
大数据风控的两个应用,信用风险和欺诈风险,背后都是这个逻辑,通过分析历史事件,找到其内在规律,建成模型,然后用新的数据去验证和进化这个模型。
以美国主流的个人信用评分工具FICO信用分为例,FICO分的基本思路便是:
把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势和经常违约、随意透支、甚至申请破产的各种陷入财务困境的借款人的发展趋势是否相似。
FICO评分是传统金融机构对大数据的运用,再来看看典型互金机构ZestFinance对大数据的运用,ZestFinance的客群主要就是FICO评分难以覆盖的人群,要么是在FICO得分过低金融机构拒绝放贷的人,要么是FICO得分适中,金融机构同意放贷但利率较高的人。
在ZestFinance的评分模型中,会大量应用到非征信数据(50%-70%左右),在其官方宣传中,提到会用到 3500 个数据项,从中提取 70,000 个变量,利用 10 个预测分析模型,如欺诈模型、身份验证模型、预付能力模型、还款能力模型、还款意愿模型以及稳定性模型,进行集成学习或者多角度学习,并得到最终的消费者信用评分。
而欺诈风险的防控,本质上也是通过对历史欺诈行为的分析,不断梳理完善风险特征库,比如异地登录、非常用设备登录等行为,都是一种风险信号,建立一系列的风险规则判定集,预测用户行为背后的欺诈概率。
几个待解决的问题
第一个就是数据共享的问题。大数据的应用,前提是要有大数据,而在很多金融机构而言,并没有所谓的大数据,何谈应用呢。我们知道,在次级类用户的信用评价中,非征信数据发挥着重要的作用,但是要获得有价值的数据并不容易。
一般来讲,盈利性质的商业公司和企业都不会轻易泄露自己的数据、建模方法和分析过程,这个无可厚非,但客观上便产生了这样一种效果,几大互联网巨头变成了数据黑洞,用户的数据进得去、出不来,可以为企业自身而用,但不能为整个行业或社会而用。此外,散落在税务、公积金、海关、工商等领域的数据梳理和整合,也是漫长的过程。
第二个便是数据保护的问题。正如我在之前的一篇文章《在上市平台信而富财报中,我找到了四个行业秘密》中提到,
“没错,数据是核心驱动力。但问题是,在数据保护和用户隐私等相关法律框架最终明确落地之前,对互金平台而言,数据既是宝贵的资产,也可能演变成为声誉风险、合规风险、用户诉讼风险等各类问题的潜在来源,是福是祸,尚是未知之数。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28