京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据“大”在哪里
“大数据”涵盖了人们在大规模数据的基础上可以做的事情,大数据让我们以一种前所未有的方式通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力。
作为2015年和2016年的重点话题,大数据在成为资本市场风口的同时,也上升到了国家战略层面。国务院在《推进普惠金融发展规划(2016~2020年)》中直接提到,“鼓励金融机构运用大数据、云计算等新兴信息技术,打造互联网金融服务平台”。于是,国内外各金融与类金融机构纷纷上马大数据应用,希望可以借此带来技术上的突破、提升获客能力、升级风控体系、探索新型态基于场景化的消费金融市场,一夜之间,大数据仿佛成了突破现有发展瓶颈的万能灵药。
对金融行业来讲,大数据“大”在哪?要理解这个问题,需要和传统数据做个比较。只有从本质上区分它们的不同,才能更好地理解和更有针对性地应用这一宝贵的新资源。
传统金融机构,在建设信用风险打分模型的数据来源主要有几个方面:第一,人民银行征信中心数据;第二,客户自己提交的外部个人财力证明数据,如房产证、汽车行驶证、单位开具的收入证明等;第三,金融机构或集团内部积累的客户历史数据,如银行的工资流水,历史贷款数据,保险数据等。传统数据优点是这些数据和金融的价值相关性高、数据采集规范。金融机构基于这些高价值数据,纷纷设计出各种信用风险评分模型,最终实现对客户信用风险的打分评估,是目前较为成熟的运行方式。
但这样获取的信息,其缺点也是显而易见的,主要表现在维度较小,覆盖的人群有限,对于新形态的互联网模式适应程度较差,也不容易达到普惠覆盖的目的。
在互联网时代,客户信息的获取渠道更加多元化,主要包括内部收集和外部渠道,内部收集指各互联网生态体系内,长期积累的用户数据。外部渠道则是指各种数据源采集,如通信数据、社保数据、法院失信数据、交通数据、保险数据等等。
大数据的诞生正好契合了互联时代的要求。大数据的“大”,首先体现在数据体量上,首先是指大型数据集,一般在10TB规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据;第三是数据处理速度快,在数据量非常庞大的情况下,也能够做到数据的实时处理。
基于以上几点,大数据特征反映在如下方面,第一,数据覆盖面广。各大互联网集团,通过各种APP采集积累了用户行为各方面的数据,如搜素历史数据、电商交易数据、支付交易数据、社交数据,以及各种APP采集的用户行为数据等等。第二,大量非结构化的破碎数据导致的数据不很准确。数据采集渠道的多元化和非标准化,随之带来的问题就是,客户信息不很准确,同一客户不同维度的信息经常不完整或匹配不上。第三,数据来源不稳定。不少大数据采集通过灰色渠道收集个人隐私数据,数据连续性和可持续性欠佳,往往有数据过时或缺失问题。第四,消费数据和信用数据关联性弱。
由此可见,大数据所谓的“大”,并非如传说中的那样能包治百病。随着传统数据源局限的被打破,社交数据、企业内容、交易与应用数据等新数据源的兴起,企业愈发需要有效的信息分析处理能力来确保其真实性及安全性。如同原油需要经过层层的提炼,才能成为人类可以大量应用的石油产品,大数据也需要经过精心的筛选和应用设计,才能起到实质的功效。
尽管市场上常见的大数据机构收集了各种维度的客户行为信息,试图描绘客户画像,但消费类的数据和客户信用风险以及还款意愿并不直接相关。目前的大数据公司往往缺少内部征信数据、外部征信数据、个人资产数据等强金融变量数据,而集中在客户衣食住行和社交信息,要直接拿来作为信用风险评分模型的有效性依旧有待考验。考虑到大数据和传统金融数据的差异性和互补性,所以更多的应该是如何通过模型的设计和提炼,使得这些大数据源经过提炼,可以从原油变成成品石油般广为应用。
“大数据”的概念其实是涵盖了人们在大规模数据的基础上可以做的事情,而这些事情在小规模数据的基础上是无法实现的。换句话说,大数据让我们以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10