大数据“大”在哪里-CDA数据分析师官网

热线电话：13121318867

大数据“大”在哪里

2016-06-20

大数据“大”在哪里

“大数据”涵盖了人们在大规模数据的基础上可以做的事情，大数据让我们以一种前所未有的方式通过对海量数据进行分析，获得有巨大价值的产品和服务，或深刻的洞见，最终形成变革之力。

作为2015年和2016年的重点话题，大数据在成为资本市场风口的同时，也上升到了国家战略层面。国务院在《推进普惠金融发展规划（2016～2020年）》中直接提到，“鼓励金融机构运用大数据、云计算等新兴信息技术，打造互联网金融服务平台”。于是，国内外各金融与类金融机构纷纷上马大数据应用，希望可以借此带来技术上的突破、提升获客能力、升级风控体系、探索新型态基于场景化的消费金融市场，一夜之间，大数据仿佛成了突破现有发展瓶颈的万能灵药。

对金融行业来讲，大数据“大”在哪？要理解这个问题，需要和传统数据做个比较。只有从本质上区分它们的不同，才能更好地理解和更有针对性地应用这一宝贵的新资源。

传统金融机构，在建设信用风险打分模型的数据来源主要有几个方面：第一，人民银行征信中心数据；第二，客户自己提交的外部个人财力证明数据，如房产证、汽车行驶证、单位开具的收入证明等；第三，金融机构或集团内部积累的客户历史数据，如银行的工资流水，历史贷款数据，保险数据等。传统数据优点是这些数据和金融的价值相关性高、数据采集规范。金融机构基于这些高价值数据，纷纷设计出各种信用风险评分模型，最终实现对客户信用风险的打分评估，是目前较为成熟的运行方式。

但这样获取的信息，其缺点也是显而易见的，主要表现在维度较小，覆盖的人群有限，对于新形态的互联网模式适应程度较差，也不容易达到普惠覆盖的目的。

在互联网时代，客户信息的获取渠道更加多元化，主要包括内部收集和外部渠道，内部收集指各互联网生态体系内，长期积累的用户数据。外部渠道则是指各种数据源采集，如通信数据、社保数据、法院失信数据、交通数据、保险数据等等。

大数据的诞生正好契合了互联时代的要求。大数据的“大”，首先体现在数据体量上，首先是指大型数据集，一般在10TB规模左右，但在实际应用中，很多企业用户把多个数据集放在一起，已经形成了PB级的数据量；其次是指数据类别大，数据来自多种数据源，数据种类和格式日渐丰富，已冲破了以前所限定的结构化数据范畴，囊括了半结构化和非结构化数据；第三是数据处理速度快，在数据量非常庞大的情况下，也能够做到数据的实时处理。

基于以上几点，大数据特征反映在如下方面，第一，数据覆盖面广。各大互联网集团，通过各种APP采集积累了用户行为各方面的数据，如搜素历史数据、电商交易数据、支付交易数据、社交数据，以及各种APP采集的用户行为数据等等。第二，大量非结构化的破碎数据导致的数据不很准确。数据采集渠道的多元化和非标准化，随之带来的问题就是，客户信息不很准确，同一客户不同维度的信息经常不完整或匹配不上。第三，数据来源不稳定。不少大数据采集通过灰色渠道收集个人隐私数据，数据连续性和可持续性欠佳，往往有数据过时或缺失问题。第四，消费数据和信用数据关联性弱。

由此可见，大数据所谓的“大”，并非如传说中的那样能包治百病。随着传统数据源局限的被打破，社交数据、企业内容、交易与应用数据等新数据源的兴起，企业愈发需要有效的信息分析处理能力来确保其真实性及安全性。如同原油需要经过层层的提炼，才能成为人类可以大量应用的石油产品，大数据也需要经过精心的筛选和应用设计，才能起到实质的功效。

尽管市场上常见的大数据机构收集了各种维度的客户行为信息，试图描绘客户画像，但消费类的数据和客户信用风险以及还款意愿并不直接相关。目前的大数据公司往往缺少内部征信数据、外部征信数据、个人资产数据等强金融变量数据，而集中在客户衣食住行和社交信息，要直接拿来作为信用风险评分模型的有效性依旧有待考验。考虑到大数据和传统金融数据的差异性和互补性，所以更多的应该是如何通过模型的设计和提炼，使得这些大数据源经过提炼，可以从原油变成成品石油般广为应用。

“大数据”的概念其实是涵盖了人们在大规模数据的基础上可以做的事情，而这些事情在小规模数据的基础上是无法实现的。换句话说，大数据让我们以一种前所未有的方式，通过对海量数据进行分析，获得有巨大价值的产品和服务，或深刻的洞见，最终形成变革之力。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；