中国大数据的发展以及商业价值-CDA数据分析师官网

热线电话：13121318867

中国大数据的发展以及商业价值

2016-09-16

中国大数据的发展以及商业价值

首先小编给你分享一个小故事介绍大数据入门是怎么一回事：以前有个国王很高兴想奖赏他的宠臣，然后说让他来提任何奖励，这个大臣给国王看下面这个棋盘，是个8＊8的方格，如果我在每个标号的格子内放米粒，第一个格子放1粒米，后面的格子总是前面格子的两倍。那么问题来了，如果我把整个棋盘放满，需要多少米粒？我们学过级数的话，可以快速做个演算，它的推演是 1 + 2 + 4 ... + 2^63 ＝ 2^64 - 1 这个数字多大很多人没印象，反正如果真的要兑现的话，这个国家肯定是破产了。其实我把这个棋盘分成上下两半，在上一半总共需要的米粒是2^32, 这并不是个很大的数，其实前几年计算机的32位就是那么大，但下半场就完全不一样了，这是个平方级别的scale，宇宙中所有沙砾都标号也不需要这么大的数字。现在大家也经常听到什么手机64位处理器，其实并无实际意义。。

中国的大数据的发展

对于迅速成长的中国市场，大公司也意味着大数据，BAT三家都是对大数据的投入也是不惜余力，我4年前在Baidu的的时候，就提出框计算的东东，最近两年成立了硅谷研究院，挖来Andrew Ng作为首席科学家，研究项目就是百度大脑，在语音，图片识别大幅提高精确度和召回率，最近还做了个无人自行车非常有趣。腾讯作为最大的社交应用对大数据也是情有独钟，自己研发了C++平台的海量存储系统。淘宝去年双十一主战场，2分钟突破10亿，交易额突破571亿，背后是有很多故事，当年在百度做Pyramid（按Google三辆马车打造的金字塔三层分布式系统）有志之士，继续在OceanBase创造神话。而阿里云当年备受争议，马云也怀疑是不是被王坚忽悠，最后经历了双十一的洗礼证明了OceanBase和阿里云的靠谱。小米的雷军对大数据也是寄托厚望，一方面这么多数据几何级数增长，另一方面存储带宽都是巨大成本，没价值就真破产。

业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。

数据体量巨大(Volume)。截至目前，人类生产的所有印刷材料的数据量是200PB(1PB=210TB)，而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前，典型个人计算机硬盘的容量为TB量级，而一些大企业的数据量已经接近EB量级。

数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据，非结构化数据越来越多，包括网络日志、音频、视频、图片、地理位置信息等，这些多类型的数据对数据的处理能力提出了更高要求。

价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例，一部1小时的视频，在连续不间断的监控中，有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。

处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告，预计到2020年，全球数据使用量将达到35.2ZB。在如此海量的数据面前，处理数据的效率就是企业的生命。

大数据挖掘商业价值的方法主要分为四种：

顾客群体细分，然后对每个群体量体裁衣般地采取独特的行动。

模拟实际环境，发掘新的需求同时提高投入的回报率。

加强各部门联系，提高整个管理链条和产业链条的投入回报率。

发现隐藏线索，进行产品和服务的创新。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；