京公网安备 11010802034615号
经营许可证编号:京B2-20210330
解读《大数据时代》:大数据时代的神话
地球人都知道我们处在大数据时代,或许地球人也都知道关于大数据时代最著名的一本书就是迈尔-舍恩伯格所著的《大数据时代》。
我本以为大数据这么高深的学问绝不是我们这样的屌丝能够理解或者使用的,所以一直对此书敬而远之,不敢阅读。不料周边谈论大数据的人越来越多,谈论《大数据时代》这本书的人也越来越多,似乎不读《大数据时代》,估计连屌丝都做不成了。所以斗胆请来《大数据时代》。一读,果然不懂,许多疑问。
何为大数据?
这是一个很令人困惑并且绝对屌丝的问题,平时都不好意思开口问别人,希望从书中得到答案。遗憾的是,迈尔大叔在书中就根本没有告诉我们什么是大数据,这对像我这样习惯在课堂里死记硬背的学生来说,就产生了轻微的智障:怎么似乎什么都是大数据。可要我记住哪一个却十分困难。
看完此书,我只能回答说大数据就是数据多数据大。可是这个回答似乎有明显的问题。迈尔大叔在书中就举了一个大数据的例子,这个大数据只有“4000”和“两小时”。
在解释大数据时代不需要精准性时,迈尔大叔这样写道:
“互联网上最火的网址都表明,它们欣赏不精确而不会假装精确。当一个人在网站上见到一个Facebook的“喜欢”按钮时,可以看到有多少其他人也在点击。当数量不多时,会显示像“63”这种精确的数字。当数量很大时,则只会显示近似值,比方说“4000”。这并不代表系统不知道正确的数据是多少,只是当数量规模变大的时候,确切的数量已经不那么重要了。另外,数据更新得非常快,甚至在刚刚显示出来的时候可能就已经过时了。所以,同样的原理适用于时间的显示。谷歌的Gmail邮箱会确切标注在很短时间内收到的信件,比方说“11分钟之前”。但是,对于已经收到一段时间的信件,则会标注如“两个小时之前”这种不太确切的时间信息。”
4000个“赞”或者两小时(120分钟)也是大数据?我开始崩溃了!
我想是不是迈尔大叔可能考虑到我们对过万的数字数不过来所以有意简化,挑选我们能够理解的“大数据”来说明他的论断。
指鹿为马是谓荒唐。可是,如果对马没有定义,那指鹿为马就无所谓了。
呵呵,迈尔大叔还真幽默。
何为大数据时代?
我读西洋人写的书,总是觉得读书时很爽,读完后基本记不住。读《大数据时代》也有同感。很多很多的大数据例子,读完合上书后基本上一个都记不住。不过迈尔大叔可能知道我的这个毛病,所以提纲挈领,总结了大数据时代的三大特征。这就是地球人都知道的大数据时代的三大特征:1)不是随机样本,而是全体数据;2)不是精准性,而是混杂性;3)不是因果关系,而是相关关系。
一本书,三句话,一个时代的特征!楚汉河界,泾渭分明,一目了然。
小数据时代是随机样本、精准性和因果关系,大数据时代是全体数据、混杂性和相关关系。
可是我的脑子就是转不过来,没法从迈尔大叔的三个简单扼要的特征总结中悟出大数据时代来。这个看上去忒简单的总结,其实真的很深奥。简直可谓深不可测!
一大堆的问题等着迈尔大叔来回答。
比如说,是不是大数据时代就不要随机取样分析了?小数据时代是否也有所谓的全体数据?比如说30年前互联网未流行前美国银行或保险公司拥有的数据是不是全体数据?怎样定义全体数据?谷歌、百度、FACEBOOK或者腾讯,哪个公司拥有所谓的全体数据?为什么有了全体数据分析就要完全抛弃随机样本分析?如果考虑到随机样本分析会影响到分析结果的精度,不是大数据时代不追求精度吗?
关于大数据时代不要精准性,我怎么也拐不过弯来。你说,大数据时代的老师教学生“2+2或许等于3.9”,公司会计记账错了也可以对老板理直气壮地说“现在是大数据时代了”,甚至到饭店吃饭付账也不要精准了....。.呵呵,这日子还让不让人活啊?!
还有有关因果关系和相关性的问题,这也要命!我一直认为人与猴子的根本区别在于人喜欢问个“为什么?”。原本两个猴子,一个不断好奇地问“为什么日落就要睡觉”,结果大脑不断进化变成了人;另一个只是看到日落就上树睡觉,结果至今还是猴子。现在好了,大数据时代不需要问“为什么”了,岂不苦了我们从猴子变人过程中长期培育起来的好奇心了。
因果关系与相关关系的区别,就是因果关系在相关关系上问了个”为什么“。
流传甚广的有关超市将啤酒与尿布一起卖的大数据例子。说是通过大数据分析发现,人们在买尿布时通常也会买啤酒,于是就将啤酒与尿布陈列在一起卖。
如果你生活在大数据时代,故事到此结束了。
如果你还好奇地想知道为什么人们买尿布时要买啤酒。呵呵,对不起,你和我一样还生活在小数据时代。
我们无疑生活在一个互联网的时代,这是一个充满海量数据的世界。数据的多种形式、数据的多种来源、数据之间的多种复杂的联系,都使我们这个世界变得更加神秘但也更加激动人心。这就是大数据时代。
对大数据时代的探索,犹如当年美国对西部的探险,充满许多传说和神话。《大数据时代》或许可能就是这样一本充满神话与传说的探险记。我们为之心动,但依旧要活在现实的生活中,现实生活中的那些规律依旧适用。
即使是大数据时代,我们依旧需要问”为什么“,我们依旧需要教会孩子“2+2=4”,我们甚至依旧要做随机样本分析。
大数据并没有改变我们现有社会的基本生活逻辑。
大数据时代,平常人,平常心。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27