京公网安备 11010802034615号
经营许可证编号:京B2-20210330
解读《大数据时代》:大数据时代的神话
地球人都知道我们处在大数据时代,或许地球人也都知道关于大数据时代最著名的一本书就是迈尔-舍恩伯格所著的《大数据时代》。
我本以为大数据这么高深的学问绝不是我们这样的屌丝能够理解或者使用的,所以一直对此书敬而远之,不敢阅读。不料周边谈论大数据的人越来越多,谈论《大数据时代》这本书的人也越来越多,似乎不读《大数据时代》,估计连屌丝都做不成了。所以斗胆请来《大数据时代》。一读,果然不懂,许多疑问。
何为大数据?
这是一个很令人困惑并且绝对屌丝的问题,平时都不好意思开口问别人,希望从书中得到答案。遗憾的是,迈尔大叔在书中就根本没有告诉我们什么是大数据,这对像我这样习惯在课堂里死记硬背的学生来说,就产生了轻微的智障:怎么似乎什么都是大数据。可要我记住哪一个却十分困难。
看完此书,我只能回答说大数据就是数据多数据大。可是这个回答似乎有明显的问题。迈尔大叔在书中就举了一个大数据的例子,这个大数据只有“4000”和“两小时”。
在解释大数据时代不需要精准性时,迈尔大叔这样写道:
“互联网上最火的网址都表明,它们欣赏不精确而不会假装精确。当一个人在网站上见到一个Facebook的“喜欢”按钮时,可以看到有多少其他人也在点击。当数量不多时,会显示像“63”这种精确的数字。当数量很大时,则只会显示近似值,比方说“4000”。这并不代表系统不知道正确的数据是多少,只是当数量规模变大的时候,确切的数量已经不那么重要了。另外,数据更新得非常快,甚至在刚刚显示出来的时候可能就已经过时了。所以,同样的原理适用于时间的显示。谷歌的Gmail邮箱会确切标注在很短时间内收到的信件,比方说“11分钟之前”。但是,对于已经收到一段时间的信件,则会标注如“两个小时之前”这种不太确切的时间信息。”
4000个“赞”或者两小时(120分钟)也是大数据?我开始崩溃了!
我想是不是迈尔大叔可能考虑到我们对过万的数字数不过来所以有意简化,挑选我们能够理解的“大数据”来说明他的论断。
指鹿为马是谓荒唐。可是,如果对马没有定义,那指鹿为马就无所谓了。
呵呵,迈尔大叔还真幽默。
何为大数据时代?
我读西洋人写的书,总是觉得读书时很爽,读完后基本记不住。读《大数据时代》也有同感。很多很多的大数据例子,读完合上书后基本上一个都记不住。不过迈尔大叔可能知道我的这个毛病,所以提纲挈领,总结了大数据时代的三大特征。这就是地球人都知道的大数据时代的三大特征:1)不是随机样本,而是全体数据;2)不是精准性,而是混杂性;3)不是因果关系,而是相关关系。
一本书,三句话,一个时代的特征!楚汉河界,泾渭分明,一目了然。
小数据时代是随机样本、精准性和因果关系,大数据时代是全体数据、混杂性和相关关系。
可是我的脑子就是转不过来,没法从迈尔大叔的三个简单扼要的特征总结中悟出大数据时代来。这个看上去忒简单的总结,其实真的很深奥。简直可谓深不可测!
一大堆的问题等着迈尔大叔来回答。
比如说,是不是大数据时代就不要随机取样分析了?小数据时代是否也有所谓的全体数据?比如说30年前互联网未流行前美国银行或保险公司拥有的数据是不是全体数据?怎样定义全体数据?谷歌、百度、FACEBOOK或者腾讯,哪个公司拥有所谓的全体数据?为什么有了全体数据分析就要完全抛弃随机样本分析?如果考虑到随机样本分析会影响到分析结果的精度,不是大数据时代不追求精度吗?
关于大数据时代不要精准性,我怎么也拐不过弯来。你说,大数据时代的老师教学生“2+2或许等于3.9”,公司会计记账错了也可以对老板理直气壮地说“现在是大数据时代了”,甚至到饭店吃饭付账也不要精准了....。.呵呵,这日子还让不让人活啊?!
还有有关因果关系和相关性的问题,这也要命!我一直认为人与猴子的根本区别在于人喜欢问个“为什么?”。原本两个猴子,一个不断好奇地问“为什么日落就要睡觉”,结果大脑不断进化变成了人;另一个只是看到日落就上树睡觉,结果至今还是猴子。现在好了,大数据时代不需要问“为什么”了,岂不苦了我们从猴子变人过程中长期培育起来的好奇心了。
因果关系与相关关系的区别,就是因果关系在相关关系上问了个”为什么“。
流传甚广的有关超市将啤酒与尿布一起卖的大数据例子。说是通过大数据分析发现,人们在买尿布时通常也会买啤酒,于是就将啤酒与尿布陈列在一起卖。
如果你生活在大数据时代,故事到此结束了。
如果你还好奇地想知道为什么人们买尿布时要买啤酒。呵呵,对不起,你和我一样还生活在小数据时代。
我们无疑生活在一个互联网的时代,这是一个充满海量数据的世界。数据的多种形式、数据的多种来源、数据之间的多种复杂的联系,都使我们这个世界变得更加神秘但也更加激动人心。这就是大数据时代。
对大数据时代的探索,犹如当年美国对西部的探险,充满许多传说和神话。《大数据时代》或许可能就是这样一本充满神话与传说的探险记。我们为之心动,但依旧要活在现实的生活中,现实生活中的那些规律依旧适用。
即使是大数据时代,我们依旧需要问”为什么“,我们依旧需要教会孩子“2+2=4”,我们甚至依旧要做随机样本分析。
大数据并没有改变我们现有社会的基本生活逻辑。
大数据时代,平常人,平常心。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16