京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据,假规律聚集地
在大数据逐渐成为时尚代名词的时代,越来越多的专家学者开始试图揭开大数据的时尚外衣,寻找大数据这堆稻草中一根有意义的针。
2012年下半年,几本有关大数据的畅销书陆续出版,从国内信息管理专家涂子沛的《大数据:正在到来的数据革命》,到艾伯特 . 拉斯洛 . 巴拉巴西颠覆《黑天鹅》的惊世之作《爆发:大数据时代预见未来的新思维》,再到维克托 . 迈尔 . 舍恩伯格的“国外大数据系统研究先河之作”《大数据时代》, 最终引爆了大数据。
然而,进入2013年之后,各路大数据研究者却逐渐从兴奋转入反思,以北京大学传播学教授刘德寰、阿里云总裁王坚等人的声音为代表。一句“云计算和大数据,你们都理解错了”,王坚成功地引起了大家的关注,他从“大数据”这个概念是否准确入手,剖析互联网领域的大数据与其他领域的大数据的区别,指出如今的数据最突出的特点“不是大”,而是“数据变得在线了”。
无独有偶,早在2012年6月13日的新浪微访谈上,北大教授刘德寰也阐述了自己对大数据的看法:“大数据一词我不十分同意,没有一定之规.....‘. 大’是一个相对值。”近日,《CIO Insight/信息方略》记者就由兴奋转入反思的大数据问题采访了刘德寰教授,以下是经过编辑整理的对话。
大数据,时尚代名词
CIOI:如今,很多事情都想与大数据沾边,不管是各种国内外IT会议论坛,还是热点话题。对于目前无处不在的大数据,你怎么看?
刘德寰:首先,大数据不是新事物,天文学、地质学、量子物理、基因学等领域早已有这个概念。现在的大数据热潮主要指的是互联网领域的大数据,与上述领域的大数据不同的是,因为人的复杂性,这个领域的大数据挖掘会更加困难。既然是关于人的研究就需要应用研究人的方法梳理大数据。
“大数据”一词我不十分同意,没有一定之规。主要是相对于原来统计软件的局限而形成的一个词汇。由于现在互联网痕迹的增加,数据已经对原来的统计软件形成了挑战,所以“大”是一个相对值。
如你所说,如今大数据已经无处不在,它已然成为一个时尚词汇,而且很多人对于大数据存在理解混乱。
CIOI:你所指的理解混乱包括哪些方面?
刘德寰:现在谈到大数据,基本有四个混乱观念:第一,大数据是全数据,忽视甚至蔑视抽样;第二,连续数据就是大数据;第三,数据量级大是大数据;第四,数据量大好于量小。与之相对应的是:抽样数据只要抽样合理,结论就是准确的;连续只是一个数据结构;大量级的噪音会得出错误结论;大小与价值关系不大。
CIOI:也就是说,对于维克托.迈尔.舍恩伯格在《大数据时代》一书中提出的三组重要对比(注:因果关系VS相关关系,随机样本VS所有数据,精确性VS混杂性)你否定了其中两组,那对于“不是因果关系,而是相关关系”这个观点,你有什么要说?
刘德寰:舍恩伯格在《大数据时代》一书中提出的被广泛接纳的:大数据“没有精确只有混杂,没有因果只有相关”观点是错误的,混杂的数据需要经过梳理成合理的数据才有分析价值,无论是牛顿、爱因斯坦,还是韦伯的理想类型都是在混杂中找寻分析方法,相关关系很多时候是在没有找到因果之前的认识,因果与过程理解是研究的核心。
稻草与针的故事
CIOI:大量级数据的噪音问题会对数据分析与挖掘的结论有何影响?
刘德寰:斯坦福大学教授Trevor Hastie曾说过这样一句话,数据挖掘是什么,就是在大规模的数据干草堆中寻找一根有意义的针,其麻烦在于“许多稻草看起来也像针”。
这是现在在数据挖掘的问题上面临的最大风险,海量数据带来的风险是处处都是假规律。数据太大,会带来规律的丧失和严重的失真,每个结论都是显著的,没有什么是不显著的,这样就太可怕了。
CIOI:这种风险的大小是由什么决定的?
刘德寰:数据量的大幅增加会造成结果的不准确,来源不同的信息混杂会加大数据的混乱程度。研究发现:巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加。那种认为“假设、检验、验证的科学方法已经过时”的论调,正是大数据时代的混乱与迷茫,人们索性拥抱凯文凯利所称的混乱。
CIOI:那怎样才能规避这种风险?
刘德寰:抽样。没有抽样的弥合,直接面对大数据,得出的结论基本上都是没有用的。所以大数据到来的时候,千万别像一个饿了好几天的人见到一个东西的吃法,会撑死的。
数据分析与挖掘VS数据整理
CIOI:谈到数据分析与挖掘,很多人都会提到啤酒与尿布的经典案例,尽管这个案例可以说已经非常陈旧了,你怎么看待这一点?
刘德寰:一个尿布与啤酒,还有一个现代汽车,是数据分析领域的两个非常经典案例。但是这两个案例都发生在20年前,数据挖掘已经谈了五十年,但却再没有第三个、第四个经典案例出现。这是因为现有的数据挖掘技术不能给商业决策者带来真正的洞察。其实,这更应该叫做数据整理。数据整理是什么?就如瞎子摸象,数据整理并没有摸清楚事物背后真正的规律,只是基于局部数据、某种行为监测整理出来的一个模型,这个模型甚至不能回答这个人想干什么,喜欢什么,这个人是怎样的人这些问题。
所以,要做数据分析与挖掘,首先就要把规律弄明白,把分析方法弄明白。
CIOI:大数据时代的数据挖掘应该怎么做,才能得出隐藏在无数假规律后面的真实结论?
刘德寰:上面已经提到,现在所说的大数据主要指的是互联网领域的大数据。互联网用户的基本特征、消费行为、上网行为、渠道偏好、行为喜好、生活轨迹与位置等,都反映用户的基本行为规律。体系完整是所有分析性工作的第一步,完整的框架甚至胜过高深的模型。
历程——族群——规律——验证,这是我认为比较好的数据分析与挖掘的框架。先要走历程,看整个事态发展的历程,找寻这个历程当中各个族群的规律,然后把这种规律,用抽样的方式找完之后,放置到大数据当中去不断地重新弥合。亚马逊从开始到现在一直是这样的思路,这也是亚马逊的广告推荐能够做到精准的原因,原因就在于其不是就大数据谈大数据,而是就人来谈大数据。
这也是数据挖掘的基本逻辑。数据挖掘的商业本质、结论,一定要极其简单,但是挖掘的过程一定要复杂复杂再复杂。如果反过来,数据挖掘过程很简单,一抓取,一排列,得出的结论五花八门,这是大数据时代面临的巨大风险。
CIOI:要做好数据挖掘,还需要关注哪些呢?
刘德寰:举个例子说明。有一个女性,突然一改以往的习惯,开始购买无香型乳液,同时购买某种维他命,微量元素中的锌和镁。这三种行为改变结合在一起说明,这个女性怀孕了。在这个过程中,我们有最基本的人的行为跟踪以及最基本的社会公共卫生知识的了解,这时候商家开始对其进行分析和营销,计算她的预产期,然后推荐各种婴儿产品广告。但是,商家一定要明白,如果这个人知道商家知道她怀孕了,她可能会非常的焦虑,因为她很可能不想被人发现她怀孕了。这时候,如果商家将婴儿床的广告放在稻草机的广告边上,然后一起给她,她的焦虑就会大幅降低。
这样才能真正做好数据挖掘。首先,生活变,行为才会变,要将关注点放在变化上。另外,非常重要的一点是,要关注人性,了解人性,要充分表现出对人的关怀。
CIOI:这也就是你一直说纯IT人员无法做好数据挖掘的原因吧?
刘德寰:对,要做好数据挖掘,必须要有市场研究人员、IT人员以及营销人员通力合作。数据建模首先要理解消费者,然后才能建立符合中国人的数据模型,要做到这些IT人员需要市场研究人员及营销人员的帮助。
CIOI:对于CIO们真正认识大数据,你有什么建议?
刘德寰:现实互联网领域被几本关于大数据的书籍所累,观念十分混乱,实际上,人类积累的数据经验是一切分析的基础,包括所谓的海量数据,这几本书的方法论横空出世,同时又没有落地,没有实际操作经验积累,误导性太强。要在认识的过程中,多向自己和他人提出问题,在思想碰撞与交流中促进思索,实现更深层次的认知。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在分类变量关联分析中(如 “吸烟与肺癌的关系”“性别与疾病发病率的关联”),卡方检验 P 值与 OR 值(比值比,Odds Ratio)是 ...
2025-11-05CDA 数据分析师的核心价值,不在于复杂的模型公式,而在于将数据转化为可落地的商业行动。脱离业务场景的分析只是 “纸上谈兵” ...
2025-11-05教材入口:https://edu.cda.cn/goods/show/3151 “纲举目张,执本末从。” 若想在数据分析领域有所收获,一套合适的学习教材至 ...
2025-11-05教材入口:https://edu.cda.cn/goods/show/3151 “纲举目张,执本末从。” 若想在数据分析领域有所收获,一套合适的学习教材至 ...
2025-11-04【2025最新版】CDA考试教材:CDA教材一级:商业数据分析(2025)__商业数据分析_cda教材_考试教材 (cdaglobal.com) ...
2025-11-04在数字化时代,数据挖掘不再是实验室里的技术探索,而是驱动商业决策的核心能力 —— 它能从海量数据中挖掘出 “降低成本、提升 ...
2025-11-04在 DDPM(Denoising Diffusion Probabilistic Models)训练过程中,开发者最常困惑的问题莫过于:“我的模型 loss 降到多少才算 ...
2025-11-04在 CDA(Certified Data Analyst)数据分析师的工作中,“无监督样本分组” 是高频需求 —— 例如 “将用户按行为特征分为高价值 ...
2025-11-04当沃尔玛数据分析师首次发现 “啤酒与尿布” 的高频共现规律时,他们揭开了数据挖掘最迷人的面纱 —— 那些隐藏在消费行为背后 ...
2025-11-03这个问题精准切中了配对样本统计检验的核心差异点,理解二者区别是避免统计方法误用的关键。核心结论是:stats.ttest_rel(配对 ...
2025-11-03在 CDA(Certified Data Analyst)数据分析师的工作中,“高维数据的潜在规律挖掘” 是进阶需求 —— 例如用户行为包含 “浏览次 ...
2025-11-03在 MySQL 数据查询中,“按顺序计数” 是高频需求 —— 例如 “统计近 7 天每日订单量”“按用户 ID 顺序展示消费记录”“按产品 ...
2025-10-31在数据分析中,“累计百分比” 是衡量 “部分与整体关系” 的核心指标 —— 它通过 “逐步累加的占比”,直观呈现数据的分布特征 ...
2025-10-31在 CDA(Certified Data Analyst)数据分析师的工作中,“二分类预测” 是高频需求 —— 例如 “预测用户是否会流失”“判断客户 ...
2025-10-31在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29