京公网安备 11010802034615号
经营许可证编号:京B2-20210330
世界上有三种谎言——谎言,该死的谎言,以及统计数据。引自马克·吐温。本文的作者站在这个信息爆炸的时代,从多个角度展示了数据的欺骗性。有些是基于偏见,有些是方法不对,但总之,用数据说话,可能并没有想象的那么简单可靠。
这个世界不断的告诉我们数据会告诉你真相。但是同样的数据往往会告诉我们不同的故事,取决于是何种数据以及你如何解读。两个类似的数据,由于人们进行不同的解读,从而表现出两个截然不同的结论,这样的情况让我很怀疑什么才是真相。数据是人们手里的工具,而我们可以按我们的需要进行解释。需要澄清的是,这个问题并不是想说我们为了自己的目的而刻意隐瞒数据,虽然人们有的时候也有可能会这么做。我只是想强调,人类有可能会在解读数据的时候带有无意识的偏见。
在大数据时代,这是一个巨大的难题。当你看着不同的数据在同一个问题上向你展现完全不同的情况时,你如何找出问题的答案?
无论何时,数据都是可以被操纵的
Pam Baker是《数据占卜者:大数据策略》一书的作者,在书中,她从数据科学的角度来论述这一问题,但是她还是强调,首先你必须问对问题,才能得到正确的答案。
Baker在一封电子邮件中向我解释:“数据是根据其与精确问题的相关性被拉动的。算法包括对于问题尽可能明确的输入和回答方式。”
她说数据科学家有不少工具来做好这项工作,但是错误依然有可能发生。“当然总是有犯错的可能,但是数据科学和数据科学早在大数据出现之前就已经解决了很多的问题。事实上,如果错误的数据点使用的数据和算法是有缺陷的,那么答案就会是错误的或者有缺陷的。”
到目前为止这些都还是有效的,但是我们很清楚数据科学家的局限性。这么多公司中,我好像还没有听过哪家公司表达这样的意思,他们都在讨论数据,但是大部分公司都缺乏经验来理解这样一件事情:数据可以被操纵,给你你想要的答案。
早些时候,我在在波士顿的Gilbane大会上听到一个演讲者说了一大堆类似于,科学家说人们没有装那么多的应用,平均每个人只安装了10个。他同时也表示90%的人不介意收到垃圾短信。不过要知道,他所在的公司是一家专门为短信广告提供解决方案的公司。他分享了一大堆数据,给你提出了一大堆建议,但是如果你真的以这个为依据来设计方案,为你做的应用进行推广,那就真是傻缺了。
这个演讲者接下来展示了一个数据,这个数据告诉我们,每分钟都有15.4万个应用被下载。可是如果每个人只装少于10个应用,那怎么可能会保持在同一时间以那种节奏同时被下载?当你能清楚的认识数据之间的相互矛盾之处,就能理解,这些数据让问题变得不那么清晰。也许那句老谚语比我们想象的更有道理:“世界上有三种谎言:谎言,该死的谎言,以及统计数据。”
掌握数据不难,关键是学会数据的分析、判断
而当我们把数据放到普通人手里,而不是像Baker建议的那样交给数据科学家,那结果可能会很糟。尤其是这些试图利用数据贩卖他们的产品或者服务的营销者手中。更糟的是他们可能会试图用错误的信息来描绘他们美妙的市场结论。
Digital Clarity集团总裁Scott Liewehr表示,这样的情况非常危险。他告诉我,市场研究必须下大力气建立有效的调研,否则他们就有可能使用错误的数据得出错误的结论浪费公司资源。“对于市场营销人员来说,这是一个很大的挑战,每个人都可以拿着数据说任何他们想说的故事。”Liewehr告诉我。“如果他们不知道如何进行调研分析,那就有可能会造成一系列错误决定。”
Baker也同意上面的观点。但是她同时也说,商家也可以为数据整理提供帮助,因为他们的市场人员比数据专家更了解市场动态,如果能把这两者结合到一起,那就能够产生更好的结果。“有的时候市场人员和销售人员比数据科学家更知道该问些什么。这也就是为什么我们需要一个由不同的人组成的数据团队。”她说。
但是她同时也说,即便是可靠的人也并非总是能得到正确的信息。“有的时候企业用户会痛苦挣扎,结果却得出了错误的结论,因为他们不懂统计方法,以及其他必要的方法来完成这项工作。
即便你很小心,数据也并总能让你得出正确的结论
上周我做了一篇报道,是关于最流行的企业同步与分享工具的,而这个工具是基于541 Research的研究的。现在这是一家非常有信誉的公司,他们在公开研究成果之前已经运行着两个研究多个月了。我并非想对他们的研究成果进行毁谤,但是在那篇报道中我也怀疑他们是否问对了问题或者问对了人。他们不应该只是简单的看看一般使用率,而是应该仔细的询问企业用户许可和普通用户许可的比例,如果他们这样做,是不是会看到完全不同的结论?发觉数据并非你想像的那么简单,也并非我在这篇文章中所说的研究那么简单。
首先,451 Research的数据发现超过40%的有效报告使用Dropbox,这个比例远远高于其他企业,我报道这一发现的时候都吓了一跳。Box是整个云计算的典范企业,在市场调查中位列第四,受访者中大约有15%的人选择Box,但是这并不一定是整个故事的全貌。
Ilya Fushman是Dropbox企业产品的主管,他上周告诉我,Dropbox已经拥有了10万个商务用户(既有很小的企业,也有比较大的企业。)考虑到Dropbox是2013年4月刚开放这个产品,这个数字真是非常惊人。有趣的是,作为比较,Box告诉我他们拥有3.9万个企业用户,但是数量不能说明所有问题,因为Box拥有一些非常大的用户。
例如,Box的客户中拥有Eli Lilly,丰田,梦工厂,康卡斯特,MD Andersen以及葛兰素史克等巨头,而最近刚刚将30万份企业授权卖给GE。如果你把Schneider Electric的6.5万份许可,以及保洁的4.4万份许可的算上,你一定可以得出跟451 Research对于企业用户完全不同的结论,即便企业的总数量确实不同。
根据记录,我们很难发现Dropbox拥有多少用户,因为他们并不透露这样的数据,但是他们的大企业用户也包括很多品牌公司,比如Hearst,Hyatt,MIT以及新闻集团。而Dropbox也将一些比较小的企业的商标放在了他们的网站上。
Alan Pelz是451 Research的一位分析员,同时也是本研究的一位作者。他表示,他的团队依然在致力于优化方法,而他们现在公布的数据还只是他们长长的市场研究进程的一个开头而已。
“我认为十月份的调查数据像我们告诉我们一些新的事实——首先,Dropbox在企业领域拥有大量拥趸(这并不让任何人感到吃惊,尤其是他们的竞争对手)。这个市场还很不成熟,但是处在一个增长的阶段,而且现在很多的企业并不愿意把他们的数据放到公共云端。这些发展趋势随着时间的发展会变得非常有趣。而这个新的研究所要挖掘的信息就是谁将会真正成长出价值,而且随时间不断变化。而且我们正在为这个新出现的领域和新层面做细分市场研究以及收入模型的研究。”他在给我的电子邮件写道。
数据确实有巨大的价值,但是即便你非常小心,但依然有可能因为数据的歧义以及麻烦而得出错误的答案。因为即便我们拥有所有的数据,但仍然和现实会有偏差。而且你必须要保证你的数据对于特定的问题来说是准确的,而且遵循最佳的数据归纳法。即使这样,也有可能得出完全意想不到的结果。看来,跟随数据得出结论并不是像说的那么简单。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10