
IT从来是寂寞的,它没有鲜亮的外表和跌宕的故事供人消费。但借着大数据的东风,IT变得火热起来。各行各业都开始用大数据告诉你来造句。顺着所有公司都是IT公司的逻辑,那么,说什么都是在说大数据。
大数据在受到热捧的同时,受到的批评也不少。近日,一篇《大数据、大安利》的文章总结了几点国外对大数据滥用的批评,原文附录如下:
1,无意义的显著性:没有理论的大数据是皮毛,只看到显著相关性,但不经检验,没有理论,这样的相关是没有意义的,或许是虚假。关键是:大数据的data point太多,在计算上找到两个矢量的显著关系极其容易,但正是因为数据量大,控制虚假关系反而更难,这是一个两难。我有一篇文章投出去,匿名评审说:样本很大,当然能找到显著相关,但是看不出意义。
2,采样方法问题:统计学家方凯撒总结了一个现象,谷歌、facebook等网络收集的数据,往往不具有同质性,是在不同的时间用不同的资源收集,随后把整个数据合并起来,结果大数据内部许多部分的数据根本不是用同样的方法收集的,统计抽样的基本假设都被推翻了。而且网络数据和线下数据的内容不一致,比如华尔街邮报的电子版和纸版就不一样,而且用户可以自定义内容。
3,机器语言不稳定:谷歌最开始用关键字预测感冒流行地区,开始说比疾控中心预测的还准,但后来越来越不准。有人认为这是谷歌的搜索算法在不停地改进,所以自动收集数据不稳定了。另外机器语言一旦被误导会越错越离谱,比如谷歌翻译是根据真实的文章总结的,但是有些网络的真实翻译其实是谷歌翻的,于是谷歌会把自己的翻译基于这些真实文章上。
当企业提到大数据的时候,往往希望把全部数据收集起来,加以分析,这也是理想场景下的大数据分析应用。但很多时候,企业会受到技术和成本的掣肘,仍然采用抽样分析。实际抽样中往往需要分层,分层抽样的情况下,后期统计运算都必须一个权重,权重是和该层被选择的概率成反比的。一个分层的权重高,在分析中就不可忽视。大数据的问题是它只能收集到权重低的数据。
现实生活中也是这样,最容易研究的对象往往最无聊,心理学经常上课找大学生做实验,所以现在以大学生为样本的文章很难发表了。因此,有时大数据虽然大,却往往不重要。
无独有偶,《黑天鹅》一书也说到,决定社会变革的大部分是帕累托分布,并不是钟形分布,这表面上看来暗合了数据越大越不重要的观点。但实际上是对大数据的使用者有了更高的要求,怎样在海量的数据里挑选出看似风马牛不相及的变量联系在一起得出结论。
大数据因为概念松散,理论欠缺,被填充进了太多的假象。如何结合具体的应用场景,满足业务需求才是企业内大数据技术落地的正确方向。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-06-052025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27