
大数据不能替代理性思考_数据分析师培训
有关大数据的讨论,几年间已经从早期的概念发展到今天的应用,应用领域也已从早期的商业领域拓展到学术领域、政策领域。首先,大数据特殊之处在于其数据来自于全体,而不再是部分数据的采样。采样数据无论如何抽取都会有抽样偏差,进而可能导致结果的偏差,在这个意义上,大数据时代,可以依靠强大的数据处理能力处理全部的数据,这是多么令人兴奋。其次,数据作为知识的重要来源,抽样调查数据也好,二手文献数据也好,人们均是从中进行分析并获取知识,但这类数据中包含的变量总归有限,知识的获取也因而受限,而大数据将大量结构复杂、类型众多的异构数据结合在一起,构成有无限组合可能的数据集合,使用计算能力可以无限扩充的云计算来进行,作为知识生产来源的大数据的数量级别进而达到PB级,因此其中潜藏的知识不知几何,人们获取知识的能力也可能会大大增加。
大数据的先行者通过各种数学和物理算法在大数据中掘金,一些人类过去未能发现的潜在关联被发现和应用,并取得了瞩目的成就和进展。基于此,大数据理论基本都提出:基于大数据发掘出的“有效”相关性关系即可进行预测;有效性不需要知道“为什么”,知道“是什么”即可。数据和算法驱动研究成为大数据研究的主要范式。我相信,大数据的无预设前提的数据驱动的相关关系的挖掘,有着解放人类被理论局限性束缚的手脚的功用。但是,我们会不会走出一个陷阱,又踏入另外一个陷阱呢?
我首先想讨论的第一个问题是,来自于全体数据的结论就是可靠的吗?在我参加的一次博士论文答辩中,答辩人报告,她使用全国人口普查数据发现,老年人的健康与财富之间的关系是:老年人健康水平越低则财富越多,或者反过来说,老年人财富越多越不健康。评委当时一片哗然。事实上这是合情理的,其机理就是,一个越不健康的老人,就需要越多越好的医疗资源才能存活,而越多的财富能保证其越多越好的医疗资源。因此,相同的不健康状况的老人中,钱越多则具有越高的生存概率。换个角度看,不健康的老人中,没钱的死了,有钱的活下来了;越是不健康的老人中,只有越有钱的才能存活。因此,全体数据的结果是:老人的财富与健康呈现出负相关。这是来自于全体数据的结果,显然是合理的,但其显示的相关关系却有些荒谬。
这样就导致了我的第二个问题:追求这样的相关关系有价值吗?这样的相关关系可信吗?我想读者都不会相信,健康与财富呈现出的负相关是正确的相关关系,而出于理性,相信的恰恰是健康与财富应该呈现出正相关的关系。在这里,社会实体所表现出来的模式显然违背了我们对社会的理论认识。我们都知道,理论是现实在头脑中的反映,但是这个例子告诉我们,人类通过理性建构的理论并非社会现实在头脑中的简单反映。这里,我提出一对概念来阐述我的观点。变量之间的关系有两种表现形式,一种是社会实体的表现形式(real pattern),一种是社会理论的表现形式(relation pattern)。前者是社会实体直接体现出来的变量和变量之间的相关关系,后者是学者通过理性思考建构的理论空间的因果关系。变量在社会实体上表现的相关关系,由于社会实体的选择性偏误(例子中是由死亡的非随机性造成),导致了相关关系的扭曲,甚至相反。因此,人们宁愿相信自己的理性,而不愿只是机械地接受社会实体表现出来的模式。
人类的理性,使得我们知晓变量间在社会实体上的表现形式并不必然等于社会理论上的表现形式。对大数据使用数据驱动,能获得的仅仅是社会实体上的表现形式,这可能与理论空间的因果关系一致,也可能完全相反。因此,放弃人的理性思考,放弃获得具有严密因果逻辑的理论上的表现形式,使用找到相关关系即可的大数据分析范式——数据驱动,在我看来是无法接受的。大数据的分析,仍然需要理论驱动和理论理解所建构的因果关系。因此,无论如何精巧的大数据分析工具的使用,都不能代替生产工具的人的理性思考。“武器的批判”并不能取代“批判的武器”。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-06-052025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27