
大数据与认识论一、主体与对象
传统认识论的认识主体是个人,或者基本上属于同一个“共同体”,具有相同或相似的“范式”的团队。近年来,越来越多的情况是,一方以种种方式委托另一方来认识某个对象,如咨询、课题,以及知识流程外包等,认识的意向方与实施方分离,分为甲方和乙方。知识外包是在拥有相当不同范式的各异的共同体之间。为完成甲方的特殊需求,乙方需编写特殊的程序和软件。相对而言,乙方和应用互联网大脑的人员具备专业的技术能力,委托方可以有特殊需求的科学家,更会有大量来自政府、企业界和社会的甲方,乙方需要相当熟悉甲方的需求才有可能完成后者外包的事项,以及向甲方提供可视化的分析。因而主体在分化的同时紧密相关。
随着认识主体的分化,认识的动机目的也发生相应的变化。“小科学”时代,认识为了求真;“大科学”时代,认识的动机承担越来越多来自社会的需求,较之以往更有可能发生知识的“社会建构”。大数据时代,“面对海量信息,任何人都只需要对自己有益和有用的信息”。一方面甲方的意图带有明显目的性,另一方面,乙方因与甲方分离而较少利益相关,有可能相对客观冷静地从事求真的研究。新的问题是:乙方如何判断甲方所委托事项的合理性。只管求真的乙方是否可以因认识主体的分离而免责,可以不顾其中的伦理道德,有求必应。在高度分化的认识主体之间还需要有关系到责权利等事项细致妥贴的制度安排。简言之,在大数据认识论中,认识主体高度分化并社会化。
从另一个角度看,大数据认识论的认识主体可以清晰地分为三个层次:政府、公司,以及个人,对应于国家、市场和社会。政府由大数据把握全局;公司由大数据了解政府与个人的需求,理解相关政策,洞悉竞争对手,以及掌控资源。一个健全的社会拥有与政府和公司处于均衡状态的个人。目前还看不到个人在大数据认识论中作为主体的地位和作用。可以确定的是,即使个人作为大数据认识论的主体,其影响也与政府和公司不可同日而语。在这样的层次中,马尔库塞曾经批判的“单面人” 隐约可见。
相对而言,在大数据认识论中,认识对象的变化更具有根本性。传统的认识论所涉及的认识对象是客观存在,是“世界1”(包括被看作世界1的生物学意义上的人类),而大数据认识论中的认识对象既非世界1,亦非世界2对世界1的认识结果亦即“世界3”(参见走进世界3-知识论之一),而是世界2的宏观表征。
大数据之所以得以成为研究对象,首先在于提供大数据的人和人际关系发生变化。近代以降,人是机器、单子,社会是由零件组装而成可拆卸的机器。随后,人是化工厂、细胞的王国,着眼点基本上都是单独的个人,因而心理学的对象是独立的个人。20世纪初,人“成长为”社会动物,个人的心理绕不过社会影响;反之,社会现象也需要下沉到个人心理予以说明;个人与社会难分难舍,其结果是,个人心理变幻莫测,社会现象杂乱无章。直到互联网时代和功能各异的社交网站出现。社会软件建立了一种新型的远程社会关系,从面对面地交往到数字操纵的交往,深刻地修改了已有的社会模式。“人类行为较之于相对独立的个体决策行为发生了显著变化,”构建了某种“心有灵犀一点通”而又变动不居的人际间的相关性,使得数据不再杂乱无章,而是成为有规可循的大数据,成为有价值的研究对象。“由于能够测得更准、计算得更加精确,社会科学也正在脱下‘准科学’的外衣,在21世纪全面迈进科学的殿堂”。
在现象层面,作为对象的大数据有以下特征:首先是所谓“4V”,即数据量大(Volume),类型繁多(Variety),价值密度低 (Value),以及速度快时效高(Velocity);在深层是人类在大的时空尺度,也就是在个体不可比拟的量级所显示出的前所未见的属性。“揭示冗余度支持的有统计意义的情报及其关联,从大众层面而不是个体层面来理解人类行为”。在某种程度上,大数据认识论不是由个体层面理解人类行为,正如实验心理学不是由单个脑细胞理解人的感知一样。
正因为此,作为世界3的大数据在某种意义上具有与世界1一个同样的特征:客观性。“传统民调需要设计问卷,可能有意无意引入主观因素,不能完全排除模糊歧义乃至误导。大数据是自底而上的自动数据分析,用的是归纳整合的方法,因此更加具有客观性。为了达成调查,调查者有时不得不施行物质刺激,这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露(水军和恶意操纵另论),基数大,也有利于降噪,这就保障了情报的客观性。”由此可以看出客观性的三点依据,其一即数据之大。这一点类似于所谓“主体间性”。显然,两三个人之间的主体间性与数以万计个体的主体间性不可同日而语。昔日社会学的一大困惑在于数据不够大,因而难以进行客观的研究。其二,数据之全,不仅是“二八定律”中的“二”,而且是“八”,也就是“长尾”,这就极大提升了普罗大众在社会生活中的权重。不过,随着“少数服从多数”成为现实,如何避免多数人的“暴政”,成为大数据时代有待解决的问题之一。其三,所谓 “自然流露”,也就是无意识。一方面,这种自然流露就是个体的主观意识,另一方面,个体并不知晓其作为大数据认识论的认识对象。大数据的客观,所需要的正是这样的“主观”。千万个这样相对纯粹的主观最终汇成客观。就此而言,作为世界2宏观表征的大数据可以归入波普尔的“客观知识”,也就是世界3。
作为认识对象的大数据所呈现出整体上的特定关系,可以借用“漩涡与人性” 的隐喻来说明这一点。网友评论说,如果把水分子用纳米碳管来输运,一样会出现“整体的拥堵”;反之,如果楼梯足够宽,人类下楼,怎么也不会出现这个拥堵。宏观流体定律基于最小颗粒尺度与所考虑的尺度相比可以忽略。在大数据里,个人相当于旋涡中的水分子,其“毛糙”(李德毅)的边缘和瞬间的变化可以忽略。由此再次可见,数据之“大”的关键地位。
大数据不仅具有“4V”的特征,而且处于不断增长之中。人类存在一天,大数据就与日俱增,永不枯竭。人们对于“物质无限丰富”尚有争论,至少还需要做一番解释,对于大数据,似乎甫一问世,即已是无限,乃至需要培育“删除”和“忘却”的“美德”(参见《删除:大数据取舍之道》——《互联网时代》观后4)。无限的大数据或将有助于解决资源的短缺,让有限的资源用到刀口上。
主体与对象的特殊关系也是大数据认识论与传统认识论的一个值得注意的不同点。其一,由于在大数据的背后是处于群体中的毫不知情的人,是众多社会关系的“总和”,于是认识主体譬如说某家公司,面对握有的大数据便有如同上帝俯视芸芸众生之感,认识主体与对象之间成为牧羊人与羊的关系,“羊”的隐私在 “牧羊人” 那里透明。此外,相应于认识主体的三个层次,自然也就有作为对象的不同数据。无疑,政府所面对的数据最“大”,公司次之。不过,跨国公司认识对象之大完全可能超过不少国家。个人所能够认识的数据在大小、内容和性质上均不可与政府与公司手上的数据同相提并论。个人以其数量之大,以及彼此间无意识的主体间性来平衡政府和公司。
其二,上帝会满足于“俯视”,有人则把对数据的占有和控制看作是在陆权、海权、空权之外的另一种国家核心资产。这一点在斯诺登所曝光的“棱镜” 中得到充分显示。IBM执行总裁罗睿兰则认为,“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。”大数据既可能“成为人类至关重要的自然资源”,也可能成为“另一种国家核心资产”。谁对大数据拥有产权,甚至主权?传统认识论以世界1为对象,世界1对任何人一视同仁,因而在认识论上并没有所有权之争,所有权主要是在实践层面,在应用领域。在大数据认识论中,所有权进入到认识层面。在这一点上,大数据不同于世界3。个人、公司、国家可以独自开发、独占其中的一部分。大数据不仅具有认识价值,而且拥有因人而异的使用价值。所谓的“计算社会科学”可能会变成私人公司和政府机构的专属领域,或许会出现占有私有数据的特权学术研究群体,无助于公众利益。美国伦理审查委员会委员(U.S. Institutional Review Boards)认为,必须增强技术知识来了解产生侵权和个人伤害的可能性,因为新的危害的产生条件不同于现存的模式。
其三,由此可以还引出一点,那就是技术手段在大数据认识论中的极端重要性。棱镜表明,技术手段可以用于发现、开发大数据,挖掘大数据中的金矿,以及在于控制和支配。由此可见,在大数据认识论中,技术比以往任何时候发挥更大的作用。对此有必要引起高度重视。“大数据时代,技术的有效性要比科学的完整性更重要!”
大数据,受到技术手段和权力的制约和影响。技术在于开发,关系到作为对象的大数据之大、之深,以及之利;权力在于选择、控制与支配,控制大数据的种类、以及透明和共享的程度,并由此支配放牧的羊。虽然主体与对象在一定程度上可以互易,此时此地的主体在另一个场合可能就成为他人的对象,不过,拥有更先进技术手段和更大权力者无疑更会是牧羊人。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-06-052025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27