京公网安备 11010802034615号
经营许可证编号:京B2-20210330
2011年,西方有关""大数据""(big data)的理论像旋风一样席卷知识界,大数据的学术讨论接连不断。媒体火热的爆炒,各种危言耸听的结论,充满种种迷思,谷歌上竟有13多亿条这方面的报道和言论。我国IT业和新闻界也开展了探讨,并发表多篇文章,西方的""数据驱动新闻""(data-driven journalism)、""数据决定话语自由""(allowing the data to speak freely)的说法在国内流行起来。许多文章声称,媒体如不谙熟和掌控大数据洪流,将导致厄运,新闻报道的固有规律也将被颠覆。
一、""大数据时代""的虚构
最早提出""大数据时代""这一概念的是世界知名咨询公司麦肯锡(MGI)。麦肯锡在研究报告中指出,我们这个世界的数据量已经爆炸,分析大数据将成为竞争的基础,支撑新的生产力增长。数据逐渐成为生产要素,人们对海量数据技术的运用将预示新一波生产率增长和消费者盈余的提高。
大数据技术带来社会的上述变化,是否意味一个新时代的开始?大数据时代和信息时代有根本区别吗?
""时代""这一概念如果用于社会文明形态,是指在一定时空范围内由物质生产、政治制度或文化变迁而改变社会的整体面貌,并非可以随意贴上标签。虽然人们可以对某一阶段的流行思想或行为打上时代的标记,但那绝不是严谨的科学概念,而仅仅是一种习惯称呼。有史以来,人类社会出现过石器时代、红铜时代、青铜时代、铁器时代、蒸汽时代、电气时代、信息时代、蒙昧时代、启蒙时代、奴隶制时代、封建制时代、资本主义时代、社会主义时代的说法,都是指物质生产方式、政治制度或意识形态的特定状况。时代绝不等同于年代,也不是任何新玩意儿一出现、一普及,就打开了一扇新时代的大门。
大数据是信息技术的子集,仅仅是海量信息的统计分析方法,不具有物质生产和社会管理彻底变革的性质,因此不具有崭新的时代特征。作为信息经济时代的组成部分,大数据没有超出""以数据流通推动产品流通,信息技术和信息劳动占有整个经济巨大比重""的信息生产形态。它只是信息时代的特征之一,而不是一种新的经济形态或社会形态,因此大数据时代的概念,是十足的虚构。
国内某IT人士认为:""大数据正把我们变成新的物种。首先,大数据改变了我们的思维方式,让我们从因果关系的串联思维变成了相关关系的并联思维。第二,大数据改变了我们的生产方式,物质产品的生产退居次位,信息产品的加工将成为主要的生产活动。第三,大数据改变了我们的生活方式,我们的精神世界和物质世界都将构建在大数据之上。""④这个结论正是把大数据视为一种时代特征,迷思的味道浓厚。第一,在地球的温度、磁场、大气含氧量和紫外线不变的条件下,我们不可能变成新的物种,即使变也需要上百万年。第二,大数据不可能使物质产品的生产退居次位。我们只能依靠食品、水、房子、衣物、空气和交通工具等物质来生存,物质产品的生产永远处于首位,开发大数据技术或加工信息产品都是为了提高物质产品的生产效率和质量,永远不具有主导地位。大数据本身既不能充饥,也不能让人们安居。
迈尔恩伯格和库基尔提出更为荒谬的结论:""大数据时代最大的转变就是,放弃对因果关系的渴求,取而代之的是关注社会的各类关系。即只要知道'是什么',而不需要知道'为什么'。这就颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。""⑤如果大数据技术使人类只知道""是什么"",就不再有探索客观规律的要求--寻求""为什么"",那么大数据只能让人的认识停留在事物的表面现象,使人类走向无知,以致消弭科学研究,最终导致社会倒退。这样,大数据还有什么""时代""分量呢!?实际上,""大数据""分析平台不仅让人知道""是什么"",而且有时还让人知道""为什么"",否则就没有重大的工具性价值,对新闻媒体尤其如此。
二、""大数据""的两面性
大数据正在成为一股热潮,不仅是IT业的技术革新,也在不断冲击政治、商业、社会和其他科技诸多领域。对其模式的思考,以及如何应用它,已成为新一轮技术变革的最强音。但是,大数据技术也有两面性。
从积极方面说,大数据确实已成为数据王国的主线,是下一步信息研究的主要对象。大众媒体、社交媒体和各个经济、社会领域如何使用大数据,正确评估大数据的商业价值,建立大数据的新兴产业,培育大数据的专业人员,将极大推动社会变革和经济发展。哈佛大学社会学教授加里金说:""这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。""
虚拟世界有取之不尽的资源,数据可以转化为资产和财富。据预测,仅美国医疗服务业大数据技术的应用每年创造的价值就在3000亿美元左右,全球个人位置服务的最终价值将达到7000多亿美元。每天各种机构、个人和大量传媒发散的图片、文档、视频和言论杂乱无章、周而复始,人类早已无法掌控。而这些信息正是人类活动的真实记录,大量来自人类的心理层面和社会组织的内幕,通过大数据分析人类完全有可能认识复杂、隐秘的社会和自然现象,使科学研究进入快速发展时期,过去的不可知领域可能将被人类彻底解开谜底。
从消极方面看,大数据技术不是万能的,不能解决一切问题,它只是决策的一种量化手段。正确认识事物的是非和利害,遵循人文精神是更为重要的前提。缺少这个前提,大数据不仅毫无用处,而且能为谬论寻求支持的数据。
有的文章说:""大数据的时代其实是弘扬理性精神的时代美国在这方面就做得好很多,美国政府在各个领域都用数据分析,用数据决策,用数据创新。""⑦美国确实重视数据,研究社会问题都搞民意测验或其他实证调查已有八十多年的传统。但2008年金融危机已过去5年,它的各种经济决策没有使其走出困境;它的情报部门搜集的许多数据都是虚假的(例如伊拉克有大规模杀伤性武器、向国际原子能机构提供虚假情报等);尽管有大量智库提供佐证与数据,美国历届政府都有重大失误。美国盖洛普民意调查所预测美国大选,通常每次搜集、分析十多万个数据,但却多次预测错误。大数据本身不完全等于理性,决策基于数据分析而并非基于经验和直觉,是一种理性的表现,但更大的理性是人文法则。即重视人民的普遍要求,维护各民族的尊严和文化,尊重人的自由、平等和权利。不尊重其他民族的历史和风俗,奉行种族歧视,只知道本国利益而不考虑他国利益,让美国政府在内外事务中屡屡受挫,给一些国家的老百姓造成不可弥补的伤害(例如多次对外战争滥杀平民)。
遵循社会(国际)公德、人道主义、公正与正义、平等互利等友善原则,是分析数据的指导性准则。数据是有类别的,它真实与否,对全社会是否有利,哪种意见是绝大多数人拥护、赞成的,赞成的人是哪个阶层等等,数据本身还存在一定的模糊性。对社会问题提取大数据,主要了解绝大多数人的意见,依据人民是否满意做出结论,但大数据与人民的数量绝非完全等同。新闻传媒反映主流舆论,做出正确而精准的报道,仅仅依赖数据还远远不够。
互联网、大众传媒和社交媒体每天提供的巨量信息有大量冗余、虚假和有害的内容,其中侵犯他人隐私权、生存权和精神健康权的信息与图像大肆泛滥,""价值密度较低""。人类不但不能把大数据一股脑地当作宝库,而且要冷静审视数据的两面性,抛弃有害和无用的信息,使数据分析立于价值和法律层面,避免浪费专业人员的时间和精力。
机器储存和分析难以囊括几十亿兆数据,即使储存了这些数据,专业人员也无法全部调阅,删除和忘掉无价值的、不相关的信息是处理大数据的重要原则。正如迈尔恩伯格在《删除:数字时代遗忘的美德》一书中所说,数字技术和全球网络压倒一切,使我们忘记自己的自然能力,我们必须重新恢复忘记。人类应采取的措施是"" 数字化节制、保护信息隐私权、建设数字隐私权基础设施、调整人类的现有认知、打造良性的信息生态、完全语境化"",""大数据的取舍之道,就是把有意义的留下来,把无意义的去掉。只有理解了在大数据中需要的是什么,以及如何判断这种需要,才能举一反三地明白到底为什么要去掉那些不需要的。""⑧
三、媒体对""大数据""技术的应对
新闻媒体驾驭大数据是发现新闻的重要途径。今后的新闻素材主要来自互联网、物联网和社交媒体,新闻信息虽然源源不断,但良莠交错,云计算的""提纯""是选择新闻事实的主要手段。每天处理当日""信息嫩芽""(刚刚出土的新数据),使新闻素材保持最大的新鲜度,加重了媒体工作的紧张程度,稍有怠慢,更多的海量信息积压起来,媒体就陷入数据深渊而窒息。
新闻数据不断产生,呈现分散、蔓延状态,并夹杂在大量其他数据中,新闻媒体处理数据的鉴别力、精准率是加工信息的主要效能。""提纯""是认知客观世界的目标,提取新闻信息既要全面又要实时,经过一次次提纯和净化,才能达到新闻事实的精准度。大数据中的新闻素材不是核心资源,仅仅是新闻""毛坯"",或称""二手资源""。对于本地区新闻,记者的大量实地采访,获取第一手材料仍不可缺少,大型媒体仍需向异国、异地派出驻地记者。
在大数据统计中,数据频现的事件蕴藏着新闻价值,使记者可能发现大新闻。一个事件、一种现象是不是新闻,值不值得报道,不仅仅根据数据,更重要的是依据新闻价值理论做出判断。新闻价值理论是报道规律的总结,大数据排查不仅不能代替它,而且受其指导才能做出正确的认定。新闻事实的重要、新鲜、有趣或接近性能够派生出新闻价值,但不是新闻价值本身。新闻价值要素是指对受众有用、有益、有效,包括对受众生活的指导性、对提高受众思想道德的激励性和对陶冶受众性情的娱乐性和快慰感。这三种新闻价值成为新闻数据分析的""引擎"",而不是简单地以其出现的数据多少确定新闻价值。
让记者陈述鲜为人知的事件(故事)并寻找新的角度,需要完整的故事,大数据能够再现这种故事,特别是提供个性化的细节。数据库可以转化成任何形式的新闻写作,以可视化的形式对新闻创建清晰的描述。讲故事的元素既可用来说明事件的结果,也可发现记者先前判断的疏漏或误导。一个故事是可验证的,通过数据源、数据集、数据质量和数据格式的检查,发现事件(故事)可能包含的虚假部分,但很难确定哪个具体事实与细节是假的。只有实地核实事件,才能更真实地把握新闻的真实性,期盼数据提供完全的真实,包含太大的风险。
更为重要的是,大数据对新闻事件有各种判断和结论,是否都能提供思想、特别是正确的思想,无疑是否定的。不能武断地做出结论:大数据是真理的""万能判断器""。新闻媒体不仅需要对大数据提供的思想做出真理判断,还需要独立思考,遵循新闻真理性原则写出独家评论。德国学者赫尔曼麦恩曾说:""尊重真理,对公众作真实的报道,是新闻界的最高准则。""⑨新闻的真理性是以真实、客观为前提的,但不是真实、客观本身,它是在科学实践中被验证的;厮守人类正义和社会真相,反复权衡怎样报道才能对人类无害。对此,法国著名记者杰克凯赛尔强调:""真理问题是相当简单的,一个新闻记者必须说真话;歪曲事实或背叛真理的记者是不配做这一职业的。但是,对于真理闭口不言的人,是否应受到谴责呢?为了回答这些问题,我们不仅要求消息准确,我们还要求消息是否登载适宜的问题。""⑩ 对此,大数据只能提供部分参考,媒体的正确价值观才是首要的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22