
大数据技术面临各方面的挑战
一、大数据信息有效性不足
虽然信息时代使得人们面对的信息规模扩大和沟通效率提高, 但是这并不意味着有价值的数据信息获取就变得更加迅捷和容易。
首先,有价值的数据信息获取面临挑战。网络信息资源在扩大人们信息来源渠道和提高信息获取效率的同时,也不可避免的会促使人们遭受大量虚假、无用数据信息的困扰。信息大爆炸造成的信息环境污染和“噪音信息”的蔓延增加了人们识别、判定和利用有效信息的困难。
其次,有价值的数据信息整合面临挑战。使用大数据面临的一大挑战就是如何将社会经济各个主体之间的数据信息能够方便和有效地整合在一起。要想让大数据更有效地服务于人类社会,就必须将存在于社会各个主体中多种格式的海量数据通过统一的数据格式构建融合人、机、物三元世界的统一信息系统。最后,有价值的数据信息生成存在算法演化问题。在现实中,大数据往往是根据各个社会经济主体行为被动产生的,但是数据生成者的商业模式等行为会影响大数据的生成机制,导致其提供的信息不具有时间前后的可比性。以谷歌公司为例,其商业模式的主要目标是更快速地为使用者提供准确的信息。为此,谷歌不断改进搜索算法,使用者可以通过后续谷歌推荐的相关词快捷地获得有用信息。这一模式改变了数据生成机制,容易出现数据使用者搜索的关键词并非其本意的现象。
二、大数据样本选择困难
人们希望通过海量数据信息的收集减少信息不对称,但是这些庞大的数据可能对我们解决问题并不会起到正面的作用。当前,大数据使企业或者机构获取每一个客户的信息、构建客户群的总体数据成为可能。但是,这种大数据并不一定就是我们所要研究对象的全部数据总体。如果我们误将掌握的海量数据当作所要研究对象的数据总体,那么基于大数据分析得出的结论就很有可能是错误的。因此,在分析和研究某个问题时,我们不能迷信大数据的作用。
以“谷歌流感趋势”(GFT) 项目为例,2008 年11 月谷歌公司启动该项目,目标是预测美国疾控中心(CDC) 报告的流感发病率。2009 年,GFT 团队在《自然》杂志发表文章报告,只需分析数十亿搜索中45 个与流感相关的关键词,GFT 就能比CDC 提前两周预报2007-2008 季流感的发病率。但是,2014 年美国《科学》杂志报道,2009 年GFT 没有能预测到非季节性流感A-H1N1;从2011 年8 月到2013 年8 月的108 周里,GFT 有100 周高估了CDC 报告的流感发病率。其中,2011-2012 季期间,GFT 预测的发病率是CDC 报告值的1.5 倍多;2012-2013 季期间,GFT 流感发病率是CDC 报告值的2 倍多。另外,2007 年美国爆发的次贷危机也是一个例证。自20 世纪90 年代起, 美国无论是抵押贷款和信用卡的申请还是资产证券化产品的定价和评级,都是建立在较为成熟的大数据基础上的。但是,金融机构仍然做出了系统性错误的金融决策,成为金融危机爆发的导火索。
三、大数据数据处理技术更新缓慢
大数据虽然可以通过扩大数据样本规模和提升数据处理能力来管理日常经营性的风险,但是代表金融创新风险等未来事件是无法用历史数据进行预测和分析的。
首先,大数据处理技术面临数据生成者学习行为的挑战。大数据处理技术和评估标准影响数据生成者行为,同样数据生成者行为也会影响大数据处理技术和评估标准。以我国大数据重要来源之一的社交媒体为例,这种大数据来源的有效性是有前提条件的,即人们在社交媒体分享的信息都是真实的、自发的、不受大数据处理技术和各种评估标准的影响。但是,人们在互联网时代运用网络学习的能力是不断提高的。如果人们通过学习大数据处理技术和各种评估标准而相应改变社交媒体的信息,就会导致大数据生成机制发生质变。因此,在对大数据进行技术处理时,简单地认为数据生成者都是无意识地生产大数据,忽略了数据生产者行为背后趋利避害的动机,可能就会得出错误的判断和结论。
其次,大数据处理技术面临去冗降噪挑战。在现实中,大数据一般来自于不同的社会主体,以动态数据流的形式产生,人们在方便获取数据的同时,也会使得虚假数据、无效数据等噪声数据的生产成本降低。面对大数据中包含众多不同形态的噪声数据,如何通过数据处理技术的革新来挖掘有价值的信息是我们自始至终都要面临的一项技术挑战。这如同人类社会医学技术创新与病毒变异之间的“竞赛”一样是长期存在的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA 数据分析师:善用 Power BI 索引列,提升数据处理与分析效率 在 Power BI 数据分析流程中,“数据准备” 是决定后续分析质量 ...
2025-08-18CDA 数据分析师:巧用 SQL 多个聚合函数,解锁数据多维洞察 在企业数据分析场景中,单一维度的统计(如 “总销售额”“用户总数 ...
2025-08-18CDA 数据分析师:驾驭表格结构数据的核心角色与实践应用 在企业日常数据存储与分析场景中,表格结构数据(如 Excel 表格、数据库 ...
2025-08-18PowerBI 累计曲线制作指南:从 DAX 度量到可视化落地 在业务数据分析中,“累计趋势” 是衡量业务进展的核心视角 —— 无论是 “ ...
2025-08-15Python 函数 return 多个数据:用法、实例与实战技巧 在 Python 编程中,函数是代码复用与逻辑封装的核心载体。多数场景下,我们 ...
2025-08-15CDA 数据分析师:引领商业数据分析体系构建,筑牢企业数据驱动根基 在数字化转型深化的今天,企业对数据的依赖已从 “零散分析” ...
2025-08-15随机森林中特征重要性(Feature Importance)排名解析 在机器学习领域,随机森林因其出色的预测性能和对高维数据的适应性,被广 ...
2025-08-14t 统计量为负数时的分布计算方法与解析 在统计学假设检验中,t 统计量是常用的重要指标,其分布特征直接影响着检验结果的判断。 ...
2025-08-14CDA 数据分析师与业务数据分析步骤 在当今数据驱动的商业世界中,数据分析已成为企业决策和发展的核心驱动力。CDA 数据分析师作 ...
2025-08-14前台流量与后台流量:数据链路中的双重镜像 在商业数据分析体系中,流量数据是洞察用户行为与系统效能的核心依据。前台流量与 ...
2025-08-13商业数据分析体系构建与 CDA 数据分析师的协同赋能 在企业数字化转型的浪潮中,商业数据分析已从 “可选工具” 升级为 “核 ...
2025-08-13解析 CDA 数据分析师:数据时代的价值挖掘者 在数字经济高速发展的今天,数据已成为企业核心资产,而将数据转化为商业价值的 ...
2025-08-13解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-08-12MySQL 统计连续每天数据:从业务需求到技术实现 在数据分析场景中,连续日期的数据统计是衡量业务连续性的重要手段 —— 无论是 ...
2025-08-12PyTorch 中 Shuffle 机制:数据打乱的艺术与实践 在深度学习模型训练过程中,数据的呈现顺序往往对模型性能有着微妙却关键的影响 ...
2025-08-12Pandas 多列条件筛选:从基础语法到实战应用 在数据分析工作中,基于多列条件筛选数据是高频需求。无论是提取满足特定业务规则的 ...
2025-08-12人工智能重塑 CDA 数据分析领域:从工具革新到能力重构 在数字经济浪潮与人工智能技术共振的 2025 年,数据分析行业正经历着前所 ...
2025-08-12游戏流水衰退率:计算方法与实践意义 在游戏行业中,流水(即游戏收入)是衡量一款游戏商业表现的核心指标之一。而游戏流水衰退 ...
2025-08-12CDA 一级:数据分析入门的基石 在当今数据驱动的时代,数据分析能力已成为职场中的一项重要技能。CDA(Certified Data Anal ...
2025-08-12破解游戏用户流失困局:从数据洞察到留存策略 在游戏行业竞争白热化的当下,用户流失率已成为衡量产品健康度的核心指标。一款游 ...
2025-08-11