京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据的挑战:数据质量和历史偏见
撇开炒作,利用大数据和分析法将会对企业未来业绩产生重大影响,重整整个行业并孕育新的产业。然而,还面临着很多挑战。它们从众所周知的缺乏数据科学人员来处理大数据,到更加棘手且很少提及的根源于人性的问题。
后者之一是人类聚积数据的倾向。另一个是人类仍然固守先入为主的倾向,即使数据结果明显不同。最近举办的麻省理工斯隆学院CIO研讨会就大数据和分析法发言的数据专家们取得了共识。发现地雷?希望落空?那些已经取得进展的企业已经知道,大数据和分析法没有最终真理。迭代就是全部,专家们也同意。
不仅如此,除了迭代的价值,
CIO们可以将最佳实践抛于脑后。正在兴起的未来实践才是深入研究大数据的公司最可以依靠的,在旧金山工作的计算机科学家Michael
Chui说。他是麦肯锡全球研究院高级研究员,该研究院是位于纽约的麦肯锡咨询公司的研究机构。
“我们知道这不可行:等到5年后完美的数据仓库出现。”Chui说,他是去年重大麦肯锡大数据价值报告的作者。
相对地看待数据质量
Chui说,事实上,沉迷于数据质量是很多公司需要克服的第一个障碍,如果他们希望有效的使用大数据。数据的精确性对银行财务报告是至关重要的。然而,不精确的数据包含了模式可以突出业务问题或者提供可以产生重要价值的洞察力,比如另一个研讨会专家小组的相关新闻报道的,“抓住大数据和分析法,否则将落伍,MIT专家小组称”
专门小组成员Shvetank Shah说,相对那些快马加鞭以取得最佳质量数据的组织,那些“了解数据质量”的组织,即使使用元标签或颜色编码来标识数据质量-,对大数据的进展更快。他是华盛顿特区的咨询公司(CEB)的执行董事,一家位于。
Shah提醒道,然而大数据结构的混乱性使得商业才智至关重要:重视经理了解何时值得去追求这些数据的能力。他说:“你雇佣经理的原因就是:去分析,去联系和迭代。”[page]
在科学研究中,理解每一个变量的所有情况是不可能的,所以“迭代很重要”James
Noga说。他是波士顿的医疗保健非营利性组织Partners HealthCare System的CIO.
他说,那些擅长大数据处理的人必须能够挑选出有代表性的关键点,并且“在当时作出最好的推测”.
不管怎样这一点可以被推而广之,不仅是在关注数据质量的公司,而且那些习惯于结构化IT流程的IT公司中也可以推广。
消除旧观念和成见不易
专家组成员说,那些拥有模式识别技能、好奇心,并理解实验价值的人是有效使用大数据和分析法的关键。然而,CEB的Shah发现,使科学方法成为公司文化的一部分极其困难。“你可以让所有聪明的数据分析专家聚集在企业核心,做出很多聪明的决定。但是如果做不到这样的话,客服代表、经理们以及其它外围人员做出的决定就更加重要。”因为大多数公司没办法雇佣足够的数据科学人员去研究大数据,另一个挑战是寻找培训人才。
CEB发现很少公司能够使用大数据和分析法法去驱动业务决策。最新对近500家企业的研究发现,20%的调查对象使用直觉做决定;49%想要更多数据,另有38%被CEB称为“知情的怀疑论者”,也就是那些可以进行模糊数据,并推动业务向前发展。不仅如此,Shah说,人们倾向于坚持成见,“技术数据显示的恰恰相反”.“消除成见非常困难。”
聚积数据是另一个开发大数据的障碍。麦肯锡研究的一个发现是金融服务(其收集和分析数据的历史悠久)在使用大数据上滞后。Chui说:“我们发现很多西方银行的业务竖井的界限已经变得如此之大,以至于分享数据的想法非常,非常之弱。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14在Python网络编程、接口测试、爬虫开发等场景中,HTTP请求的发送与响应处理是核心需求。Requests库作为Python生态中最流行的HTTP ...
2026-04-14 很多新人学完Python、SQL,拿到一张Excel表还是不知从何下手。 其实,90%的商业分析问题,都藏在表格的结构里。 ” 引言:为 ...
2026-04-14在回归分析中,因子(即自变量)的筛选是构建高效、可靠回归模型的核心步骤——实际分析场景中,往往存在多个候选因子,其中部分 ...
2026-04-13在机器学习模型开发过程中,过拟合是制约模型泛化能力的核心痛点——模型过度学习训练数据中的噪声与偶然细节,导致在训练集上表 ...
2026-04-13在数据驱动商业升级的今天,商业数据分析已成为企业精细化运营、科学决策的核心手段,而一套规范、高效的商业数据分析总体流程, ...
2026-04-13主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-13在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-13在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09在数据可视化领域,折线图是展示时序数据、趋势变化的核心图表类型之一,其简洁的线条的能够清晰呈现数据的起伏规律。Python ECh ...
2026-04-09在数据驱动的时代,数据分析早已不是“凭经验、靠感觉”的零散操作,而是一套具备固定逻辑、标准化流程的系统方法——这就是数据 ...
2026-04-09长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07