京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据和分析法的挑战:数据聚积和偏好
撇开炒作,利用大数据和分析法将会对企业未来业绩产生重大影响,重整整个行业并孕育新的产业。然而,还面临着很多挑战。它们从众所周知的缺乏数据科学人员来处理大数据,到更加棘手且很少提及的根源于人性的问题。
后者之一是人类聚积数据的倾向。另一个是人类仍然固守先入为主的倾向,即使数据结果明显不同。最近举办的麻省理工斯隆学院CIO研讨会就大数据和分析法发言的数据专家们取得了共识。发现地雷?希望落空?那些已经取得进展的企业已经知道,大数据和分析法没有最终真理。迭代就是全部,专家们也同意。
不仅如此,除了迭代的价值, CIO们可以将最佳实践抛于脑后。正在兴起的未来实践才是深入研究大数据的公司最可以依靠的,在旧金山工作的计算机科学家Michael Chui说。他是麦肯锡全球研究院高级研究员,该研究院是位于纽约的麦肯锡咨询公司的研究机构。
“我们知道这不可行:等到5年后完美的数据仓库出现。”Chui说,他是去年重大麦肯锡大数据价值报告的作者。
相对地看待数据质量
Chui说,事实上,沉迷于数据质量是很多公司需要克服的第一个障碍,如果他们希望有效的使用大数据。数据的精确性对银行财务报告是至关重要的。然而,不精确的数据包含了模式可以突出业务问题或者提供可以产生重要价值的洞察力,比如另一个研讨会专家小组的相关新闻报道的,“抓住大数据和分析法,否则将落伍,MIT专家小组称”
专门小组成员Shvetank Shah说,相对那些快马加鞭以取得最佳质量数据的组织,那些“了解数据质量”的组织,即使使用元标签或颜色编码来标识数据质量—,对大数据的进展更快。他是华盛顿特区的咨询公司(CEB)的执行董事,一家位于。
Shah提醒道,然而大数据结构的混乱性使得商业才智至关重要:重视经理了解何时值得去追求这些数据的能力。他说:“你雇佣经理的原因就是:去分析,去联系和迭代。”
在科学研究中,理解每一个变量的所有情况是不可能的,所以“迭代很重要”James Noga说。他是波士顿的医疗保健非营利性组织Partners HealthCare System的CIO. 他说,那些擅长大数据处理的人必须能够挑选出有代表性的关键点,并且“在当时作出最好的推测”。
不管怎样这一点可以被推而广之,不仅是在关注数据质量的公司,而且那些习惯于结构化IT流程的IT公司中也可以推广。
消除旧观念和成见不易
专家组成员说,那些拥有模式识别技能、好奇心,并理解实验价值的人是有效使用大数据和分析法的关键。然而,CEB的Shah发现,使科学方法成为公司文化的一部分极其困难。“你可以让所有聪明的数据分析专家聚集在企业核心,做出很多聪明的决定。但是如果做不到这样的话,客服代表、经理们以及其它外围人员做出的决定就更加重要。”因为大多数公司没办法雇佣足够的数据科学人员去研究大数据,另一个挑战是寻找培训人才。
CEB发现很少公司能够使用大数据和分析法法去驱动业务决策。最新对近500家企业的研究发现,20%的调查对象使用直觉做决定;49%想要更多数据,另有38%被CEB称为”知情的怀疑论者”,也就是那些可以进行模糊数据,并推动业务向前发展。不仅如此,Shah说,人们倾向于坚持成见,“技术数据显示的恰恰相反”。“消除成见非常困难。”
聚积数据是另一个开发大数据的障碍。麦肯锡研究的一个发现是金融服务(其收集和分析数据的历史悠久)在使用大数据上滞后。Chui说:“我们发现很多西方银行的业务竖井的界限已经变得如此之大,以至于分享数据的想法非常,非常之弱。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14