京公网安备 11010802034615号
经营许可证编号:京B2-20210330
破除十二个数据分析的误区
在IT界,炒作越大,误解就越大,数据分析也不例外。分析是当今信息技术最热门的方面之一,它可以带来显著的业务收益,但是误解可能会妨碍分析功能的顺利和及时的交付,而这些功能这可能会使业务用户和最终客户受益。
随着组织创建或扩展其分析策略,下面来看看十几个他们可能要避免的误区。
误区一:数据分析需要大量投资
现在看来,每一项技术努力都必须通过一个确保经济稳健性的过滤器。IT和业务经理们提出启动项目或部署新工具时,首先会提出的问题之一是“这要花费多少钱”?
有些人认为数据分析本质上是一项昂贵的工作,因此它仅限于预算较大或内部资源较多的组织。但并非所有的数据分析工作都需要大量的投资,移动和在线房地产服务提供商Trulia的工程副总裁Deep Varma这样说道。
Varma说:“现在市场上有这么多的开源以及其它工具可以帮助你开始展示数据分析的价值。你需要对内部数据存储以及你要解决的问题有一个很好的理解。在尝试用分析解决业务问题时,云使之变得更简单。”
现代分析“是基于云系统和大数据架构的,从定义上来说它们比传统的数据仓库系统要便宜得多”,安永咨询公司的全球分析领导者Beatriz SanzSaiz补充道。
Saiz说:“另外,通常用数据和分析实现三个结果:提高流程效率、收入增长和主动风险管理。总而言之,数据和分析的应用为所有公司带来重大的成本收益。”
误区二:你需要大数据来执行分析
对于很多人来说,大数据和分析的概念是齐头并进的。这个想法是,组织需要在执行分析之前收集大量数据,以便产生业务洞察,改进决策制定等。
当然,大数据分析的好处已为大家所接受,拥有这些资源的公司确实可以通过利用其数据存储作为分析工作的一部分来获得显著的竞争优势。但是,大数据是分析必不可少的想法是不正确的。
人力资源公司Allegis Global Solutions的商业智能执行总监Tim Johnson说:“人们经常试图采集尽可能多的数据;他们一听到‘大数据’就兴奋不已。这个误解就是数据越多越好,机器会分门别类。”
但是,与其说分析师需要更多的数据,不如说他们需要具体的数据。Johnson说:“95%的用户正在寻找与他们的工作相关的信息,并支持决策和提高性能。企业与其关注更多的数据,不如多为业务用户着想,不仅要确定他们需要访问哪些数据,而且还要确定如何展示数据。
Johnson说:“提供对各种信息和多种格式的访问可能是巨大的挑战,并且实际上阻碍了采用。相反,找出对它们来说很重要的事情,以及如何以最简单的形式向他们展示这些信息。”
误区三:分析可以消除人为偏差
自动化系统执行的方式是不应该带有偏差的。但技术是由人类建立的,所以消除所有的偏差几乎是不可能的。有人认为分析和机器学习可以消除人为偏差。
全球技术咨询公司ThoughtWorks的技术负责人Mike Mason说:“不幸的是,这根本不是真的。算法和分析使用‘训练数据’进行调整,并将重现训练数据的任何特征。”
Mason说在某些情况下,这会给分析结果带来偏见;在其它情况下,结果可能会更糟,他说:“‘仅仅因为算法这么说’并不意味着答案是公平的或有用的。”
误区四:最好的算法总是能赢
事实上,有了足够的数据,“有时候算法并不重要,”Mason如是说。他在IEEE的一篇文章中引用了“数据的不合理有效性”,谷歌的工程师认为,简单的统计模型,加上大量的数据,比包含很多特性和摘要的“智能优越”模型取得更好的结果。
Mason说:“在某些情况下,仅仅处理大量的数据就能取得最好的结果。”
误区五:算法能确保安全
Johnson说,人们固有的信任统计模型和算法在很大程度上是随着组织建立他们的分析程序而逐渐依赖复杂的模型来支持决策。
Johnson说:“因为人们不了解模型、算法和其它先进的数据科学实践,所以他们信任它们。用户不觉得自己具备可以挑战模型的知识,相反,他们必须相信建造它们的“聪明人”。
Johnson说:“在过去的50到60年里,我们听说过人工智能将在20年内接管人类的工作,而且我们将继续听到人们这样说。在我们能够公然地相信机器学习和结果之前,还有很多事情要做。在那之前,我们需要挑战构建算法和模型的人,以解释如何得出答案。我们不是不能依赖结果,而是需要透明度,以便我们可以信任和验证分析。”
误区六:数据科学是一种神秘的“魔法”
数据科学近年来受到了很多关注,关于它究竟是什么有时会产生混淆。它主要涉及使用算法来查找数据中的模式。
数据存储公司Micron的首席技术官 Trevor Schulze说:“数据科学似乎很神秘,因为这些算法能够分析更多人脑更所无法理解的变量和数据集。”
Schulze说:“近年来,随着计算能力和内存的增大,我们现在能够快速解决十年前用任何技术解决不了的问题。数据科学是统计推断技术的自然演变,数十年来已经得到很好的理解。一旦你理解了数学,数据科学就没有那么神秘了。”
误区七:为了做更多的数据科学,你需要更多的数据科学家
数据科学家是当今所有技术专业人员中最紧俏的。如果他们把精力转移到应该做的事情上,也许组织就不需要这么多这样的专业人士。
Mason说:“很多数据科学家的时间花在了非增值活动上,比如寻找数据集、把数据放到可以处理它们的地方、以及转换和清理数据”。鉴于聘请数据科学家是这么地困难,那些低价值的任务并不是你想要的。
Mason说:“优步的米开朗琪罗平台(Michelangelo platform)使数据科学家能够专注于特性工程、提取和分析,而不是将数据搬来搬去,因此使他们可以大大提高生产力。”
误区八:分析太耗时
现在快速完成工作——无论是将产品或服务推向市场,还是近乎实时地响应客户询问——对于公司来说都是一个巨大的竞争考虑因素。分析听起来像是需要很长时间来执行的事情,与达到速度和灵活性的目标背道而驰。
Saiz说:“这种类型的项目耗时太长,而且相当复杂,这个迷思依然存在。在一天结束的时候,这都是关于人才的。通过恰当的技能组合和敏捷方法的应用,大问题可以在几天或几周内得到解决,而不是几个月。”
误区九:技术是最难的部分
咨询公司ISG的IT采购和数字咨询服务总监James Burke说,随着当今可用的技术的数量不断增加,选择合适的工具组合来部署和集成以从分析团队获得预期的结果并非易事。
但是,Burke说真正困难的部分是“把组织结构和运营模式放在一起,把人员、流程和技术视角所需要的所有东西放在一起。另外,你如何在现有的组织内部或者‘附近’这样做,这对组织来说似乎是最难的。”
不要以为分析工具会完成所有的工作。咨询公司West Monroe的技术实践高级总监Greg Layok说:“技术本身决不会解决任何业务问题。在急于创建数据湖的过程中,组织最终却陷入了沼泽,或者是一个难以让任何人弄明白的信息困境。”
Layok说技术并不解决分析问题。他说:“首先,发现一个业务问题,然后问,'我需要哪些数据来解决这个问题?'这将帮助你发现组织内的数据缺口。”
误区十:数据分析应该是一个独立的部门
在一些组织中,数据分析本身是作为一个部门运作的,而在另一些组织中则深深嵌入到一个跨职能团队中,咨询和数据收集公司Delvinia的总裁兼首席创新官Steven Mast这样说道。
Mast说:“但是,随着所有业务领域的数据大量涌现和变革发生的速度,部门模式不起作用了。随着企业变得更加以客户为中心,数据驱动的分析专家应该成为业务部门的核心,而不是作为一个呼叫支持的部门来运行。”
Mast说当今很多组织面临的复杂问题都在业务部门内部,而且这些问题的很多解决方案都隐藏在数据中。他说:“数据科学家和专家与这些业务部门密切合作,使用大量数据集和人工智能将是培育下一代产品,服务和客户体验的关键。”
误区十一:分析是博士干的事情
在分析团队中有很多受过良好教育的人是很棒的,但这不是成功的要求。
Saiz说:“公司往往认为,没有博士学位,他们将无法进行最佳的分析。现代分析需要一系列技能——那些在新兴技术和开源软件方面精明的人。建立各怀绝技的职能,包括大数据架构师、数据工程师、数据科学家、数据可视化专家等等,才是最重要的。”
误区十二:人工智能会破坏就业和经济
历史上新技术的引入已经颠覆了很多工作和行业,人们担心人工智能会消除人们执行某些任务的需要。
Schulze说:“人工智能解决方案比人们在解决某些问题方面要好得多。“人工智能可以读得更快,记住更多,计算复杂的数学关系比任何人都好。然而,人工智能不能处理真正新颖的情况,而这是人类擅长的地方。”
诚然,Schulze说,某些工作已经消失或者因人工智能的增长而减少,其它的工作也随之而来。他说:“尽管如此,我们理解和解决完全无法预料的环境的能力也不会被目前所知的人工智能技术所取代。在可预见的未来,最有效的人工智能方法将是通过人工智能系统来增强人的能力,这些人工智能系统执行一些‘繁重的工作’,在这些工作中算法的表现优于人。尽管很多工作会因人工智能而发生变革,但人仍将是这个商业生态系统的重要组成部分。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据工作的全流程中,数据清洗是最基础、最耗时,同时也是最关键的核心环节,无论后续是做常规数据分析、可视化报表,还是开展 ...
2026-03-20在大数据与数据驱动决策的当下,“数据分析”与“数据挖掘”是高频出现的两个核心概念,也是很多职场人、入门学习者容易混淆的术 ...
2026-03-20在CDA(Certified Data Analyst)数据分析师的全流程工作闭环中,统计制图是连接严谨统计分析与高效业务沟通的关键纽带,更是CDA ...
2026-03-20在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12