京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者 | Bob Violino
编译 | 中国统计网
对于IT来说,夸大其功效的炒作越多,外界对其的误解也会越大,数据分析当然也不例外。数据分析是当今信息技术最热门的领域之一,可以为企业带来显著的业务收益,但这些误解可能将妨碍分析过程的及时、顺利交付,并影响业务用户和最终客户。
随着企业创建或扩展其分析策略,这里有12个他们需要格外注意的关于数据分析的误解。
误区1:数据分析需要大量投资
如今,似乎对每一项新技术的投入都必须通过严格的财务支出的筛选过程。“它需要多少费用?”——是IT和业务经理在提议启动项目或部署新工具时需要首先考虑的问题之一。
有些人认为数据分析本质上是一项代价高昂的工作,因此仅限于拥有大量预算或大量内部资源的企业机构。但是事实并非如此,现在市场上有很多开源工具和其他工具能够帮助展示数据分析的价值;并且基于云系统的大数据架构,也会比传统的数据仓库便宜得多。你只需要明确内部数据存储以及要解决的问题,就可以轻松的在云上使用分析来解决业务问题。
此外,数据分析通常用于实现三个结果:提高流程效率、实现收入增长和主动进行风险管理,总的来说,数据分析在任何公司的应用中都带来了巨大的成本效益。
误区2:你需要“大数据”才能执行分析
对于许多人来说,大数据和分析的概念是相辅相成的,企业需要在执行分析之前收集大量数据,以便生成业务洞察,改进决策制定等。
当然,大数据分析的优势也很明确,拥有这些资源的公司利用大数据存储作为促进分析工作的一部分,获得了显着的竞争优势。但是大数据却并不是分析必不可少的搭配。
分析师需要特定的数据,而不是更多的数据。要想更好地支持决策和提高绩效,企业必须更多的考虑业务用户,确定他们需要访问哪些数据,如何呈现数据,而不是关注更多的数据。95%以上的用户会寻找和他们工作相关的信息来支持他们进行决策,来提高业务表现,所以企业需要以最简单的格式向他们提供这些信息,帮助他们快速定位重要信息。
误区3:分析消除了人类的偏见
自动化系统执行的方式不应该存在偏见,但技术是由人类建立的,因此消除所有偏见几乎是不可能的。
有些人认为分析和机器学习消除了人类的偏见,不幸的是,这并没有实现。算法和分析使用“训练数据”进行调整,并将重现“训练数据”所具有的任何特征,在某些情况下,这会在分析过程中引入良性偏见,但也有可能带来更严重的偏见——因为“算法这么说”并不意味着答案是公平的或者有用的。
误区4:最好的算法意味着绝对的胜利
事实证明,有了足够的数据,有时算法无关紧要。谷歌的工程师认为,数据有着不合理有效性 ,简单的统计模型,加上极大量的数据,比包含大量特征和总结的“智能优越模型”能输出更优质的结果。
因此,在某些情况下,只需处理更大量的数据就可以获得最佳效果。
误区5:算法是安全的
人们固执地信任统计模型和算法,并且随着分析程序的组织构建,他们会越来越依赖复杂的模型来支持决策。这或许是因为用户并不觉得他们有能力挑战模型,因此他们必须相信构建它们的“聪明人”。
比如,在过去的50到60年里,我们反复听到“人工智能将在20年内接管人类工作”的言论,现在也还是有人反复强调这种观点。在我们可以完全信任机器学习和它们输出的结果之前,还有很多事情要做。在那之前,我们需要挑战构建算法和模型的人,让他们解释如何得到答案。这并不是说我们不能依赖于结果,而是说我们需要透明度,这样我们才可以信任和验证分析结果。
误区6:数据科学是一种神秘的“黑色艺术”
近年来,数据科学学科受到了很多关注,有时甚至会与其他学科产生混淆。基本上来说,数据科学涉及了数据查找模式中所有算法的使用。
数据科学似乎很神秘,因为这些算法能够分析比人类能够理解的范围内更多变量和更大的数据集。但是随着近年来计算能力和内存的扩大,我们现在能够快速解决10年前任何技术都无法解决的问题,人们也随之明白,数据科学是统计推断技术的自然演变。但一旦你理解了数学,数据科学就没有了神秘感。
误区7:需要越多的数据科学家,才能做更多的数据科学工作
如今,数据科学家是所有技术专业人员中最紧缺的。但如果他们重新定位他们正在进行的工作,组织机构可能会减少这些专业人员的数量。
许多数据科学家的时间花费在非增值活动上,比如查找数据集,将数据发送到可以处理的地方,以及转换和清理数据等。考虑到聘请数据科学家的困难程度,这些低价值的任务并不是企业想要的。
数据科学家需要专注于特征工程,提取和分析,而不是围着数据打转,这样才能大大提高他们的工作效率和产出。
误区8:分析需要花费很长时间
如今,快速完成工作——无论是将产品或服务推向市场,还是近乎实时地响应客户咨询,对于任何企业来说都是影响核心竞争力的重要因素。
分析听起来似乎需要很长时间才能执行,与实现速度和敏捷性的目标背道而驰,但这仍然是一个误区。归根究底,一切都与人才有关。有了正确的技能组合和敏捷方法论的应用,大型问题也可以在几天或几周内得到回答,而不是几个月。
误区9:技术是最困难的部分
随着当今可用技术的不断增加,选择合适的工具组合进行部署和集成,可以
更好从分析团队获得所需的结果,
然而,真正困难的部分是“整合组织结构和运营模式,将人员、流程、技术视角所需的全部内容整合在一起。假如你认为只有技术才能解决任何商业问题,那么在此认知之上建立的数据架构,最终会将企业带入“沼泽地”中,或者是产出任何人都难以理解的信息。
技术无法解决分析问题,正确的流程是:先确定一个业务问题,然后问,“我需要什么数据来解决这个问题?”这将帮有效帮助您识别企业内数据的差距。
误区10:数据分析应该是一个单独的部门
在一些组织中,数据分析被划入一个单独的部门,而另一些组织则将数据分析深深地融入了跨职能团队。
然而事实证明,以所有业务领域的数据爆炸和变化发生的速度,以单独部门存在的数据分析开始不起作用了。另一方面,随着企业变得更加以客户为中心,应该让数据分析专家成为业务部门的核心,而不是将其独立于作为业务支持的部门。
当今企业面临的许多复杂问题都存在于业务部门内,而且这些问题的许多解决方案都隐藏在数据中。数据科学家和技术专家,与这些业务部门密切合作,使用大型数据集和人工智能,将成为孵化下一代产品、服务和客户体验的关键。
误区11:分析工作只适用于博士
很高兴我们在分析团队中拥有了许多受过良好教育的人,但这并不是分析成功的必要条件。
企业倾向于认为,如果数据分析师没有博士学位,他们将无法进行最佳的分析。然而现代分析需要各种技能——建立具有不同技能的“分离舱”,包括那些精通新兴技术和开源软件的人、大数据架构师、数据工程师、数据科学家、数据可视化专家等等,才是最重要的。
误区12:人工智能会摧毁工作并破坏经济
历史上新技术的引入扰乱了许多工作和行业,人们同样担心人工智能会消除人们执行某些任务的必要。
虽然AI解决方案比解决某些问题的人要好得多,比如AI可以更快地阅读,记住更多,并且比任何人都能更好地进行复杂数学关系的计算。但是,AI也无法应对真正全新的变化,这是人类擅长的地方。
可以肯定的是,某些工作已经因AI的兴起而消失或减少,与此同时这种趋势还在增长。尽管如此,我们理解和解决“完全不可预见的情况”的优势不会被任何目前的AI技术所取代。在可预见的未来,最有效的方法是通过AI系统来增强人类的能力,取代人工的“繁重”。虽然人工智能正导致许多工作岗位发生变化,但是人们会将成为这一商业生态系统的重要组成部分。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16