
“大数据”还不等于“大智慧”_数据分析师
近几年以来,“大数据”已经传得沸沸扬扬。技术开发商和媒体记者铺天盖地式的宣传,你怎么可能不知道“大数据”?即使不知道也总会听说过。让我们来看看他们是怎么大力宣传所谓的“大数据”:“大数据”无所不知无所不能;有了“大数据”的支持,公司运行效率突飞猛进;“大数据”还能帮助你了解数据,做出最明智的决策,使你的公司时刻都充满了竞争优势。
多么具有诱惑力的宣传!当然我们不能百分之百地说报道违背了事实。只是人们对于高科技的宣传总是过于乐观超前。事实上,很多公司都发现以目前的条件实现“大数据”困难重重,理想很丰满,现实却很骨感。的确,在数据的收集和处理方面,可能具有可观的优势。但真正的使用这些数据、乃至借助这些制定更优化的决策则完全又是另一回事。那么问题出在哪里呢?多数公司表示在“大数据”和对大数据的“大理解”之间,缺少了某个重要的联系。如果这个问题得不到解决,那么人们只是空有一堆看似有用的数据,却难以从中挖掘出有用的价值。
正如硅谷的一名资深业内人士最近透露,尽管从近日创业公司的活动和融资情况来看,大数据的数据采集和处理似乎受到广泛关注,但是现实和预期之间的巨大差距依然无法视而不见。他说,“大数据还没有真正转化为大认识、大洞见和大智慧。”以他们的预测,我们离真正的“大数据”时代还有很长的一段路要走。
炒作和现实,不可混为一谈
我们希望从大数据中获取价值的方法越简单越好,比如导入数据,运行程序,最后得出富有远见的结论。你觉得这可能吗?如果智慧那么容易获得,那人人都可以是乔布斯了。事实上,从大数据中获得有价值的信息远比“导入、运行、输出三部曲”要复杂得多。“《数据预测:大数据战略》(Data Divination:Big Data Strategies)”一书的作者帕姆·贝克(Pam Baker)说,数据直接给出答案的实例确实存在,但只存在于特定的情况下,鲜有发生。我们不能寄希望于例外,我们需要的是普遍规律。
“也许,有人会辩解说,我们可以举出很多例子,在这些例子中,数据往往可以给出非常明确的答案。比如预测分析学可以精确地预测出飞机或供水系统中的某个零部件的报废时间,还能告诉我们替换零部件的最佳时间,以便于在旧部件报废之前最大化地利用其剩余价值。”贝克解释道。
“但是,”她马上又强调,“更多的情况下,我们是没有办法直接获得想要的答案的。你可以从诸多可能的行为中选择一个或者什么都不做,具体情况具体分析,这才是我们所面临的真实情况。”
贝克一语中的。一些基于数据的决策的确是这样。数据不是“冰冷的数字”,它们是“多愁善感的精灵”,正如布鲁斯·斯普林斯汀在一首歌中唱道,它们需要“一点点的人情味”。人们可以通过开发良好的指标和强大的算法来挖掘数据。但这远远不够,人们必须通过自己的认识和见解才能真正地了解数据的“内心世界”,才能充分利用数据背后的价值。有的数据很“直白”,有的却很“委婉”,我们不能一概而论。
算法的局限性
进一步说,我们更希望大数据可以让企业用户直接即时地访问数据,这样他们就可以随时随地、有如神助般的做出每一个最佳决策。愿望是美好的,只不过以我们当前的技术条件来看,我们还达不到这么复杂神奇的水平。
要做到这一点,首先我们需要足够多的数据专家来帮助我们分析处理数据,从大量的信息中提取出有效信息。同Kholsa Ventures一道投资了数家大数据技术公司(例如Parstream)的投资者基斯·拉波斯表示,公司非常需要一个数据专家来指导处理复杂数据分析,只不过大多数的企业用户很难做到这一点。
拉波斯说,你会需要这些数据专家来开发应用和算法,承担大量的数据研究任务。但是在已经拥有这些数据专家的公司里,这些数据专家也并非一直在从事这些高级复杂的数据工作,大概部分原因是由于他们需要花时间去处理一些比较简单的数据分析。数据专家的才能在这里大大地被埋没了。
在最理想的情况下,拉波斯继续说道,数据专家开发出一套工具,当有一方需要答案时可以迅速地在整个组织里寻找分析的答案。在现今这个时代,速度就是一切。我们最不希望看到发生的事情就是,当我们急切地需要答案时,我们只能寄希望于数据专家,然后被动地等待。
出发点固然是好的,但问题在于即使是最聪明的人开发出了最复杂的算法,对于复杂的问题仍然没有最直接的答案。无论多么复杂的算法,也无法做到全盘考虑,对于难以衡量的特定因素更加束手无策。如果某个算法可以全部做到这些,那就无异于人类的大脑,届时麻烦可能更大了。
我需要一个优秀的“中场手”
棒球比赛可以帮助我们更好地理解算法的局限性——水平相当的两个选手,他们的表现可以相去甚远。数据极客们会告诉你,经过多年的研究开发,他们创造了Sabermetrics算法,可以为你提供挑选最佳球手所需要的所有决策信息。他们还开发了一整个系列的数据统计算法,比如“替换胜率(Wins Above Replacement)”。FanGraphs对“替换胜率”的解释如下:“如果某一个队员负伤不能上场,他们的球队不得不找一个次级棒球联赛球队队员或者‘稍逊一筹’的板凳球员做替补时,损失有多少?”对此,他们采用了一系列标准来衡量计算两者之间的胜率差别。
这种复杂的算法若是仅仅用来准确地衡量球员的价值,那倒是没什么大问题。但是有些问题,比如某个球员在压力下的表现如何?他是否刻苦练习?他是哪一种类型的队长?又或者他跟队员的相处配合得如何?所有这些问题该怎么用算法去计算?难道这些问题就不重要了吗?如果要纳入算法的考虑范围,又要怎么去量化这些因素呢?
纯数据分析的追随者会告诉你一切都可以量化,也许他们说的没错。但是我也的确看到过很多水平相当的选手,在几乎相同的条件下,他们的表现是有差距的,尽管从数据分析上来看他们的表现应该很接近。
在企业中,人力资源专家在招聘自由程序设计师时也会遇到类似棒球选手的情况。你可能会有两个专业技能水平相当的应聘者前来应聘该职位,但其中一人的人际关系技能更胜一筹,能够很好地与同事合作,而另一个应聘者则难以相处和合作,显然仅从简历中很难看出这些“软实力”。即使有大量的数据支持,也很难顾及到方方面面可能产生的结果,尤其又涉及到人的时候。
差之毫厘谬之千里
任何一个负责任的医生都会严谨地告诉你,即使两个病人的症状非常相似,采取的治疗手段也不会相同,仍需要严格按照个体的差异性来决定,年龄、体重、其他的健康问题和特殊因素等等,都会影响最终的治疗效果。
就拿医疗过程中使用的智能分析平台IBM Watson来说。当我向一个朋友说起最近有的医生开始采用Watson辅助诊断和制定疗程时,他立刻炸毛了。他坚决表示自己的健康问题和治疗手段不需要一台机器来决定。他的担心完全在理,但是在Watson的例子中,这台机器并没有直接给医生提供可以盲从的答案,只是根据已有的迹象、患者信息、病症再结合当前对此病症的科学研究结果,给出治疗的参考方案而已。
正如我之前描述的数据专家的情况一样,医生们同样也很忙碌,他们不可能一边给患者看病一边还要熟知自己领域的所有最新进展。相关的研究实在太多了(当然这是一件好事)。所以他们需要Watson的辅助。Watson能够快速地过滤目前的研究,但是仍然需要医生根据实际情况来决定最终的治疗方向。我更愿意把这个过程称为科学中的艺术。知识给我们带来了无限的可能性,但最终的决定权仍在于医生而不是机器。
企业同样也会面临类似不确定性,这时候就需要人的介入,运用他们的知识,借助数据的力量,为不确定性做出决策。
很多时候机器可以给出人们需要耗费数年时间才能得出的答案和远见。贝克指出,比如大数据已经在帮助我们更深刻地了解疾病,尤其是癌症,有很多方面都是人类研究人员从未涉及过的。“没有大数据给我们提供足够的数据信息,我们永远都不会找到最佳治疗方案(至少最近几年毫无希望)。在这里,我想说的是,大数据‘的确’可以十分精准。”
而且她还相信机器的学习能力在不远的将来一定会达到一个足够成熟的阶段。届时机器或许可以替我们做更多的决策,因为人类的大脑能力毕竟有限,无法一下子处理所有的可用信息。
我不能说她的预想是错误的,然而就目前看来,采集和处理数据的能力远远超过了对这些数据的理解能力。贝克也谈到,预测分析一直在前进发展,有时候数据可以直接给出答案,但在更多的情况下,这仍然是一个复杂的人机交互过程。即使技术在不断向前发展,这两者之间如何才能完美的合作仍是一个难题。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30在企业日常运营中,“未来会怎样” 是决策者最关心的问题 —— 电商平台想知道 “下月销量能否达标”,金融机构想预判 “下周股 ...
2025-09-30Excel 能做聚类分析吗?基础方法、进阶技巧与场景边界 在数据分析领域,聚类分析是 “无监督学习” 的核心技术 —— 无需预设分 ...
2025-09-29XGBoost 决策树:原理、优化与工业级实战指南 在机器学习领域,决策树因 “可解释性强、处理非线性关系能力突出” 成为基础模型 ...
2025-09-29在标签体系的落地链路中,“设计标签逻辑” 只是第一步,真正让标签从 “纸上定义” 变为 “业务可用资产” 的关键,在于标签加 ...
2025-09-29在使用 Excel 数据透视表进行多维度数据汇总时,折叠功能是梳理数据层级的核心工具 —— 通过点击 “+/-” 符号可展开明细数据或 ...
2025-09-28在使用 Pandas 处理 CSV、TSV 等文本文件时,“引号” 是最容易引发格式混乱的 “隐形杀手”—— 比如字段中包含逗号(如 “北京 ...
2025-09-28在 CDA(Certified Data Analyst)数据分析师的技能工具箱中,数据查询语言(尤其是 SQL)是最基础、也最核心的 “武器”。无论 ...
2025-09-28Cox 模型时间依赖性检验:原理、方法与实战应用 在生存分析领域,Cox 比例风险模型(Cox Proportional Hazards Model)是分析 “ ...
2025-09-26检测因子类型的影响程度大小:评估标准、实战案例与管控策略 在检测分析领域(如环境监测、食品质量检测、工业产品合规性测试) ...
2025-09-26CDA 数据分析师:以数据库为基石,筑牢数据驱动的 “源头防线” 在数据驱动业务的链条中,“数据从哪里来” 是 CDA(Certified D ...
2025-09-26线性相关点分布的四种基本类型:特征、识别与实战应用 在数据分析与统计学中,“线性相关” 是描述两个数值变量间关联趋势的核心 ...
2025-09-25深度神经网络神经元个数确定指南:从原理到实战的科学路径 在深度神经网络(DNN)的设计中,“神经元个数” 是决定模型性能的关 ...
2025-09-25在企业数字化进程中,不少团队陷入 “指标困境”:仪表盘上堆砌着上百个指标,DAU、转化率、营收等数据实时跳动,却无法回答 “ ...
2025-09-25MySQL 服务器内存碎片:成因、检测与内存持续增长的解决策略 在 MySQL 运维中,“内存持续增长” 是常见且隐蔽的性能隐患 —— ...
2025-09-24人工智能重塑工程质量检测:核心应用、技术路径与实践案例 工程质量检测是保障建筑、市政、交通、水利等基础设施安全的 “最后一 ...
2025-09-24CDA 数据分析师:驾驭通用与场景指标,解锁数据驱动的精准路径 在数据驱动业务的实践中,指标是连接数据与决策的核心载体。但并 ...
2025-09-24在数据驱动的业务迭代中,AB 实验系统(负责验证业务优化效果)与业务系统(负责承载用户交互与核心流程)并非独立存在 —— 前 ...
2025-09-23CDA 业务数据分析:6 步闭环,让数据驱动业务落地 在企业数字化转型中,CDA(Certified Data Analyst)数据分析师的核心价值,并 ...
2025-09-23