
“大数据”还不等于“大智慧”_数据分析师
技术开发商和媒体早早地为我们描绘了一个即将来临的“大数据时代”。“大数据”无所不知无所不能;有了“大数据”的支持,公司运行效率突飞猛进;“大数据”还能帮你做出最明智的决策,使你的公司所向披靡。简直不要太棒!但是在这里提醒各位,正如所有的高科技宣传一样,“大数据”也不可避免地被炒作夸大。于是,你还相信未来吗?
近几年以来,“大数据”已经传得沸沸扬扬。技术开发商和媒体记者铺天盖地式的宣传,你怎么可能不知道“大数据”?即使不知道也总会听说过。让我们来看看他们是怎么大力宣传所谓的“大数据”:“大数据”无所不知无所不能;有了“大数据”的支持,公司运行效率突飞猛进;“大数据”还能帮助你了解数据,做出最明智的决策,使你的公司时刻都充满了竞争优势。
多么具有诱惑力的宣传!当然我们不能百分之百地说报道违背了事实。只是人们对于高科技的宣传总是过于乐观超前。事实上,很多公司都发现以目前的条件实现“大数据”困难重重,理想很丰满,现实却很骨感。的确,在数据的收集和处理方面,可能具有可观的优势。但真正的使用这些数据、乃至借助这些制定更优化的决策则完全又是另一回事。那么问题出在哪里呢?多数公司表示在“大数据”和对大数据的“大理解”之间,缺少了某个重要的联系。如果这个问题得不到解决,那么人们只是空有一堆看似有用的数据,却难以从中挖掘出有用的价值。
正如硅谷的一名资深业内人士最近透露,尽管从近日创业公司的活动和融资情况来看,大数据的数据采集和处理似乎受到广泛关注,但是现实和预期之间的巨大差距依然无法视而不见。他说,“大数据还没有真正转化为大认识、大洞见和大智慧。”以他们的预测,我们离真正的“大数据”时代还有很长的一段路要走。
炒作和现实,不可混为一谈
我们希望从大数据中获取价值的方法越简单越好,比如导入数据,运行程序,最后得出富有远见的结论。你觉得这可能吗?如果智慧那么容易获得,那人人都可以是乔布斯了。事实上,从大数据中获得有价值的信息远比“导入、运行、输出三部曲”要复杂得多。“《数据预测:大数据战略》(Data Divination:Big Data Strategies)”一书的作者帕姆·贝克(Pam Baker)说,数据直接给出答案的实例确实存在,但只存在于特定的情况下,鲜有发生。我们不能寄希望于例外,我们需要的是普遍规律。
“也许,有人会辩解说,我们可以举出很多例子,在这些例子中,数据往往可以给出非常明确的答案。比如预测分析学可以精确地预测出飞机或供水系统中的某个零部件的报废时间,还能告诉我们替换零部件的最佳时间,以便于在旧部件报废之前最大化地利用其剩余价值。”贝克解释道。
“但是,”她马上又强调,“更多的情况下,我们是没有办法直接获得想要的答案的。你可以从诸多可能的行为中选择一个或者什么都不做,具体情况具体分析,这才是我们所面临的真实情况。”
贝克一语中的。一些基于数据的决策的确是这样。数据不是“冰冷的数字”,它们是“多愁善感的精灵”,正如布鲁斯·斯普林斯汀在一首歌中唱道,它们需要“一点点的人情味”。人们可以通过开发良好的指标和强大的算法来挖掘数据。但这远远不够,人们必须通过自己的认识和见解才能真正地了解数据的“内心世界”,才能充分利用数据背后的价值。有的数据很“直白”,有的却很“委婉”,我们不能一概而论。
算法的局限性
进一步说,我们更希望大数据可以让企业用户直接即时地访问数据,这样他们就可以随时随地、有如神助般的做出每一个最佳决策。愿望是美好的,只不过以我们当前的技术条件来看,我们还达不到这么复杂神奇的水平。
要做到这一点,首先我们需要足够多的数据专家来帮助我们分析处理数据,从大量的信息中提取出有效信息。同Kholsa Ventures一道投资了数家大数据技术公司(例如Parstream)的投资者基斯·拉波斯表示,公司非常需要一个数据专家来指导处理复杂数据分析,只不过大多数的企业用户很难做到这一点。
拉波斯说,你会需要这些数据专家来开发应用和算法,承担大量的数据研究任务。但是在已经拥有这些数据专家的公司里,这些数据专家也并非一直在从事这些高级复杂的数据工作,大概部分原因是由于他们需要花时间去处理一些比较简单的数据分析。数据专家的才能在这里大大地被埋没了。
在最理想的情况下,拉波斯继续说道,数据专家开发出一套工具,当有一方需要答案时可以迅速地在整个组织里寻找分析的答案。在现今这个时代,速度就是一切。我们最不希望看到发生的事情就是,当我们急切地需要答案时,我们只能寄希望于数据专家,然后被动地等待。
出发点固然是好的,但问题在于即使是最聪明的人开发出了最复杂的算法,对于复杂的问题仍然没有最直接的答案。无论多么复杂的算法,也无法做到全盘考虑,对于难以衡量的特定因素更加束手无策。如果某个算法可以全部做到这些,那就无异于人类的大脑,届时麻烦可能更大了。
我需要一个优秀的“中场手”
棒球比赛可以帮助我们更好地理解算法的局限性——水平相当的两个选手,他们的表现可以相去甚远。数据极客们会告诉你,经过多年的研究开发,他们创造了Sabermetrics算法,可以为你提供挑选最佳球手所需要的所有决策信息。他们还开发了一整个系列的数据统计算法,比如“替换胜率(Wins Above Replacement)”。FanGraphs对“替换胜率”的解释如下:“如果某一个队员负伤不能上场,他们的球队不得不找一个次级棒球联赛球队队员或者‘稍逊一筹’的板凳球员做替补时,损失有多少?”对此,他们采用了一系列标准来衡量计算两者之间的胜率差别。
这种复杂的算法若是仅仅用来准确地衡量球员的价值,那倒是没什么大问题。但是有些问题,比如某个球员在压力下的表现如何?他是否刻苦练习?他是哪一种类型的队长?又或者他跟队员的相处配合得如何?所有这些问题该怎么用算法去计算?难道这些问题就不重要了吗?如果要纳入算法的考虑范围,又要怎么去量化这些因素呢?
纯数据分析的追随者会告诉你一切都可以量化,也许他们说的没错。但是我也的确看到过很多水平相当的选手,在几乎相同的条件下,他们的表现是有差距的,尽管从数据分析上来看他们的表现应该很接近。
在企业中,人力资源专家在招聘自由程序设计师时也会遇到类似棒球选手的情况。你可能会有两个专业技能水平相当的应聘者前来应聘该职位,但其中一人的人际关系技能更胜一筹,能够很好地与同事合作,而另一个应聘者则难以相处和合作,显然仅从简历中很难看出这些“软实力”。即使有大量的数据支持,也很难顾及到方方面面可能产生的结果,尤其又涉及到人的时候。
差之毫厘谬之千里
任何一个负责任的医生都会严谨地告诉你,即使两个病人的症状非常相似,采取的治疗手段也不会相同,仍需要严格按照个体的差异性来决定,年龄、体重、其他的健康问题和特殊因素等等,都会影响最终的治疗效果。
就拿医疗过程中使用的智能分析平台IBM Watson来说。当我向一个朋友说起最近有的医生开始采用Watson辅助诊断和制定疗程时,他立刻炸毛了。他坚决表示自己的健康问题和治疗手段不需要一台机器来决定。他的担心完全在理,但是在Watson的例子中,这台机器并没有直接给医生提供可以盲从的答案,只是根据已有的迹象、患者信息、病症再结合当前对此病症的科学研究结果,给出治疗的参考方案而已。
正如我之前描述的数据专家的情况一样,医生们同样也很忙碌,他们不可能一边给患者看病一边还要熟知自己领域的所有最新进展。相关的研究实在太多了(当然这是一件好事)。所以他们需要Watson的辅助。Watson能够快速地过滤目前的研究,但是仍然需要医生根据实际情况来决定最终的治疗方向。我更愿意把这个过程称为科学中的艺术。知识给我们带来了无限的可能性,但最终的决定权仍在于医生而不是机器。
企业同样也会面临类似不确定性,这时候就需要人的介入,运用他们的知识,借助数据的力量,为不确定性做出决策。
未来我们能走多远?
很多时候机器可以给出人们需要耗费数年时间才能得出的答案和远见。贝克指出,比如大数据已经在帮助我们更深刻地了解疾病,尤其是癌症,有很多方面都是人类研究人员从未涉及过的。“没有大数据给我们提供足够的数据信息,我们永远都不会找到最佳治疗方案(至少最近几年毫无希望)。在这里,我想说的是,大数据‘的确’可以十分精准。”
而且她还相信机器的学习能力在不远的将来一定会达到一个足够成熟的阶段。届时机器或许可以替我们做更多的决策,因为人类的大脑能力毕竟有限,无法一下子处理所有的可用信息。
我不能说她的预想是错误的,然而就目前看来,采集和处理数据的能力远远超过了对这些数据的理解能力。贝克也谈到,预测分析一直在前进发展,有时候数据可以直接给出答案,但在更多的情况下,这仍然是一个复杂的人机交互过程。即使技术在不断向前发展,这两者之间如何才能完美的合作仍是一个难题。
除非我们能从中找到一个折中的办法或者机器的技术能有大幅度的提升,否则我们仍将面临一个智慧的鸿沟,需要时间和技术的进步来慢慢填补。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
透视表内计算两个字段乘积的实用指南 在数据处理与分析的过程中,透视表凭借其强大的数据汇总和整理能力,成为了众多数据工 ...
2025-06-20CDA 一级考试备考时长全解析,助你高效备考 CDA(Certified Data Analyst)一级认证考试,作为数据分析师领域的重要资格认证, ...
2025-06-20统计学模型:解锁数据背后的规律与奥秘 在数据驱动决策的时代,统计学模型作为挖掘数据价值的核心工具,发挥着至关重要的作 ...
2025-06-20Logic 模型特征与选择应用:构建项目规划与评估的逻辑框架 在项目管理、政策制定以及社会服务等领域,Logic 模型(逻辑模型 ...
2025-06-19SPSS 中的 Mann-Kendall 检验:数据趋势与突变分析的利器 在数据分析的众多方法中,Mann-Kendall(MK)检验凭借其对数据分 ...
2025-06-19CDA 数据分析能力与 AI 的一体化发展关系:重塑数据驱动未来 在数字化浪潮奔涌的当下,数据已然成为企业乃至整个社会发展进 ...
2025-06-19CDA 干货分享:统计学的应用 在数据驱动业务发展的时代浪潮中,统计学作为数据分析的核心基石,发挥着无可替代的关键作用。 ...
2025-06-18CDA 精益业务数据分析:解锁企业增长新密码 在数字化浪潮席卷全球的当下,数据已然成为企业最具价值的资产之一。如何精准地 ...
2025-06-18CDA 培训:开启数据分析师职业大门的钥匙 在大数据时代,数据分析师已成为各行业竞相争夺的关键人才。CDA(Certified Data ...
2025-06-18CDA 人才招聘市场分析:机遇与挑战并存 在数字化浪潮席卷各行业的当下,数据分析能力成为企业发展的核心竞争力之一,持有 C ...
2025-06-17CDA金融大数据案例分析:驱动行业变革的实践与启示 在金融行业加速数字化转型的当下,大数据技术已成为金融机构提升 ...
2025-06-17CDA干货:SPSS交叉列联表分析规范与应用指南 一、交叉列联表的基本概念 交叉列联表(Cross-tabulation)是一种用于展示两个或多 ...
2025-06-17TMT行业内审内控咨询顾问 1-2万 上班地址:朝阳门北大街8号富华大厦A座9层 岗位描述 1、为客户提供高质量的 ...
2025-06-16一文读懂 CDA 数据分析师证书考试全攻略 在数据行业蓬勃发展的今天,CDA 数据分析师证书成为众多从业者和求职者提升竞争力的重要 ...
2025-06-16数据分析师:数字时代的商业解码者 在数字经济蓬勃发展的今天,数据已成为企业乃至整个社会最宝贵的资产之一。无论是 ...
2025-06-16解锁数据分析师证书:开启数字化职业新篇 在数字化浪潮汹涌的当下,数据已成为驱动企业前行的关键要素。从市场趋势研判、用 ...
2025-06-16CDA 数据分析师证书含金量几何?一文为你讲清楚 在当今数字化时代,数据成为了企业决策和发展的重要依据。数据分析师这一职业 ...
2025-06-13CDA 数据分析师:数字化时代的关键人才 在当今数字化浪潮席卷全球的时代,数据已然成为驱动企业发展、推动行业变革的核心要素。 ...
2025-06-13CDA 数据分析师报考条件全解析 在大数据和人工智能时代,数据分析师成为了众多行业追捧的热门职业。CDA(Certified Data Analyst ...
2025-06-13“纲举目张,执本末从。”若想在数据分析领域有所收获,一套合适的学习教材至关重要。一套优质且契合需求的学习教材无疑是那关键 ...
2025-06-09