京公网安备 11010802034615号
经营许可证编号:京B2-20210330
“大数据”还不等于“大智慧”_数据分析师
技术开发商和媒体早早地为我们描绘了一个即将来临的“大数据时代”。“大数据”无所不知无所不能;有了“大数据”的支持,公司运行效率突飞猛进;“大数据”还能帮你做出最明智的决策,使你的公司所向披靡。简直不要太棒!但是在这里提醒各位,正如所有的高科技宣传一样,“大数据”也不可避免地被炒作夸大。于是,你还相信未来吗?
近几年以来,“大数据”已经传得沸沸扬扬。技术开发商和媒体记者铺天盖地式的宣传,你怎么可能不知道“大数据”?即使不知道也总会听说过。让我们来看看他们是怎么大力宣传所谓的“大数据”:“大数据”无所不知无所不能;有了“大数据”的支持,公司运行效率突飞猛进;“大数据”还能帮助你了解数据,做出最明智的决策,使你的公司时刻都充满了竞争优势。
多么具有诱惑力的宣传!当然我们不能百分之百地说报道违背了事实。只是人们对于高科技的宣传总是过于乐观超前。事实上,很多公司都发现以目前的条件实现“大数据”困难重重,理想很丰满,现实却很骨感。的确,在数据的收集和处理方面,可能具有可观的优势。但真正的使用这些数据、乃至借助这些制定更优化的决策则完全又是另一回事。那么问题出在哪里呢?多数公司表示在“大数据”和对大数据的“大理解”之间,缺少了某个重要的联系。如果这个问题得不到解决,那么人们只是空有一堆看似有用的数据,却难以从中挖掘出有用的价值。
正如硅谷的一名资深业内人士最近透露,尽管从近日创业公司的活动和融资情况来看,大数据的数据采集和处理似乎受到广泛关注,但是现实和预期之间的巨大差距依然无法视而不见。他说,“大数据还没有真正转化为大认识、大洞见和大智慧。”以他们的预测,我们离真正的“大数据”时代还有很长的一段路要走。
炒作和现实,不可混为一谈
我们希望从大数据中获取价值的方法越简单越好,比如导入数据,运行程序,最后得出富有远见的结论。你觉得这可能吗?如果智慧那么容易获得,那人人都可以是乔布斯了。事实上,从大数据中获得有价值的信息远比“导入、运行、输出三部曲”要复杂得多。“《数据预测:大数据战略》(Data Divination:Big Data Strategies)”一书的作者帕姆·贝克(Pam Baker)说,数据直接给出答案的实例确实存在,但只存在于特定的情况下,鲜有发生。我们不能寄希望于例外,我们需要的是普遍规律。
“也许,有人会辩解说,我们可以举出很多例子,在这些例子中,数据往往可以给出非常明确的答案。比如预测分析学可以精确地预测出飞机或供水系统中的某个零部件的报废时间,还能告诉我们替换零部件的最佳时间,以便于在旧部件报废之前最大化地利用其剩余价值。”贝克解释道。
“但是,”她马上又强调,“更多的情况下,我们是没有办法直接获得想要的答案的。你可以从诸多可能的行为中选择一个或者什么都不做,具体情况具体分析,这才是我们所面临的真实情况。”
贝克一语中的。一些基于数据的决策的确是这样。数据不是“冰冷的数字”,它们是“多愁善感的精灵”,正如布鲁斯·斯普林斯汀在一首歌中唱道,它们需要“一点点的人情味”。人们可以通过开发良好的指标和强大的算法来挖掘数据。但这远远不够,人们必须通过自己的认识和见解才能真正地了解数据的“内心世界”,才能充分利用数据背后的价值。有的数据很“直白”,有的却很“委婉”,我们不能一概而论。
算法的局限性
进一步说,我们更希望大数据可以让企业用户直接即时地访问数据,这样他们就可以随时随地、有如神助般的做出每一个最佳决策。愿望是美好的,只不过以我们当前的技术条件来看,我们还达不到这么复杂神奇的水平。
要做到这一点,首先我们需要足够多的数据专家来帮助我们分析处理数据,从大量的信息中提取出有效信息。同Kholsa Ventures一道投资了数家大数据技术公司(例如Parstream)的投资者基斯·拉波斯表示,公司非常需要一个数据专家来指导处理复杂数据分析,只不过大多数的企业用户很难做到这一点。
拉波斯说,你会需要这些数据专家来开发应用和算法,承担大量的数据研究任务。但是在已经拥有这些数据专家的公司里,这些数据专家也并非一直在从事这些高级复杂的数据工作,大概部分原因是由于他们需要花时间去处理一些比较简单的数据分析。数据专家的才能在这里大大地被埋没了。
在最理想的情况下,拉波斯继续说道,数据专家开发出一套工具,当有一方需要答案时可以迅速地在整个组织里寻找分析的答案。在现今这个时代,速度就是一切。我们最不希望看到发生的事情就是,当我们急切地需要答案时,我们只能寄希望于数据专家,然后被动地等待。
出发点固然是好的,但问题在于即使是最聪明的人开发出了最复杂的算法,对于复杂的问题仍然没有最直接的答案。无论多么复杂的算法,也无法做到全盘考虑,对于难以衡量的特定因素更加束手无策。如果某个算法可以全部做到这些,那就无异于人类的大脑,届时麻烦可能更大了。
我需要一个优秀的“中场手”
棒球比赛可以帮助我们更好地理解算法的局限性——水平相当的两个选手,他们的表现可以相去甚远。数据极客们会告诉你,经过多年的研究开发,他们创造了Sabermetrics算法,可以为你提供挑选最佳球手所需要的所有决策信息。他们还开发了一整个系列的数据统计算法,比如“替换胜率(Wins Above Replacement)”。FanGraphs对“替换胜率”的解释如下:“如果某一个队员负伤不能上场,他们的球队不得不找一个次级棒球联赛球队队员或者‘稍逊一筹’的板凳球员做替补时,损失有多少?”对此,他们采用了一系列标准来衡量计算两者之间的胜率差别。
这种复杂的算法若是仅仅用来准确地衡量球员的价值,那倒是没什么大问题。但是有些问题,比如某个球员在压力下的表现如何?他是否刻苦练习?他是哪一种类型的队长?又或者他跟队员的相处配合得如何?所有这些问题该怎么用算法去计算?难道这些问题就不重要了吗?如果要纳入算法的考虑范围,又要怎么去量化这些因素呢?
纯数据分析的追随者会告诉你一切都可以量化,也许他们说的没错。但是我也的确看到过很多水平相当的选手,在几乎相同的条件下,他们的表现是有差距的,尽管从数据分析上来看他们的表现应该很接近。
在企业中,人力资源专家在招聘自由程序设计师时也会遇到类似棒球选手的情况。你可能会有两个专业技能水平相当的应聘者前来应聘该职位,但其中一人的人际关系技能更胜一筹,能够很好地与同事合作,而另一个应聘者则难以相处和合作,显然仅从简历中很难看出这些“软实力”。即使有大量的数据支持,也很难顾及到方方面面可能产生的结果,尤其又涉及到人的时候。
差之毫厘谬之千里
任何一个负责任的医生都会严谨地告诉你,即使两个病人的症状非常相似,采取的治疗手段也不会相同,仍需要严格按照个体的差异性来决定,年龄、体重、其他的健康问题和特殊因素等等,都会影响最终的治疗效果。
就拿医疗过程中使用的智能分析平台IBM Watson来说。当我向一个朋友说起最近有的医生开始采用Watson辅助诊断和制定疗程时,他立刻炸毛了。他坚决表示自己的健康问题和治疗手段不需要一台机器来决定。他的担心完全在理,但是在Watson的例子中,这台机器并没有直接给医生提供可以盲从的答案,只是根据已有的迹象、患者信息、病症再结合当前对此病症的科学研究结果,给出治疗的参考方案而已。
正如我之前描述的数据专家的情况一样,医生们同样也很忙碌,他们不可能一边给患者看病一边还要熟知自己领域的所有最新进展。相关的研究实在太多了(当然这是一件好事)。所以他们需要Watson的辅助。Watson能够快速地过滤目前的研究,但是仍然需要医生根据实际情况来决定最终的治疗方向。我更愿意把这个过程称为科学中的艺术。知识给我们带来了无限的可能性,但最终的决定权仍在于医生而不是机器。
企业同样也会面临类似不确定性,这时候就需要人的介入,运用他们的知识,借助数据的力量,为不确定性做出决策。
未来我们能走多远?
很多时候机器可以给出人们需要耗费数年时间才能得出的答案和远见。贝克指出,比如大数据已经在帮助我们更深刻地了解疾病,尤其是癌症,有很多方面都是人类研究人员从未涉及过的。“没有大数据给我们提供足够的数据信息,我们永远都不会找到最佳治疗方案(至少最近几年毫无希望)。在这里,我想说的是,大数据‘的确’可以十分精准。”
而且她还相信机器的学习能力在不远的将来一定会达到一个足够成熟的阶段。届时机器或许可以替我们做更多的决策,因为人类的大脑能力毕竟有限,无法一下子处理所有的可用信息。
我不能说她的预想是错误的,然而就目前看来,采集和处理数据的能力远远超过了对这些数据的理解能力。贝克也谈到,预测分析一直在前进发展,有时候数据可以直接给出答案,但在更多的情况下,这仍然是一个复杂的人机交互过程。即使技术在不断向前发展,这两者之间如何才能完美的合作仍是一个难题。
除非我们能从中找到一个折中的办法或者机器的技术能有大幅度的提升,否则我们仍将面临一个智慧的鸿沟,需要时间和技术的进步来慢慢填补。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 SQL Server 安装、服务启动、数据库文件操作等场景中,经常会遇到 “实例已在使用” 类报错,不同触发场景的原因与处理方式差 ...
2026-06-29在Excel数据统计、财务核算、销售复盘、库存盘点等办公场景中,经常需要在数据透视表中实现一列数据乘以另一列数据的计算需求, ...
2026-06-29在数据分析中,指标是连接业务与数据的核心语言。它并非一个简单的数字,而是一个将模糊的业务需求(如“提升用户粘性”)转化为 ...
2026-06-29【核心关键词】大数据、零售商、消费者、供应链、运营、企业、产品、客户、数据模型、大数据平台、数据开发、系统运维、业务逻 ...
2026-06-26在物流配送、供应链履约、终端供货等业务场景中,送货率是衡量企业履约能力、服务质量、供应链稳定性的核心业务指标,直接关联客 ...
2026-06-26 很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度” ...
2026-06-26在数字化管理与数据化运营体系中,指标是连接原始数据与业务决策的核心载体。零散的原始数据只是无意义的数值堆砌,无法直接反映 ...
2026-06-25在Excel数据汇总、财务统计、业务复盘等日常办公场景中,经常需要完成逐行相乘、整体汇总求和的计算需求,最典型的场景就是:单 ...
2026-06-25 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-06-25【核心关键词】主数据、资产、供应商、现金流、企业、精细化、集团、数字化、中国、数据质量、数据管理、经营管理、地产行业、 ...
2026-06-24在数据分析、假设检验、AB测试、学术研究等统计场景中,显著水平(α)与P值(P-value)是判断统计结果是否具有统计学意义的两个 ...
2026-06-24小李刚入职了一家互联网公司的运营部门。第一次参加业务复盘会,运营主管问了一个看似简单的问题:“这个月新用户留存率下降了5 ...
2026-06-24在数字化转型全面渗透的产业背景下,数据分析已成为互联网、金融、零售、制造等几乎所有行业的核心岗位能力。很多初学者对数据分 ...
2026-06-23在企业并购、股权定价、投融资评估、资产核算等资本市场核心场景中,市场法是应用最广泛、市场认可度最高的企业价值评估方法。传 ...
2026-06-23 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-06-23【核心关键词】运营、证书、金融、客户、产品、软件、销售额、量化、科技、数据分析、金融行业、证券类软件、业务流程、金融机 ...
2026-06-22在企业方案选型、产品迭代评审、供应商筛选、运营效果复盘等决策场景中,单一指标的优劣判断往往无法支撑科学决策。一套转化效果 ...
2026-06-22 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-06-22【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18