大数据不是万精油：数据分析做不到的事-CDA数据分析师官网

热线电话：13121318867

大数据不是万精油：数据分析做不到的事

2016-09-14

大数据不是万精油：数据分析做不到的事

不久之前我曾与一位大型银行的首席执行官一同用餐。他正在考虑是否要退出意大利市场，因为经济形势不景气，而且未来很可能出现一场欧元危机。

这位CEO手下的经济学家描绘出一片惨淡的景象，并且计算出经济低迷对公司意味着什么。但是最终，他还是在自己价值观念的指引下做出了决定。

这家银行在意大利已经有了几十年的历史。他不希望意大利人觉得他的银行只能同甘不能共苦。他不希望银行的员工认为他们在时局艰难之际会弃甲而逃。他决定留在意大利，不管未来有什么危机都要坚持下去，即便付出短期代价也在所不惜。

做决策之时他并没有忘记那些数据，但最终他采用了另一种不同的思维方式。当然，他是正确的。商业建立在信任之上。信任是一种披着情感外衣的互惠主义。在困境中做出正确决策的人和机构能够赢得自尊和他人的尊敬，这种感情上的东西是非常宝贵的，即便它不能为数据所捕捉和反映。

这个故事反映出了数据分析的长处和局限。目前这一历史时期最大的创新就在于，我们的生活现在由收集数据的计算机调控着。在这个时代，头脑无法理解的复杂情况，数据可以帮我们解读其中的含义。数据可以弥补我们对直觉的过分自信，数据可以减轻欲望对知觉的扭曲程度。

但有，些事情是“大数据”不擅长的，下面我会一一道来：

数据不懂社交。大脑在数学方面很差劲（不信请迅速心算一下437的平方根是多少），但是大脑懂得社会认知。人们擅长反射彼此的情绪状态，擅长侦测出不合作的行为，擅长用情绪为事物赋予价值。

计算机数据分析擅长的是测量社会交往的“量”而非“质”。网络科学家可以测量出你在76%的时间里与6名同事的社交互动情况，但是他们不可能捕捉到你心底对于那些一年才见2次的儿时玩伴的感情，更不必说但丁对于仅有两面之缘的贝阿特丽斯的感情了。因此，在社交关系的决策中，不要愚蠢到放弃头脑中那台充满魔力的机器，而去相信你办工作上的那台机器。

数据不懂背景。人类的决策不是离散的事件，而是镶嵌在时间序列和背景之中的。经过数百万年的演化，人脑已经变得善于处理这样的现实。人们擅长讲述交织了多重原因和多重背景的故事。数据分析则不懂得如何叙事，也不懂得思维的浮现过程。即便是一部普普通通的小说，数据分析也无法解释其中的思路。

数据会制造出更大的“干草垛”。这一观点是由纳西姆？塔勒布（Nassim Taleb，著名商业思想家，著有《黑天鹅：如何应对不可知的未来》等书作）提出的。随着我们掌握的数据越来越多，可以发现的统计上显著的相关关系也就越来越多。这些相关关系中，有很多都是没有实际意义的，在真正解决问题时很可能将人引入歧途。这种欺骗性会随着数据的增多而指数级地增长。在这个庞大的“干草垛”里，我们要找的那根针被越埋越深。大数据时代的特征之一就是，“重大”发现的数量被数据扩张带来的噪音所淹没。

大数据无法解决大问题。如果你只想分析哪些邮件可以带来最多的竞选资金赞助，你可以做一个随机控制实验。但假设目标是刺激衰退期的经济形势，你就不可能找到一个平行世界中的社会来当对照组。最佳的经济刺激手段到底是什么？人们对此争论不休，尽管数据像海浪一般涌来，就我所知，这场辩论中尚未有哪位主要“辩手”因为参考了数据分析而改变立场的。

数据偏爱潮流，忽视杰作。当大量个体对某种文化产品迅速产生兴趣时，数据分析可以敏锐地侦测到这种趋势。但是，一些重要的（也是有收益的）产品在一开始就被数据摈弃了，仅仅因为它们的特异之处不为人所熟知。

数据掩盖了价值观念。我最近读到一本有着精彩标题的学术专著——《‘原始数据’只是一种修辞》。书中的要点之一就是，数据从来都不可能是“原始”的，数据总是依照某人的倾向和价值观念而被构建出来的。数据分析的结果看似客观公正，但其实价值选择贯穿了从构建到解读的全过程。

这篇文章并不是要批评大数据不是一种伟大的工具。只是，和任何一种工具一样，大数据有拿手强项，也有不擅长的领域。正如耶鲁大学的爱德华？图弗特教授（Edward Tufte）所说：“这个世界的有趣之处，远胜任何一门学科。”

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；