
大数据时代的小数字感:数据再有价值,别人听不懂照样没用
目前,“大数据”概念已经深入人心,很多人都喜欢谈论大数据。而我们利用数据,其中一个很重要的目的在于,用之为决策提供支持。因此,如何有效地呈现出大数据给出的结果,并把数据以“人话”说出来的,并让受众(很可能是你的上司)听得懂,就显得非常重要的!
想做到这一点,就得迎合人性,或者,更具体点说,要迎合人类大脑的特征。
一部经典电影引出来的数字感
如果你看过巴里·莱文森导演的经典奥斯卡电影《雨人》(RainMan),或许你不会忘记其中一个非常有意思的桥段:在餐馆里,患有自闭症的哥哥(达斯汀·霍夫曼饰),面对散落一地的牙签,目测就能将其分成三小堆,并能很快给出每小一堆牙签的数量:82,82,82,然后又瞬间心算出牙签总数:246。
哥哥的心算能力,的确不错,但相比于他高超的数字感——能达到82,那只能说,惊为天人了。
当然,这仅仅是影视作品,我们知道,影视作品通常是基于生活,而高于生活的。那么真实的生活场景,我们普通人又是什么样的呢?数字感又是个什么东东呢?
在进行解释之前,请读者快速浏览一下如图1所示图片,不用数出来,告诉我,你看到了多少张人物脸谱?
图1 数字感测试
相信绝大部分人,都能瞬间给出正确的答案:五个!而无需用从一数到五。美籍数学家托拜厄斯·丹齐克(Tobias Dantzig)指出,这就是一种“数字感(number sense)”,亦称数(shù)觉,它是一种不通过数(shǔ)数(shù),就能一眼看出物之多寡的感觉。
乌鸦也有数字感
这种原始的数字感,在很多动物身上也有体现,例如鸟类。丹齐克在其科普名作《数:科学的语言》中,就提供了一个有趣的例子:
有一只乌鸦,在一个庄园主的望楼里筑巢,园主不胜其扰,决心打死这只乌鸦,但他尝试了多次,都没有成功,因为人一旦靠近,乌鸦就非常警惕地飞离了巢穴,远远地待在树上,耐心地等人离开望楼,然后再飞回巢穴。
图2 乌鸦的数字感
有一天,园主心生一计:决定让2个人同时走进望楼,然后留一个潜藏其内,另一个出来走开。但这个乌鸦并不上当,它还是等着,直到第二个人出来。
这个实验一连做了几天:两个人,三个人,四个人,都没有成功。最后,用了五个人:也像前几天一样,先一起进望楼,然后留一人潜藏其内,其他四个人走出来。这次奏效了,乌鸦的数字感终于“失灵”了——也就是说,但集合变大后,乌鸦已经无法辨别四与五的差别,因此它马上飞回巢里,然后就被留在望楼的人,逮个正着。
人类的数字感有多强?
“数字感”是动物的基本心理特征之一。丹齐克指出,“一种比鸟类高强不了多少的原始数觉,就是我们有关数字概念的核心。”
但是,我们能否将这种数字感(即数觉),和人类的其它五种感觉(即视觉,听觉,嗅觉,触觉和味觉)相提并论吗?
答案是:还真能!
在2013年9月6日的《科学》杂志上,荷兰乌得勒支大学(Utrecht University)研究小组,对这一问题实施了深入的研究[3]。这项研究表明,我们的大脑,有一个固定的区域来处理数字感,从而使得我们具备不用计数就能感知数目的能力——也就是说,事实上,我们人人都是具备第六感的(女人那项特殊的专有感觉,要排名第七了!)。这项研究打破了原有的界限:大脑的一边负责处理来自感觉器官的刺激,另一边负责管理抽象概念(比如数字)。
数字,在本质上,是人类是对实物的一种抽象。人类接受这种抽象的能力,历经年代非常久远。英国著名哲学家伯特兰·罗素(Bertrand Russell,1872~1970)针对数的抽象性,总结道:“仅仅在文明的高级阶段上,我们方能以一串数(自然数串)作为我们发现的起点。在远古时期,发现一对锦鸡和两天,都是数字二的实例,一定需要很多时代。其中所包含的抽象程度确实不易达到。”
作为高智慧群体,人类相比于其它动物,这种数字感相对较强。但这个“相对性”也是非常限度的,在目标个数超过7个时,人类的这种感觉也会明显下降。
读者可以尝试看图3所示的图片,在图3第一列中,无论黑点的大小或形状如何变化,你都能一眼判断出目标的数量为1。在第二列中,也没有问题,你也可以秒测出目标数量为4。而在第三列,你可能就没有那么容易在不数数的情况下得出答案为7。当目标元素的个数继续上升,人类的这种引以自豪的数字感,或者说对抽象数字“浑然天成”的理解,就会迅速衰减。
图3 不同个数元素的数字感测试(图片来源《科学》)
从数字感得出什么启发?
从上面的讨论,我们能得出什么启发呢?那就是,如果你想让你的受众,一点也不费力地理解你的数字,你最好换个说法,尽量用10以下的数字来描述。
比如,在加多宝广告里,最好不要给出一个海量数字自夸销量,例如说在中国,我们每天售出312 458罐加多宝(无法得到准确数字,此处仅为说明问题,而虚构了一个大数字)。而是更好的说法可能是:“中国每卖10罐凉茶,7罐加多宝!”这里,我们不去争论其中的是非曲直,但后者用小数字,明显更能打动消费者,因为这样的小数字,他们更容易听懂!
再比如说,如果你是医生,要叮嘱尿路结石的患者,每天要喝1500ml水。这样冰冷冷的数字,患者很容易无感。但是换一种说法,对患者说,你每天喝3瓶农夫山泉的水量,患者的记忆效果就好很多。
此外,另一个方面的启发是,说到底,人还是一个感性居多的动物。人类用了几百万年的进化,才对小于7的数字有瞬间秒懂的数字感。而理解更为复杂的数据,必须越过更高的认知壁垒,才能对客观数据对象建立相应的心理图像,完成认知理解过程。
人类有个爬行脑(那个控制人欲望的那部分大脑)更喜欢视觉化的信息,而不是抽象信息。因此,只有迎合大脑的特性,才能让我们的数字,具有冲击力和感染力,进而更具有说服力。
万维钢先生最近(2016年8月12日)写了一篇小短文《要怎么说,别人才能听懂你的数据》,文中就列举了一个案例:2016年6月《纽约时报》刊登了一篇文章(Compare these gun death rates: The U.S. is in a different world)[4],这篇文章的主旨,是用统计数据来说明美国枪支的泛滥程度,事实上,这个话题毫不新颖,但可圈可点的是,或者说值得数据科学家借鉴的是,文章作者解释数据的方法,别具风格。
根据美国FBI统计,2014年,美国有8 124人死于枪杀。人类那点可怜的数字感,对于这个数字的感觉,只能感性地停留在控枪的情况“比较糟糕”。但具体情况有多糟糕,报纸的受众基本上是没有什么概念的。
而《纽约时报》的做法是——尽量降低数字,增强数字感!
美国人口共有三亿多人,死于枪杀的8124人,其实,这相当于每百万人有31人死于枪杀,平摊到每一天,日死亡27人。
可是国家这么大,每天死亡27人,又有什么特别的呢?
正可谓,不比不知道,一比吓一跳!
文章作者接着又把美国的枪杀死亡数字,跟其它发达国家做了横向对比:假设其它国家的人口,也和美国人口一样多,那么他们日死亡于枪杀的数字又分别是多少呢?文章给出了如图4所示的可视化图。
图4 美国与其它发达国家死于枪杀的人数对比图(图片来源:纽约时报)
由图4可轻易看出,美国就是一个孤立点,“鹤立鸡群”,其死于枪杀的人数,在发达国家中遥遥领先,这就给人以强烈的冲击力——美国的控枪,势在必行了!
结语:
由此,我们可以得知,数据是理性的,而给人震感的,却是感性,而连接感性和理性的途径,靠的就是受众的数字感和数字的可视化。
数据再有价值,别人听不懂,照样没用。抓住人性特征,充分利用人的数字感和可视化青睐,以良好的数字呈现方式,可以让冰冷冷的数字瞬间活过来。
在大数据时代,对于数字,数据科学家们懂,不算懂。大家懂,那才叫真的懂!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA数据分析师与数据指标:基础概念与协同逻辑 一、CDA 数据分析师:数据驱动时代的核心角色 1.1 定义与行业价值 CDA(Certified ...
2025-08-22Power Query 移动加权平均计算 Power Query 移动加权平均设置全解析:从原理到实战 一、移动加权平均法的核心逻辑 移动加权平均 ...
2025-08-22描述性统计:CDA数据分析师的基础核心与实践应用 一、描述性统计的定位:CDA 认证的 “入门基石” 在 CDA(Certified Data Analy ...
2025-08-22基于 Python response.text 的科技新闻数据清洗去噪实践 在通过 Python requests 库的 response.text 获取 API 数据后,原始数据 ...
2025-08-21基于 Python response.text 的科技新闻综述 在 Python 网络爬虫与 API 调用场景中,response.text 是 requests 库发起请求后获取 ...
2025-08-21数据治理新浪潮:CDA 数据分析师的战略价值与驱动逻辑 一、数据治理的多维驱动引擎 在数字经济与人工智能深度融合的时代,数据治 ...
2025-08-21Power BI 热力地图制作指南:从数据准备到实战分析 在数据可视化领域,热力地图凭借 “直观呈现数据密度与分布趋势” 的核心优势 ...
2025-08-20PyTorch 矩阵运算加速库:从原理到实践的全面解析 在深度学习领域,矩阵运算堪称 “计算基石”。无论是卷积神经网络(CNN)中的 ...
2025-08-20数据建模:CDA 数据分析师的核心驱动力 在数字经济浪潮中,数据已成为企业决策的核心资产。CDA(Certified Data Analyst)数据分 ...
2025-08-20KS 曲线不光滑:模型评估的隐形陷阱,从原因到破局的全指南 在分类模型(如风控违约预测、电商用户流失预警、医疗疾病诊断)的评 ...
2025-08-20偏态分布:揭开数据背后的非对称真相,赋能精准决策 在数据分析的世界里,“正态分布” 常被视为 “理想模型”—— 数据围绕均值 ...
2025-08-19CDA 数据分析师:数字化时代的价值创造者与决策智囊 在数据洪流席卷全球的今天,“数据驱动” 已从企业战略口号落地为核心 ...
2025-08-19CDA 数据分析师:善用 Power BI 索引列,提升数据处理与分析效率 在 Power BI 数据分析流程中,“数据准备” 是决定后续分析质量 ...
2025-08-18CDA 数据分析师:巧用 SQL 多个聚合函数,解锁数据多维洞察 在企业数据分析场景中,单一维度的统计(如 “总销售额”“用户总数 ...
2025-08-18CDA 数据分析师:驾驭表格结构数据的核心角色与实践应用 在企业日常数据存储与分析场景中,表格结构数据(如 Excel 表格、数据库 ...
2025-08-18PowerBI 累计曲线制作指南:从 DAX 度量到可视化落地 在业务数据分析中,“累计趋势” 是衡量业务进展的核心视角 —— 无论是 “ ...
2025-08-15Python 函数 return 多个数据:用法、实例与实战技巧 在 Python 编程中,函数是代码复用与逻辑封装的核心载体。多数场景下,我们 ...
2025-08-15CDA 数据分析师:引领商业数据分析体系构建,筑牢企业数据驱动根基 在数字化转型深化的今天,企业对数据的依赖已从 “零散分析” ...
2025-08-15随机森林中特征重要性(Feature Importance)排名解析 在机器学习领域,随机森林因其出色的预测性能和对高维数据的适应性,被广 ...
2025-08-14t 统计量为负数时的分布计算方法与解析 在统计学假设检验中,t 统计量是常用的重要指标,其分布特征直接影响着检验结果的判断。 ...
2025-08-14