
几则趣味的统计小故事,你秒懂了吗?
很多人在学习统计时都认为统计由一系列枯燥的数字、公式和图表组成,十分繁杂无味。然而随着对这门课的深入理解,不知不觉中会逐渐体会到统计的趣味性。这里,挑选几则经典的统计趣味小故事与大家分享,希望大家喜欢。
《红楼梦》作者考证
众所周知,《红楼梦》一书共120回,自从胡适作《红楼梦考证》以来,一般都认为前80回为曹雪芹所写,后40回为高鹗所续。然而长期以来这种看法一直都饱受争议。
能否从统计上做出论证?从1985年开始,复旦大学的李贤平教授带领他的学生作了这项很有意义的工作,他们创造性的想法是将120回看成是120个样本,然后确定与情节无关的虚词出现的次数作为变量,巧妙运用数理统计分析方法,看看哪些回目出自同一人的手笔。
一般认为,每个人使用某些词的习惯是特有的。于是李教授用每个回目中47个虚词(之,其,或,……;呀,吗,咧,罢……;可,便,就……等)出现的次数(频率),作为《红楼梦》各个回目的数字标志。之所以要抛开情节,是因为在一般情况下,同一情节大家描述的都差不多,但由于个人写作特点和习惯的不同,所用的虚词是不会一样的。利用多元分析中的聚类分析法进行聚类,果然将120回分成两类,即前80回为一类,后40回为一类,很形象地证实了不是出自同一人的手笔。
之后又进一步分析前80回是否为曹雪芹所写?这时又找了一本曹雪芹的其它著作,做了类似计算,结果证实了用词手法完全相同,断定前80回为曹雪芹一人手笔,是他根据《石头记》写成,中间插入《风月宝鉴》,还有一些别的增加成分。而后40回是否为高鹗写的呢?论证结果推翻了后40回是高鹗一个人所写,而是曹雪芹亲友将其草稿整理而成,宝黛故事为一人所写,贾府衰败情景当为另一人所写等等。
这个论证在红学界轰动很大,李教授他们用多元统计分析方法支持了红学界的观点,使红学界大为赞叹。
出租车肇事
某市发生一起出租车肇事逃逸案件,当时目击证人仅有一位。据证人陈述,肇事车为绿色。该市出租车仅有蓝、绿两种颜色,其中0.5%的出租车为绿色。目前已排除了外市出租车肇事的可能性。
同时,为了验证证人的辨色能力,还专门对其进行了辨色测试。测试结果表明,无论对蓝色还是绿色,证人都能以95%的概率判断正确。即若出租车为蓝色(绿色),证人100次中能有95次准确地判断出车为蓝色(绿色)。
现在的问题是公安部门是否应该完全相信证人的目击,而把调查完全放在该市的绿色出租车上?
通过统计中贝叶斯公式的计算,我们会发现证人的目击并不能成为调查的依据,仍然需要将调查的重点放在蓝色出租车上。
啤酒与尿布的故事
全球最大的零售商沃尔玛通过分析顾客购物的数据后发现,很多周末购买尿布的顾客同时也购买啤酒。
经过深入观察和研究发现,美国家庭买尿布的多是爸爸。年轻的父亲们下班后要到超市买尿布,同时“顺手牵羊”带走啤酒,好在周末看棒球赛时过把酒瘾。
后来沃尔玛就把尿布和啤酒摆放得很近,从而双双促进了尿布和啤酒的销量。这个故事被公认是数据挖掘的经典范例。
车间供电问题
某车间有200台车床,由于检修、测量、调换刀具等种种原因,即使在生产期间,各台车床还是时常需要停工,若每台车床有60%的时间在开动,而每台车床开动时需要耗电1千瓦,那么应该供给这个车间多少电力才能保证此车间正常生产?
显然,若供给这个车间200 千瓦的电力则此车间便能正常生产。但这样做很不划算,因为每台车床的开工率只有60%,也就是说,平均起来这个车间中同时工作的车床只有120台,供给200千瓦的电力太多了。那么供给120千瓦的电力呢?这又太少了点,因为有时同时工作的车床数会超过120台,则120千瓦的电能就不够用,因而导致一些车床无法工作,那么到底给多少电能才能既保证生产正常又节约电力呢?
事实上供给这个车间141千瓦的电就够了,虽然在这时也可能碰到因电力不足导致部分车床无法运转的情况,但是这种机会非常小,小于千分之一,也就是说在8小时的工作中只有30秒钟会碰到这种情况,这显然影响不大,但是节约出来的59千瓦电能却可以用于很多别的用途。
这里的计算涉及到统计学中的中心极限定理和正态分布。
怎么样,现在你是不是觉得统计学还是蛮有意思的呢?
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-06-052025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27