
几则趣味的统计小故事,你秒懂了吗?
很多人在学习统计时都认为统计由一系列枯燥的数字、公式和图表组成,十分繁杂无味。然而随着对这门课的深入理解,不知不觉中会逐渐体会到统计的趣味性。这里,挑选几则经典的统计趣味小故事与大家分享,希望大家喜欢。
《红楼梦》作者考证
众所周知,《红楼梦》一书共120回,自从胡适作《红楼梦考证》以来,一般都认为前80回为曹雪芹所写,后40回为高鹗所续。然而长期以来这种看法一直都饱受争议。
能否从统计上做出论证?从1985年开始,复旦大学的李贤平教授带领他的学生作了这项很有意义的工作,他们创造性的想法是将120回看成是120个样本,然后确定与情节无关的虚词出现的次数作为变量,巧妙运用数理统计分析方法,看看哪些回目出自同一人的手笔。
一般认为,每个人使用某些词的习惯是特有的。于是李教授用每个回目中47个虚词(之,其,或,……;呀,吗,咧,罢……;可,便,就……等)出现的次数(频率),作为《红楼梦》各个回目的数字标志。之所以要抛开情节,是因为在一般情况下,同一情节大家描述的都差不多,但由于个人写作特点和习惯的不同,所用的虚词是不会一样的。利用多元分析中的聚类分析法进行聚类,果然将120回分成两类,即前80回为一类,后40回为一类,很形象地证实了不是出自同一人的手笔。
之后又进一步分析前80回是否为曹雪芹所写?这时又找了一本曹雪芹的其它著作,做了类似计算,结果证实了用词手法完全相同,断定前80回为曹雪芹一人手笔,是他根据《石头记》写成,中间插入《风月宝鉴》,还有一些别的增加成分。而后40回是否为高鹗写的呢?论证结果推翻了后40回是高鹗一个人所写,而是曹雪芹亲友将其草稿整理而成,宝黛故事为一人所写,贾府衰败情景当为另一人所写等等。
这个论证在红学界轰动很大,李教授他们用多元统计分析方法支持了红学界的观点,使红学界大为赞叹。
出租车肇事
某市发生一起出租车肇事逃逸案件,当时目击证人仅有一位。据证人陈述,肇事车为绿色。该市出租车仅有蓝、绿两种颜色,其中0.5%的出租车为绿色。目前已排除了外市出租车肇事的可能性。
同时,为了验证证人的辨色能力,还专门对其进行了辨色测试。测试结果表明,无论对蓝色还是绿色,证人都能以95%的概率判断正确。即若出租车为蓝色(绿色),证人100次中能有95次准确地判断出车为蓝色(绿色)。
现在的问题是公安部门是否应该完全相信证人的目击,而把调查完全放在该市的绿色出租车上?
通过统计中贝叶斯公式的计算,我们会发现证人的目击并不能成为调查的依据,仍然需要将调查的重点放在蓝色出租车上。
啤酒与尿布的故事
全球最大的零售商沃尔玛通过分析顾客购物的数据后发现,很多周末购买尿布的顾客同时也购买啤酒。
经过深入观察和研究发现,美国家庭买尿布的多是爸爸。年轻的父亲们下班后要到超市买尿布,同时“顺手牵羊”带走啤酒,好在周末看棒球赛时过把酒瘾。
后来沃尔玛就把尿布和啤酒摆放得很近,从而双双促进了尿布和啤酒的销量。这个故事被公认是数据挖掘的经典范例。
车间供电问题
某车间有200台车床,由于检修、测量、调换刀具等种种原因,即使在生产期间,各台车床还是时常需要停工,若每台车床有60%的时间在开动,而每台车床开动时需要耗电1千瓦,那么应该供给这个车间多少电力才能保证此车间正常生产?
显然,若供给这个车间200 千瓦的电力则此车间便能正常生产。但这样做很不划算,因为每台车床的开工率只有60%,也就是说,平均起来这个车间中同时工作的车床只有120台,供给200千瓦的电力太多了。那么供给120千瓦的电力呢?这又太少了点,因为有时同时工作的车床数会超过120台,则120千瓦的电能就不够用,因而导致一些车床无法工作,那么到底给多少电能才能既保证生产正常又节约电力呢?
事实上供给这个车间141千瓦的电就够了,虽然在这时也可能碰到因电力不足导致部分车床无法运转的情况,但是这种机会非常小,小于千分之一,也就是说在8小时的工作中只有30秒钟会碰到这种情况,这显然影响不大,但是节约出来的59千瓦电能却可以用于很多别的用途。
这里的计算涉及到统计学中的中心极限定理和正态分布。
怎么样,现在你是不是觉得统计学还是蛮有意思的呢?
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-08-28PCU:游戏运营的 “实时晴雨表”—— 从数据监控到运营决策的落地指南 在游戏行业,DAU(日活跃用户)、MAU(月活跃用户)是衡量 ...
2025-08-28Excel 聚类分析:零代码实现数据分群,赋能中小团队业务决策 在数字化转型中,“数据分群” 是企业理解用户、优化运营的核心手段 ...
2025-08-28CDA 数据分析师:数字化时代数据思维的践行者与价值推动者 当数字经济成为全球经济增长的核心引擎,数据已从 “辅助性信息” 跃 ...
2025-08-28ALTER TABLE ADD 多个 INDEX:数据库批量索引优化的高效实践 在数据库运维与性能优化中,索引是提升查询效率的核心手段。当业务 ...
2025-08-27Power BI 去重函数:数据清洗与精准分析的核心工具 在企业数据分析流程中,数据质量直接决定分析结果的可靠性。Power BI 作为主 ...
2025-08-27CDA 数据分析师:数据探索与统计分析的实践与价值 在数字化浪潮席卷各行业的当下,数据已成为企业核心资产,而 CDA(Certif ...
2025-08-27t 检验与 Wilcoxon 检验:数据差异比较的两大统计利器 在数据分析中,“比较差异” 是核心需求之一 —— 如新药疗效是否优于旧药 ...
2025-08-26季节性分解外推法:解锁时间序列预测的规律密码 在商业决策、资源调度、政策制定等领域,准确的预测是规避风险、提升效率的关键 ...
2025-08-26CDA 数据分析师:数据治理驱动下的企业数据价值守护者 在数字经济时代,数据已成为企业核心战略资产,其价值的释放离不开高 ...
2025-08-26