京公网安备 11010802034615号
经营许可证编号:京B2-20210330
CDA数据分析师 出品
编译:Mika
【导读】
统计学在我们的日常生活中无处不在,它有助于我们更好地了解世界,并做出更好的决策。
在今天的内容里,我们将带你用十分钟了解:统计学到底是关于什么的一门学问。
欢迎来到这个充满未知、谬论和假设的世界,统计学的世界里不仅有博弈、思想实验还有掷硬币实验…
等你看完今天的内容,你就知道统计学有何用?该如何用?
在日常生活我们常常会遇到有关统计的问题时,你知道该如何思考。
统计学在日常生活中有很大的用处:
统计就是理解,并运用数据。
下面就让我们开始回答“什么是统计学”这个问题。
关于英式下午茶有一段轶事。
在20世纪20年代的剑桥,一位女士认为:牛奶是先加还是后加,这会影响茶的口感。
当时的天才们立马开始思考,该如何验证她的猜想。
于是,他们将8杯茶的顺序打乱。想看看她能否品尝出每一杯是先加奶,还是先加茶。
但就算她尝出不同了,那又能说明什么呢?
因为她答对和答错的可能性相同。而且即使她确实品出区别了,还有可能是她将错就错得到的。
如何判断她是否是品茶专家呢?运气好和舌头灵的界限在哪儿?
众人一筹莫展时,轮到Ronald A. Fisher出场了。
Fisher的一生为统计学做出了大量奠基工作。
这些知识能帮我们在犹豫时作出决定,不只是品茶实验。Fisher创造性地提出实验设计法 ,使统计学成为一门严谨的科学。
尽管Fisher本人没有给出茶实验的结果。但这个故事的结局就是,那位女士正确的区分出了所有的茶。
现在,我们要引出相关但不同的两个统计学概念了。
我们说统计学的领域就是收集和分析数据的实践活动。我们认为统计学就是数据的总和。
为了回答“什么是统计学”,我们应该先问“统计学有什么用”。
假设你为了期末考试熬夜复习。早上醒来,发现你倒在书桌上就睡着了,脸上还沾着枕汉堡的残渣。
你会想,我为什么要吃这种东西?快餐控制了我的生活吗?然后你说服了自己,我只是图方便罢了。
但你也很纠结,你在想当中深层次的原因。
接着你上网搜“快餐消费” ,找到一份相关的调查问卷。
你做的第一件事可能就是问自己感兴趣的问题。例如,你可能会问:
......
这些问题都挺不错的。
但我们有一个更重要的问题要问:统计学能解决这些问题吗?
我之前说过统计学只是工具,不能所有脏活累活都给它干。
为了回答“为什么有人会吃快餐”这个问题,你可以让他做一份问卷。但你没法保证他们是如实作答的。
可能是因为自己累得不想做饭,才沉迷快餐的;或者他们也不知道为什么要吃快餐。
有了调查的结果后,你可以得出最可能的结论是:人们吃快餐只是图省事,或者人们平均一周吃5次快餐。
但你并没有研究人们为什么会吃这么多。
你求出的叫“代理变量” ,与所求有关,但并非其自身。
为了回答“为什么周末吃快餐更多”或者“一周两次也让我压力山大” ,我们就不仅要知道吃快餐的人数,这个问卷里有了,而且还要知道是在一周的哪几天吃的。
而且我们给“压力”具体化。
借助统计学,很容易回答 “为什么人们在周末吃的多”。
但是 “吃快餐是否与压力大有关” 却无法直接回答。
类似这样有趣的问题无法直接用统计学来解释。而“吃快餐的人每周工作时长是否超过80小时” 这种问题是可以回答的。
回答上述问题的工具可分为两种:描述统计与推理统计。
描述统计描述了数据的基本情况。描述统计一般是研究数据的中段在哪儿。
统计学家称之为,集中趋势的度量,以及数据分布特征的度量。它们根据大量不直观的数据,通过分析和总结,希望得到有价值的信息。
假设你在当地的华夫饼生产工厂干了两年。终于有一天,你研究出了金棕色的,十分美味的华夫饼。
现在,你想涨涨工资。这是你应得的,没人能做出这么好吃的华夫饼。
但你打算涨多少?
加1000元吗?
还是5000元呢?
你知道自己有点本事了,但不知道其他华夫饼工人的工资。
你在网上搜索了一番,发现一家专业的华夫饼论坛,当中有一位叫“华夫探”的用户贴出了华夫饼工人的工资表。
浏览了一串数字后,你知道了别的冷冻华夫饼公司的女工是否比你赚得多。还能看出你比刚来的新人多赚多少。
但你还是看不出公司里或者行业中价格的整体情况。
因为这里有几千个华夫饼工人的数据。你看见的是一串离散的点,而不是图样。你还是不知道应该向老板开价多少。
这里就用到描述统计学了。
可以算出自己公司里工人的平均工资,以及每人相对于平均工资的分布。
你可以看出CEO的工资与刚进公司的新人工资的差距,是大还是小?你的工资与它们两者相比如何。你可以算出行业中你所在职位的工资平均值,观察这个范围的两端。
有了这些数据,你再向老板开价的时候就有底气了。
尽管描述统计学很有用,但是只能提供基本信息。
推理统计学能给出推理结论,推理统计学能对手中的数据进行延伸推论。
假设你有一个装满盐水太妃糖的糖果桶,有粉色的、白色的、黄色的。
如果你想知道每种颜色有多少块,你可以慢慢数:一块、两块、三块...
这会给你描述统计学的数据,但是谁有那闲工夫。或者你抓一大把糖,就数这些就行了。
这就用到推理统计学了。
如果桶里的糖混合均匀的话,你一把抓的也足够多。你可以借助推理统计的原理,用“样本”估计总体。
我们用推理统计来完成更复杂的工作,可以让我们验证一个想法或者假设。
例如,回答“在美国,30岁以下的人吃的快餐更多吗”这种问题。我们不需要让所有人都来回答这个问题。
假设有人说他们的最新益脑维他命产品能提升智商,你会跟风抢购吗?
如果他们告诉你:A组的20人吃了一个月后,平均智商提升了2个点 。而B组的没有吃的20个人,平均智商只提升了1个点。
现在呢?开始动心了吧?
推理统计让你可以判断出,两个样本的智商是否发生了变化。
当然,作为个体你可以拒绝相信。也不要因为标杆的不同而大惊小怪。
不同问题标准也不同,“为什么我的猫更喜欢某一种猫粮” 或 “这种药能治好肺癌吗”。
说服你买新款治癌药,比说服你换一种猫粮要难得多。这也是理所当然的。
经过推理统计的测试仍存在一定程度的不确定性。
毕竟答案要么是“是”或者“否”。
你的工作就是排除不确定因素,获取有价值信息。
如果统计学是超级英雄,那么他的绝招就是——拿不准。而他的口号就是“我会犯错,但不能不做”。
统计学是工具,它帮助我们理解世界中的庞大信息。像眼睛和耳朵能滤除外界无用的刺激,给我们呈现出最好的世界一样。
统计学为我们抽取世界中有益的数据,描述统计学使我们能读懂数据。
虽然失去了个体数据信息,推理统计学让我们处理存在不确定性的数据。
但它不是万能的,它们是来帮忙的,不是来打工的。它们帮我们看清了不确定性,但没有排除不确定性。
再拿工具来比喻,统计学就像电锯,不理解原理的话,不仅无用还可能有害。我们必须要知道什么能做,什么不能做。
同时我们还要知道,统计学不好会让我们吃亏上当。
而电锯用不好会导致美国全年的3.6万起伤人事件,其中81%是撕裂伤。你知道其实没什么人死于电锯吗?也会有,但非常少有。95%的伤者是男性,这不能说明男人用不好电锯。
…...
总之,统计学有所为,有所不为。我们学习统计学就要理解这当中的差异。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14