京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者:丁点helper
来源:丁点帮你
前面,我们详述了各种检验方法的基本逻辑以及实操过程,包括t检验、方差分析、卡方检验、和基于秩次的非参数检验,从今天开始,我们就要进入一个新的主题——相关与回归。
相关与回归,尤其是后者,在卫生或医学统计学中应用的十分广泛。这两种方法都是在探寻两个或两个以上变量之间的关联,或者称“相关关系”。
可是,我们做研究的终极目标并非是为了获得“相关”,而是获得“因果”。
某种疾病病死率的下降与使用新药有关,这里的有关,实际上在暗示,新药的使用,导致了病死率的下降,这里的“导致”就表明产生了因果关系。
相关是比因果更宽泛的概念,两个变量存在因果关系,几乎可以肯定会存在相关关系(不限于线性相关);但反过来,却不能成立,具有相关关系的数据,并不一定存在因果联系。
统计书中举的最简单的例子是“小树的身高和小孩的身高”——小树长、我也长,从数据来看,它们存在非常显著的相关关系。
但是,有何意义吗?并没有。我们并不能从这两个数据表面的相关来推导出小树身高对小孩身高造成何种影响?
是的,无论是简单的单因素假设检验(如两组样本的t检验),还是纳入了多个因素的线性回归分析,本质上,我们是希望获得一个因素对另一个因素的“影响”。
产生影响意味着什么呢?意味着发生了因果关系。
比如有人说“刷抖音影响学习”,把这句话用统计的语言来表达和验证就是:抽取一群学生,随机分配到两组,一组天天刷抖音,另一组不刷,然后比较两组学生的平均成绩。
如果抖音组的成绩低,那我们就可以下结论说:刷抖音影响学习,更准确地说,刷抖音导致学习成绩下降。同样,注意这里的用词,“导致”意味着因果关系。
以上当然是一个不严谨的“随机对照试验”,存在很多漏洞值得讨论。但我们举这个例子的意图只是想让大家明白,如果你想验证“因果关系”,理论上,这或许是唯一准确的办法。
再往深想一想,或许也不应该称为“理论上“唯一准确的办法,而应该称作“具有实现可能”的唯一准确办法。
言外之意,还有不可实现的方法吗?
是的,要做因果推断,最准确的应该是通过构造”反事实“来实现。
什么叫反事实?它是根据英文翻译过来的,叫做counterfactual facts,看第一个单次的词根”counter“就是”反、对抗“的意思。说起来似乎很拗口,但理解起来并不费劲。
仍以上面刷抖音和学习的例子来看,怎样通过构造”反事实“来探究这两者之间的因果关系呢?
很简单,让一个特别喜欢耍抖音的小朋友一直刷,然后记录其期末考试成绩;还是这个小朋友,让它做时光机重新回到学期开始的时候,什么都不变,唯独一点变了——没有抖音了,然后再看这个小朋友期末考试成绩。通过比较他的两次成绩,就能准确地判断出”刷抖音是否影响了他的学习“。
这就是所谓的”反事实“,因为他刷抖音这是个事实,在现实生活中,我们是无法改变这个事实的,所以只能通过在脑海中构建”他不刷抖音“这个反事实。实际上,因果推断的金标准——随机对照试验,就是一种模拟”反事实“的方法。
绕这么大一个圈给大家讲反事实,就是想提醒大家,因果关系推断之难。
别说反事实,就是随机对照试验,对很多研究来讲都是不可能实现的。
我们唯一(或者大部分)能获得就是眼前看到的这个世界发生的一切——所谓的”观察性数据“(Observational data),可我们的目的偏偏是希望从这些”观察性数据“中间获得”因果性推断“。
当我们采用统计方法来探究变量间的关系时,我们应该保持谨慎,因为几乎所有的方法都是在进行”相关关系“的探究,而非”因果关系“,这一点是我在咱们这个系列文章的开头想跟大家讲的。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14