回归系列（五）| 线性回归分析做完后，还应考虑什么？-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读回归系列（五）| 线性回归分析做完后，还应考虑什么？

回归系列（五）| 线性回归分析做完后，还应考虑什么？

2020-09-09

作者：丁点helper

来源：丁点帮你

上一篇文章介绍了一般线性回归的典型操作，并且留了一个思考题。感谢小伙伴的参与，大家很厉害，没有被迷惑到，线性回归获得的系数代表的是相关关系，而非因果关联。

回归是相关不是因果

多重线性回归，一般是指有多个自变量X，只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍，两者的差距主要在于自变量X的数量，在只有一个X时，就称简单线性回归。

因为，回归的使用仅能说明数据之前存在关联，但这种关联是否真正代表了两者的内在联系还需要更深入的研究。

之所以采用回归分析，就是通过纳入多个自变量，达到控制混杂因素的作用，但是我们无法纳入所有可能的因素，即所谓的“遗漏变量”（omitted variables），从而导致回归的结果不准确。

例如，探究教育程度与收入的关系，如果我们在回归分析中没有纳入“父母的平均教育程度”这个变量，此时，这个变量就被称为“遗漏变量”。

根据常识，父母的教育程度应该是孩子未来收入的重要影响因素，同时也几乎决定了孩子的教育程度。因此，遗漏这个变量有可能让我们得出有偏差的结果（一般会高估个人教育程度对未来收入的影响）。

同时，如果X与Y之间的关系，不是X导致Y，而是Y导致X（称作“反向因果”），此时的回归分析也会得出有统计学意义的结果（总体回归系数不为0）。

但这个结果无法显示相关关系的方向，即无法判断是X→Y，还是Y→X，从而误导我们的判断。

例如，常有人说，一个国家保护私人产权制度越完善，这个国家就越富裕。

这意味着完备的产权促进了国家经济的发展，于是人们建议：贫穷的国家都要实施良好的私有产权保护。

不可否认，产权对提升经济发展的确有作用。但我们不能忽略这其中的反向因果。

也就是说，很有可能是一个国家富裕之后才开始注意产权保护，产权制度才会更加完善，由此，并非是产权促进了经济的发展，而是经济发展促进了产权的完善。

所以，我们不能只从两组数据的相关就推测因果，除了那些没有纳入考虑的变量，反向因果也有可能对我们进行误导。

由此来看，回归分析更像是一种探索，它提供某种线索，启示我们下一步的研究方向。

回归诊断——残差图

回归分析有时候之所以不能揭示因果，除了上面谈到的遗漏变量效应和反向因果外，某些假设条件的违反也会导致回归的结果不准。

所以，我们要牢记做完回归并不意味着万事大吉，进行必要的诊断性分析十分必要。

回归诊断，就是通过各种方法来验证回归分析的假设条件以及其他因素的影响，这里我们重点讲讲回归LINE条件的诊断和多重共线性的识别。

前文我们提到过做线性回归的时候一般需满足：线性、独立、正态、方差齐（LINE）条件。

对这些假设条件的诊断其实有各种各样的办法，其中一种使用十分广泛，简单易学，同时效率也比较高的做法是作残差图。

画残差图，一般是以回归分析Y的预测值为横轴，以残差为纵轴做散点图。

如果打开SPSS，可以看到回归分析模块中有很多种残差：未标准化、标准化、学生化等等。

简单起见，大家可以选择所谓的“学生化”残差。

不知有同学是否了解过，什么叫“学生化残差”？（不能再古怪了！）

实际上，它和我们前面学习的t检验还有联系。

t检验发明者的笔名就叫“学生”，即student，所以这里的“学生化残差”可以简单理解为一种t变换（与标准化，即z变换类似）。

具体的细节感兴趣的同学可以去查一查。在我们的具体应用中，采用“学生化残差”和“预测值”做散点图还是挺简单的，而且可以发现一些问题。

一条原则：如果线性回归效果较好，则残差图的各个散点会围绕着“残差=0”水平线上下均匀分布，如下图中的红线。

这可能是最简单的诊断方法，通过观察散点在上述红线上下的分布情况来推测回归分析的质量，同时提示需要改进的方向。

例如，下面这张散点图，就提示Y与自变量X之间可能存在某种曲线关系。

当增加某个自变量的二次项后，回归被改善。

没有添加任何二次项

增加x1的二次项，拟合效果提示

除此以外，线性回归诊断另一个常见的问题是，当自变量X之间互相存在高度相关性时，会导致回归方程估计结果不稳定，回归系数的标准误大大增加（可以通过数学公式证明，标准误计算的分母因为X之间的相关系数而变大，从而整个标准误变小），称为共线性。

共线性最大的问题是，导致本身有意义（P＜0.05）的结果变为无意义（P＞0.05）。

SPSS在线性回归分析模块也有专门的共线性诊断指标，我们在分析时点选即可：

根据上一篇文章中的例子，共线性诊断的的指标均在要求之内，提示共线性问题不严重。

最后，如果线性回归的LINE没有通过诊断分析，需要怎样改进呢？如下图，大家作为参考，这些内容后期有机会我们逐渐给大家讲解。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

线性回归回归分析散点图方差偏差相关系数

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇python 中的数字到底是什么？

下一篇让你的数据动起来-动态柱状图

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

回归系列（五）| 线性回归分析做完后，还应考虑什么？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

从“整体波动”到“因子归因”：CDA数据分析师视角 ...

【CDA干货】单因素方差分析：三组及以上独立样本的 ...

【CDA干货】次日付费留存计算方法、统计口径与业务 ...

从“点状静态”到“时序动态”：CDA数据分析师视角 ...

CDA持证人专访：王晓琳谈数据分析备考与秋招实战经 ...

【CDA干货】用户决策流程全解析：核心环节、影响因 ...

从“标签”到“人”：CDA数据分析师视角下的用户画 ...

【CDA干货】透视表跨表数据应用原理与实战方法 ...

【CDA干货】正态分布异常事件识别与处理方法：数据 ...

从“raw”到“ready”：CDA数据分析师视角下的标签 ...

CDA持证人专访：孙尚亮谈制造行业数据分析与生产采 ...

【CDA干货】DataFrame数据归一化：核心原理、常用方 ...

从“零散标识”到“结构资产”：CDA数据分析师视角 ...

【CDA干货】数据分析如何辅助商业谈判决策：从经验 ...

【CDA干货】T检验完整实操教程：核心原理、分类场景 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载