广义线性回归分析模型Logistic，一文读懂它！-CDA数据分析师官网

热线电话：13121318867

首页大数据时代广义线性回归分析模型Logistic，一文读懂它！

广义线性回归分析模型Logistic，一文读懂它！

2020-09-23

作者：丁点helper

来源：丁点帮你

前文我们已经讲解了相关与回归的基础知识，并且重点讨论了多重线性回归的应用与诊断分析。今天的文章，我们来看看日常学习和科研中应用同样广泛的另一类回归分析——Logistic回归。

Logisti回归与多重线性回归的区别

多重线性回归，一般是指有多个自变量X，只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍，两者的差距主要在于自变量X的数量，在只有一个X时，就称简单线性回归。

读过我们前面“线性回归”系列文章的同学，肯定已经知道，采用线性回归的第一准则：因变量Y需要是“定量变量”。

例如得分、收入等连续型的，可以计算均数和标准差的变量。而Logistic回归最大的不同在于：Y是分类变量。

Logistic回归的Y是分类变量（这句话希望大家在心里默读三遍）这是进行Logistic回归最基本的条件。

什么是分类变量呢？大家最常见的可能是：发病与不发病。

比如我们用Y来表示“是否患有糖尿病”，用Y=1表示“患病”；用Y=0，表示“不患病”，这里的Y就是一个典型的二分类变量。

此时，当我们希望通过回归分析的方法来探讨“糖尿病患病与否的影响因素”，则应该选择“Logistic回归分析”。

同多重线性回归一致，对进行Logistic回归分析的自变量X并没有限制，可以是定量变量，如年龄，也可以是分类变量，如性别等等。

所以，按照我们前面文章所强调的，进行研究前首先要找XYZ（自变量、因变量和控制变量），当考虑是进行多重线性回归，还是Logistic回归时，原则上只需看Y（即因变量、或称反应变量）的类型：

定量变量就用多重线性回归，分类就用Logistic回归。

线性概率模型

理清了Logistic回归与一般线性回归的区别后，我们再来看看Logistic回归是如何构造出来的。

在这之间，我们要先介绍一个新词：线性概率模型。什么叫线性概率模型，它与Logistic回归有什么关系？我们一一道来。

首先，既然大家都叫“回归”，Logistic回归与线性回归当然存在联系的。

实际上，Logistic回归仅仅只是对线性回归的因变量进行了一个变换，模型的主体结构仍然属于“线性回归”。

仍然以“糖尿病患病的影响因素”为例进行说明。

某研究团队想要探讨某地区糖尿病患病的影响因素，收集了如下数据：

上述数据的赋值说明如下：

本研究的目的是获得“影响因素”，因此，除变量Y（是否患病）以外，其他所有因素都可以作为潜在的影响因素（即自变量X纳入）模型。如上表，Y属于二分类变量，其取值模式是“0、0、0…1、1、1”，其中“1”表示“是”；“0”表示“否”，所以符合进行Logistic回归的基本条件。

在Logistic回归诞生之前，人们首先考虑的是按照“多重线性回归”的方法，忽略变量Y的变量类型，直接将Y与各个X强行进行多重线性回归。

在前文，我们讲过Y上面添加一个“^”符号，表示Y的估计值。结合本例，如果我们将是否患有糖尿病与各个X进行回归，也会得到Y的估计值。可是如何解释这个估值值呢？人们想出一个办法：概率。

概率是我们在中学就接触过的内容，表示的是“某个事件发生可能性的大小”，比如某人患糖尿病的概率是80%，意味着他的患病风险比较高。

当我们从概率的角度进行线性回归时，得到的模型特称为“线性概率模型”。

如上式，我们用P来表示Y的估计值，专门代表患病概率。什么意思呢？我们现在构造的模型是用来研究各个影响因素与糖尿病患病概率的相关关系，不再是是否发病。

也就是说，通过模型，我们可以计算出预测值，此时的预测值代表该对象患糖尿病的可能性大小。

这个地方需要特别理清的是，每一个研究对象是否患有糖尿病我们提前已经知晓。如上表，变量Y=0，意味着“没有患病”，Y=1，表示“患病”。

可是现在又说预测值代表他患病的可能性大小，都已经患病了，再算患病可能性还有意义吗？

当然是有的，这就是回归分析，或者整个统计学的思想，用已经发生的事情作为样本来推测事物间的规律。

这里的预测值是根据模型（即根据X所计算的），虽然并非实际情况，但我们可以推测：如果模型预测效果好，那对于某一名已经患病的对象而言，其预测值（即患病概率）应该接近于1，表明患糖尿病概率很高。

反之，对于没有患病的人群（即Y=0），根据模型计算的患病概率则应该接近0，即患病概率低。

确实如此，上述线性概率模型并非理论假想，而是存在实际应用，它与多重线性回归的思路和操作方法完全相同。

唯一特殊的是，这里“Y”的预测值专门由“P”表示，指代概率。这种方法在经济学等社会科学领域十分广泛，常与Logistic回归结合使用。

Logistic回归的由来

但是，这个“线性概率模型”有一个很严重或者说“致命”的问题。根据模型来看，Y的估计值（即这里的P）理论上可以取所有实数。可是，对于大于1或者小于0的预测值，该做何种解释呢？

常识告诉我们，概率（即可能性）不会大于“1”或者小于“0”，可是通过模型计算出来的预测概率几乎一定会出现大于1或小于0的情形。

为了解决这个问题，人们就考虑对P进行变换。数学上发现，通过对P进行如下变换即可解决问题：logit (P) = ln (P/1-P)，(其中ln为自然对数函数)。

这个变换即所谓的“logit”变换，通过对P进行变换之后再次纳入回归模型，得到的模型即为“Logistic回归模型”：

在实际应用中，这些变换当然不再需要我们手动操作，只需要把数据整理成上述上述表格中的形式，SPSS软件会进行完整的分析过程。

但我们需要特别明确的是，进行Logistic回归后，软件输出的“预测值”，就是这里的“P”，即概率，均是0-1的数字。

所以，如果从整体来看（将logit(P)看做一个整体），Logistic回归模型仍然是一个线性回归模型，一般称作“广义线性回归”。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

线性回归回归分析二分类标准差

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇咋做数据分析，张口就来RFM模型，结果用错了！

下一篇聊聊 python 数据处理全家桶（Redis篇）

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

广义线性回归分析模型Logistic，一文读懂它！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少寒谈传统制造业与互联网行业数 ...

学完商业数据分析，开启 CDA 量化策略：从业务思维 ...

CDA持证人专访：赵森淼谈药企数据分析从业体验与转 ...

【CDA干货】卡方检验与T检验结果的标准化解读方法及 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载