生存分析初探：怎么看懂生存数据？-CDA数据分析师官网

热线电话：13121318867

首页大数据时代生存分析初探：怎么看懂生存数据？

生存分析初探：怎么看懂生存数据？

2020-09-27

作者：丁点helper

来源：丁点帮你

今天我们开始一个新的主题——生存分析。什么叫生存分析？为什么要采用生存分析呢？

前面我们一起学习的多重线性回归和Logistic回归都主要是用来分析某个结果的影响因素，比如教育程度对收入的影响，或者，糖尿病发生与否的影响因素，这些方法主要是在静态地分析某一个特定的结果。

可是，倘若我们不仅仅关心结果的发生情况（发病VS未发病），同时我们也想看看发生该结果所经历的时间长短，此时，简单的线性或Logistic回归就难以满足这个需求，而生存分析可以来回答这类似的问题。

生存数据

多重线性回归，一般是指有多个自变量X，只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍，两者的差距主要在于自变量X的数量，在只有一个X时，就称简单线性回归。

一般来讲，在医学科研中，生存分析较多应用在肿瘤病人的治疗方案评价方面。

这是因为对于癌症患者，我们往往更加关注的是”生存时间“，比如经常听到的：5年存活率、3年存活率... 而某种治疗方法的价值也主要表现在延长患者的存活时间。

比如在一项针对肺癌患者的研究中，研究者可能会关注下面三个问题：

1）肺癌患者接受治疗后的生存状况如何？

2）哪种疗法的效果最好？

3）这些患者在接受治疗后的生存状况与哪些因素有关？

我们可以看到，这三个问题的答案不可能简单地通过最终的治疗结果来衡量：治愈VS未治愈。

原因很简单也很残酷，癌症不像感冒那样，不是看治好还是没治好，让患者存活更多时间、存活地更体面成为人们追求的目标。

好了，回到我们的主题，如何掌握生存分析，并且灵活地运用呢？

第一步是对下面几个基本的概念有一个清晰的认识。

生存数据：前面我们说到了，在某些研究中，除了要关注某结局事件的发生与否，还会考虑发生该结局所经历的时间长短，这种兼有时间和结局两种属性的数据，就被称作生存数据。

这种将事件结局的出现与否和达到终点所经历的时间结合起来的统计方法就被称作生存分析。

由此，在进行生存分析时对”起点”、”终点“、以及”所经历的时间“（生存时间）都有十分明确的定义。专业术语一般称为：

观察起点（或称起点事件）、观察终点（终点事件）和时间间隔。

生存时间的确定

案例：某研究搜集了2013年1月1日至2015年12月31日间肺癌患者的资料，以了解患者接受治疗后的生存情况及其可能的影响因素。

前面谈到生存分析很关键的一点是确定生存时间，而确定生存时间最重要的是确定好观察起点和终点。

在本案例中，2013年1月1日是观察起点；2015年12月31日是观察终点，问题是并非所有人都是在起点进入观察，也并非在终点就正好发生结局（即死亡）。因此，我们需要做好相应的记录。

对于起点，观察对象可以在起点同时进入观察，也可以在不同时间点进入观察，如下A、B两种形式：

A：所有观察对象在同一时间点接受观察；

B：观察对象在不同时间点接受观察。

上图中，带点的空心圆圈表示出现终点事件，带加号的圆圈表示尚未出现终点事件。

对于终点的判断，要稍微复杂一下。

本案例的具体数据如下：

我们先不细看上面的数据，想这样一个问题：从开始观察（2013/1/1）到观察终止（2015/12/31），所有的观察对象会有哪些情况发生呢？

1）观察期内，能够正常的随访，但在观察终点前因肺癌死亡；

2）观察期内，正常随访一段时间就断了联系，后面的情况一概不清楚；

3）观察期内，能够正常随访，但在终点前因其他原因死亡的；

4）从开始观察到终止观察，一直存活的对象。

大家想想，是不是所有的观察对象都是这四种情况？是的

符合上面第一种情况的数据，我们一般称作完全数据（complete data），如上表中编号为1和3的患者，生存时间分别为23个月和13个月。

完全数据提供的是准确的生存时间。除了”完全数据“，其他的所有情况（即上面的2-4情况）所获得的数据均称作”删失数据“（censored data），有时也被称作”截尾数据“。

上表中的2号患者，属于”失访“导致的”删失“，患者可能变更联系方式、未继续就诊或拒绝访问等原因，无法继续随访，未能观察到终点事件。

另外两种”删失“情况对应上面第3）和第4）种情况：

比如表格中的编号4的患者，虽然死亡，但是死于车祸，这种”删失“称作”退出“；

5号患者在观察终点时仍然存活，这种情况称作”终止“。

一般来讲，我们会在删失数据的”生存时间“数据右上角标记”+“，表示真实的生存时间可能长于观察到的时间，但是未知。

对于生存时间单位的选择并没有特别的限制，可以是年、月、日，或小时等，一般呈现非正态分布，所以在进行生存分析时需进行特定的调整，对此，我们后续再谈。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

线性回归非正态分布正态分布

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇炫富神器 | 辣条专业国内首开，网友：中国吃货石锤了！

下一篇Python办公自动化｜自动更新不对称表格

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

生存分析初探：怎么看懂生存数据？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少寒谈传统制造业与互联网行业数 ...

学完商业数据分析，开启 CDA 量化策略：从业务思维 ...

CDA持证人专访：赵森淼谈药企数据分析从业体验与转 ...

【CDA干货】卡方检验与T检验结果的标准化解读方法及 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载