生存曲线的估计方法（1）：先看懂这个表-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读生存曲线的估计方法（1）：先看懂这个表

生存曲线的估计方法（1）：先看懂这个表

2020-10-20

作者：丁点helper

来源：丁点帮你

前面两篇文章初步介绍了生存分析基本入门的内容，今天我们来看看实际应用中怎么估计生存率。具体的方法和术语我们先不讲，首先来看例子。

案例：为了解肺癌患者接受某种治疗后的生存状况，研究者收集了12名肺癌患者手术加化疗的住院资料。他们的生存时间（月）分别为：2, 5, 8, 9, 9+, 10, 13, 13, 15+, 18, 20, 23+。

试问，采用该治疗方案的12名患者的术后生存率如何？（案例来自相关教科书，有删改）

如何来评判这种治疗方法的生存率呢？我们从“生存数据”入手，关于生存数据的详细解释大家可以看第一篇文章。

今天的文章我们来一步步搞懂上面这张表。

案例中介绍了，一共有12名住院患者，他们的生存时间（用 t 表示）分别为：2, 5, 8, 9, 9+, 10, 13, 13, 15+, 18, 20, 23+，单位是月。第一个问题，有些数字有加号，有些没有，是为什么呢？

有加号的表示，该数据是“删失数据”，什么是删失数据？（以及什么是完全数据？）可以看第一篇文章。这里简单理解就是，患者失联了，后续的信息无法获取。

比如上面的生存时间数据中有一个“9+”，可以理解为，跟踪了9个月，患者一直存活且保持着联系，可是当下一次（比如第10个月开始）去找他的时候（专业名词叫“随访”），找不到了，说的不好听一点，是死是活不知道。

因此，对于这样的数据，我们就叫“删失数据”。由于患者确实可能还活着，只是失联，谨慎起见，我们就在上一次随访的数据“9”后面加一个“+”，表示他存活的时间可能长于9个月。

其他的删失数据也这样理解。搞懂删失后，我们再来看这个表。表格的第（1）列序号代表什么呢？排序的号码！

将上面12名患者的生存时间t 从小到大排序并编号。

——注意两点：

第一，完全数据和删失数据要用不同的编号，比如上面的“9”和“9+”一个是编号“4”，一个是编号“5”，完全数据列在删失数据前面；

第二，其他情况下，相同的生存时间编号相同，比如上面有两个“13”，所以都编为“7”。

编号完成后，就把相应的生存时间排进去，见上表第（2）列。

这里大家需要熟悉一些表达，比如t₁=2、t₂=5 ... 就是指随访的第一个时间点是2个月，随访的第二个时间点是第5个月。

接着往后看，第（3）列是“死亡例数”，就是指在这个时间段的死亡人数是多少？

比如在第一个时间段内（ t₁=2 ）有1名患者死亡，就表示为：d₁=1；

同理，在第二个时间段内也有1名死亡（注意是： t₁~ t₂，就是2月末到第5月末），表示为：d₂=1；

后续依次类推，这里需要注意的是，“死亡例数”记录的是某个特定的时间段内的死亡人数，不是累计的死亡人数。

表格中第（4）列称作“删失数据”，就是记录那些带“+”号的数据的，可以发现，上面每一个删失数据都单独做一例录入。

第（5）列“期初人数”就与上面“死亡例数”相对应，就是指这个观察期开始时的人数。

第一个数（ n₁）是“12”，就表示刚开始观察的人数是12人。

随着观察时间的延长，有患者死亡，就算作是一期。比如，到第2月末时，有1名患者死亡，那么下一个观察期的“期初人数”就是 12-1 = 11，因此： n₂=11，到第5月末时，又一名患者死亡，第3期（i = 3）“期初人数”就是 11-1 = 10，表示为： n₃=10。

后面的以此类推，由此我们可以得出一个计算公式：

后面两列——死亡概率和生存概率也很好理解，只有一点，就是要明白这里计算的概率都是以一期为单位的，而不是累积的。

比如第一期（ i=1），一名患者死亡，所以，死亡概率就是：1/12；对应的生存概率就是：1-1/12。

第二期（ i=2），也有一名患者死亡，死亡概率：1/11; 生存概率：1-1/11。

需要注意，这里的分母变成了11。原因还是：这里是以每一期为一个单位，计算时，都以该期的“期初人数”为分母。

搞清楚了死亡概率和生存概率，终于迎来了我们的主角“生存率”。

这个生存率怎么计算？很简单，就是各期生存概率的乘积。

后面的依次类推，就是这么简单。

我们来验算一下，比如：

用计算器算一下，这个也可以口算，你发现了么？

至于为什么这里都要加一个“ ^ ”以及上表中最后一列“生存率的标准误”怎么理解和计算，我们留到下一篇文章。

以上我们估算生存率的方法教科书称为：Kaplan-Meier法，又称乘积极限法，可以简单记为K-M法。

其基本思想是：将所有观察对象的生存时间（包括删失数据）由小到大依次排列，对每个时间点进行死亡概率、生存概率和生存率的估计。

回顾上面的文章，是否就是这个过程呢？

K-M法一般用于观察对象数目较少的没有进行特定分组的资料（如同本例）。这样可以能够充分利用每条记录的信息，估计不同生存时间点的生存率。

以上就是今天的内容。我们可以看到，实际应用中生存率的计算并不难，就是几个概率相乘。

学习起来真正的难点是一整套数据的记录和整理方法，而且还出现“删失”这种看起来就头大的术语。

所以，处理生存分析，首先要按照我们今天文章的梳理过程，一步一步弄懂每一个的指标的意义，生存率的估计就水到渠成了。

——热门课程推荐：

想从事业务型数据分析师，您可以点击>>>“数据分析师”了解课程详情；

想从事大数据分析师，您可以点击>>>“大数据就业”了解课程详情；

想成为人工智能工程师，您可以点击>>>“人工智能就业”了解课程详情；

想了解Python数据分析，您可以点击>>>“Python数据分析师”了解课程详情；

想咨询互联网运营，你可以点击>>>“互联网运营就业班”了解课程详情；

想了解更多优质课程，请点击>>>

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

数据分析人工智能大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇都2020年了，数据分析的真相究竟是什么？

下一篇十分钟快速了解pandas的常用操作！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

生存曲线的估计方法（1）：先看懂这个表

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

从 CDA LEVEL II 考试题型看 Python 数据分析要点 ...

【CDA干货】用 Python 开启数据分析之旅：从基础到 ...

【CDA干货】鸢尾花判别分析：机器学习中的经典实践 ...

【CDA干货】解析 response.text 与 response.conten ...

【CDA干货】解析神经网络中 Softmax 函数的核心作用 ...

CDA数据分析师证书考取全攻略

【CDA干货】左偏态分布转正态分布：方法、原理与实 ...

自媒体创业者：快把握风口，利用CDA＋AI新模式，轻 ...

CDA数据分析能力+AI=传统企业主的新生存法则 ——企 ...

CDA 数据分析师的职业生涯规划：从入门到卓越的成长 ...

【CDA干货】MySQL执行计划中rows的计算逻辑：从原理 ...

CDA认证基建：AI时代企业内训乘风破浪的 “超级引擎 ...

35岁+ 职场突围战：2025年最该考的证书为什么是CDA? ...

CDA 数据分析师报考条件详解与准备指南 ...

CDA数据分析师证书：AI时代的职场“黄金通行证” ...

AI时代，人人都该是CDA数据分析师

CDA 数据分析师：数据时代的价值挖掘者 ...

【CDA干货】SPSS 赋值后数据不显示？原因排查与解决 ...

【CDA干货】在 DBeaver 中利用 MySQL 实现表数据同 ...

数据分析师的技能图谱：从数据到价值的桥梁 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载