用Python处理数据集中的缺失值-CDA数据分析师官网

热线电话：13121318867

用Python处理数据集中的缺失值

2017-05-18

用Python处理数据集中的缺失值

现实生活中的数据经常存在缺失值。产生缺失值的原因有很多，如观察资料未被记录、数据损坏等。由于很多机器学习算法不支持存在缺失值的数据集，正确处理缺失值就显得比较重要了。本文向大家介绍一些使用Python处理数据集中缺失值的方法，旨在帮助大家了解以下内容：

1、如何将数据集中无效或损坏的值标记为缺失值；

2、如何删除数据集中的缺失值；

3、如何通过均值估算数据集中存在的缺失值。

注意：运行本文的示例代码前，请确保已经安装Python2或者Python3，并安装好了Pandas, NumPy和Scikit-Learn，另外Scikit-Learn需要0.18及以上版本。

概览

本文分为以下六个部分的内容：

1、皮马印第安人糖尿病数据集（Pima Indians Diabetes Dataset）--该部分将介绍给大家一个已知存在缺失值的数据集

2、标记缺失值--该部分用来学习如何标记数据集中的缺失值

3、缺失值可能会带来的问题--该部分将了解到当数据集中存在缺失值时会对机器学习算法存在怎样的负面影响

4、删除存在缺失值的行--该部分介绍如何删除数据集中包含缺失值的行

5、估算缺失值--该部分介绍如何使用估算值来替换缺失值

6、支持存在缺失值数据集的一些算法--该部分将了解到一些支持缺失值的算法

首先，先来认识下我们的样例数据集。

1、皮马印第安人糖尿病数据集（Pima Indians Diabetes Dataset）

皮马印第安人糖尿病数据集涉及基于给定的医疗措施预测皮马印第安人5年内糖尿病的发病情况。这是一个二分类问题，每一类对应的观测值数量并不均衡。该数据集共有768组观测值，每组观测值有8个输入变量和1个输出变量。变量名称及含义如下所示：

0列为怀孕次数；

1列为口服葡萄糖耐量试验中2小时后的血浆葡萄糖浓度；

2列为舒张压（单位:mm Hg）

3列为三头肌皮褶厚度（单位：mm）

4列为餐后血清胰岛素（单位:mm）

5列为体重指数（体重（公斤）/ 身高（米）^2）

6列为糖尿病家系作用

7列为年龄

8列为分类变量（0或1）

多数情况下，预测模型的基准水平大约为65%的分辨精度，最高则能达到接近77%的分类精度。

数据集的前五组观测值如下所示：

该数据集已知存在缺失值，某些列中存在的缺失值被标记为0。通过这些列中指标的定义和相应领域的常识可以证实上述观点，譬如体重指数和血压两列中的0作为指标数值来说是无意义的。

点击此处下载数据集到你的当前工作路径，并重命名为pima-indians-diabetes.csv。

2、标记缺失值

在这一部分，我们将学习如何鉴别和标记缺失值。

借助散点图和统计指标，我们能够识别缺失或损坏的数据。

如下图所示，先将数据加载到Pandas模块提供的DataFrame中，然后打印出每个变量的统计信息。

运行上述代码将产生以下结果：

这个结果非常有用：从结果中我们可以看到很多列的最小值为0。而在一些特定列代表的变量中，0值并没有意义，这就表名该值无效或为缺失值。

具体来说，下列变量的最小值为0时数据无意义：

1、血浆葡萄糖浓度

2、舒张压

3、肱三头肌皮褶厚度

4、餐后血清胰岛素

5、体重指数

让我们确认一下原始数据，下述代码打印了数据集的前二十条数据。

代码运行后，可以很清楚得看到第2、3、4、5列的0值。

输出结果容易看出上述几列中每一列缺失值的个数。我们可以把DataFrame中感兴趣的包含0值的那部分子集标记为True，然后计算出对应列中值为True的数量。

上述代码的运行结果如下：

结果显示，第1、2、5列中0值较少；相比较而言，第3、4列中的0值多出数倍，接近总量的一半。

值得注意的是，为了确保有足够的数据量来训练模型，针对不同的列需要有不同的缺失值判断策略。

在Python中，尤其Pandas、Numpy、Scikit-Learn模块中，我们用NaN来标记缺失值。值为NaN的数据均不参与如求和、计数类的运算。

在Pandas的DataFrame中，通过replace()函数可以很方便的将我们感兴趣的数据子集的值标记为NaN。

标记完缺失值之后，可以利用isnull()函数将数据集中所有的NaN值标记为True，然后就可以得到每一列中缺失值的数量了。

上述代码打印了每一列中的缺失值。结果显示，第1-5列中标记后的缺失值的数量和之前打印的0值的数量相等，这表明我们已经正确识别了缺失值。

这是一个很有用的概要。不过为了确保数据准确，我们通常还是会浏览一下原数据。

以下是代码示例，这里只打印了前二十条数据。

以上代码运行后，我们可以很清楚地看到第2、3、4、5列的NaN值。由于第一列中只有5个缺失值，所以在前二十列中看不到值为NaN的情况也挺正常。

从原数据中可以很清楚地看到，对缺失值进行标记达到了预期的效果。

在开始着手处理缺失值之前，让我们先来演示下存在缺失值的数据集将会带来什么问题。

3、缺失值带来的问题

在一些机器学习算法中使用存在缺失值的数据集将会产生运行错误。

在本节中，我们将尝试评估带有缺失值的数据对线性判别分析（LDA）算法的影响。当数据集存在缺失值时，该算法将停止工作。

以下的代码用上一部分的方法标记了数据集中的缺失值，然后尝试用3倍交叉验证来求LDA算法的值并打印其平均精度。

正如所料，代码运行过程中产生了如下错误：

在有缺失值的数据集上应用LDA算法（以及其他算法）求值的过程中我们碰到了问题。接下来，我们开始学习处理缺失值的方法。

4、删除存在缺失值的行

处理缺失值最简单的策略是删除存在缺失值的记录。通过创建一个删除缺失值后的新的Pandas数据框可以实现以上效果。Pandas的dropna()函数可以用来删除存在缺失值的行或列。如下所示，利用dropna()函数我们可以删除所有存在缺失值的行。

上述代码运行后，由于所有存在NaN值的行全部被删除了，可以看到数据集的行数由原来的768大幅减少到392。

经过处理后的数据集已经可以应用到LDA这类对缺失值比较敏感的算法上来。

代码运行成功后会打印模型的预测精度。

删除存在缺失值的行对部分预测模型来说存在诸多局限性，另一种方法是估算缺失值。

5、估算缺失值

估算是指利用模型计算的结果来替代缺失值。

在进行缺失值替换时我们有很多选择，例如：

在域内具有含义且不同于所有其他值的一个常量，例如0

使用另一条随机选取的记录中的对应值

该列的均值、中值或者众数

由另一个预测模型估算的值

对于训练数据及进行的任何估算，必须在将来使用最终确定的模型进行预测时，对新的数据集执行相同的操作。

例如，如果你选择使用列的均值进行缺失值估算，这些列的均值需要保存在文件中供将来存在缺失值的线数据集使用。

Pandas提供了fillna()函数来实现用特定值来替换缺失值。

如下所示，通过fillna()函数我们用每列的均值替换了该列中的缺失值。

代码的最后一行打印了每一列中的缺失值数量，结果显示经过处理已经不存在缺失值了。

scikit-learn库提供了Imputer()预处理类用来替换缺失值。

Impuer是一个很灵活的类，既可以用除了NaN之外的特定值替换缺失值，也可以指定固定的运算结果（如均值、中值、众数）来进行替换。Imputer类直接在NumPy的数组上进行运算而不是Pandas的DataFrame。

下面的代码利用Imputer类使用每一列的均值对缺失值进行了替换，并打印了转置矩阵中NaN值的数量。

运行结果显示所有的NaN值均被成功替换。

使用上述两个方法的任意一种，我们都可以对转化后的数据集中使用对NaN值敏感的算法进行训练，如前面提到的LDA。

下述代码显示了在使用估算方法转换后的数据集上训练LDA算法的过程。

运行结果打印出了使用转换后数据集训练得出的LDA模型的平均精度。

尝试用其他数值来替换缺失值，然后看一下是否能够提升模型的预测精度。

在某些情景中，数据集的缺失值具有一定的意义。下一部分将会学习一些在建模过程中将缺失值作为“值”来处理的一些算法的运用。

6、支持存在缺失值数据集的一些算法

当数据集中存在缺失值时，并不是所有算法都会失效。

有一些算法对缺失值的处理比较灵活，例如K最近邻分类算法（k-Nearest Neighbors）遇到缺失值时，可以将其不计入距离测量。

另外还有一类算法在建立训练模型时会将数据集中的缺失值作为唯一的数值来处理，例如分类和回归树算法。

不幸的是，尽管已经在考虑当中，scikit-learn模块中决策树和K最近邻分类算法的应用中对缺失值的处理并不够健壮。

即便如此，如果你准备使用诸如xgboost之类的其他算法实现或者开发自己的算法，这仍然是一个选择。

总结

在本教程中，你学习了如何处理机器中存在缺失值的数据集。

具体来说，你学到了：

如何将数据集中的缺失值标记为numpy的NaN值

如何删除数据集中存在缺失值的行

如何使用有意义的数值替代数据集中的缺失值

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

DataFrame 机器学习决策树散点图 numpy

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

用Python处理数据集中的缺失值

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载