Python数据清洗(二)：缺失值识别与处理-CDA数据分析师官网

热线电话：13121318867

Python数据清洗(二)：缺失值识别与处理

2019-11-25

Python<a href='/map/shujuqingxi/' style='color:#000;font-size:inherit;'>数据清洗</a>(二)：缺失值识别与处理

作者 | 刘顺祥

来源 | 数据分析1480

前言

在《Python 数据清洗(一)：类型转换和冗余数据删除》中分享了有关数据类型转换和冗余信息删除的两个知识点，接下来继续讲解缺失值的识别和处理办法。缺失值指的是由于人为或机器等原因导致数据记录的丢失或隐瞒，缺失值的存在一定程度上会影响后续数据分析和挖掘的结果，所以对他的处理将显得尤为重要。

缺失值的识别

判断一个数据集是否存在缺失观测，通常从两个方面入手，一个是变量的角度，即判断每个变量中是否包含缺失值；另一个是数据行的角度，即判断每行数据中是否包含缺失值。关于缺失值的判断可以使用isnull方法。下面使用isnull方法对data3数据（数据可至中---下载）进行判断，统计输出的结果如下表所示。

# 判断各变量中是否存在缺失值data3.isnull().any(axis = 0)# 各变量中缺失值的数量data3.isnull().sum(axis = 0)# 各变量中缺失值的比例data3.isnull().sum(axis = 0)/data3.shape[0]

如上结果所示，数据集data3中有三个变量存在缺失值，即gender、age和edu，它们的缺失数量分别为136、100和1,927，缺失比例分别为4.53%、3.33%和64.23%。

需要说明的是，判断数据是否为缺失值NaN，可以使用isnull“方法”，它会返回与原数据行列数相同的矩阵，并且矩阵的元素为bool类型的值，为了得到每一列的判断结果，仍然需要any“方法”（且设置“方法”内的axis参数为0）；统计各变量的缺失值个数可以在isnull的基础上使用sum“方法”（同样需要设置axis参数为0）；计算缺失比例就是在缺失数量的基础上除以总的样本量（shape方法返回数据集的行数和列数，[0]表示取出对应的数据行数）。

读者可能对代码中的“axis=0”感到困惑，它代表了什么？为什么是0？是否还可以写其他值？下面通过图表的形式来说明axis参数的用法：

假设上图为学生的考试成绩表，如果直接对成绩表中的分数进行加和操作，得到的是所有学生的分数总和（很显然没有什么意义），如果按学生分别计算总分，将是上图从左到右的转换。该转换的特征是列数发生了变化（可以是列数减少，也可以是列数增多），类似于在水平方向上受了外部的压力或拉力，这样的外力就理解为轴axis为1的效果（便于理解，可以想象为飞机在有动力的情况下，可以保持水平飞行状态）。

同样对于如上的学生成绩表，如果直接对成绩表中的分数计算平均值，得到的是所有学生的平均分数（很显然也没有什么意义），如果按学科分别计算平均分，将是上图中从上到下的转换。该转换的特征是行数发生了变化（可以是行数减少，也可以是行数增多），类似于在垂直方向上受了外部的挤压或拉伸，这样的外力就理解为轴axis为0的效果（便于理解，可以想象为飞机在没有动力的情况下，呈下降趋势）。

如上是关于变量方面的缺失值判断过程，还可以利用下方的代码识别数据行的缺失值分布情况：

# 判断数据行中是否存在缺失值

如上结果所示，返回True值，说明data3中的数据行存在缺失值。代码中使用了两次any“方法”，第一次用于判断每一行对应的True（即行内有缺失值）或False值（即行内没有缺失值）；第二次则用于综合判断所有数据行中是否包含缺失值。同理，进一步还可以判断缺失行的具体数量和占比，代码如下：

# 缺失观测的行数data3.isnull().any(axis = 1).sum()# 缺失观测的比例data3.isnull().any(axis = 1).sum()/data3.shape[0]

如上结果所示，3000行的数据集中有2024行存在缺失值，缺失行的比例约67.47%。不管是变量角度的缺失值判断，还是数据行角度的缺失值判断，一旦发现缺失值，都需要对其作相应的处理，否则一定程度上都会影响数据分析或挖掘的准确性。

缺失值的处理办法

通常对于缺失值的处理，最常用的方法无外乎删除法、替换法和插补法。删除法是指将缺失值所在的观测行删除（前提是缺失行的比例非常低，如5%以内），或者删除缺失值所对应的变量（前提是该变量中包含的缺失值比例非常高，如70%左右）；替换法是指直接利用缺失变量的均值、中位数或众数替换该变量中的缺失值，其好处是缺失值的处理速度快，弊端是易产生有偏估计，导致缺失值替换的准确性下降；插补法则是利用有监督的机器学习方法（如回归模型、树模型、网络模型等）对缺失值作预测，其优势在于预测的准确性高，缺点是需要大量的计算，导致缺失值的处理速度大打折扣。下面将选择删除法、替换法和插补法对缺失值进行处理，代码如下：

# 删除字段 -- 如删除缺失率非常高的edu变量data3.drop(labels = 'edu', axis = 1, inplace=True)# 数据预览data3.head()

如上结果所示，表中的edu变量已被成功删除。对于字段的删除可以选择drop“方法”，其中labels参数用于指定需要删除的变量名称，如果是多个变量，则需要将这些变量名称写在一对中括号内（如['var1','var2','var3']）；删除变量一定要设置axis参数为1，因为变量个数发生了变化（所以，借助于axis参数也可以删除观测行啦）；inplace则表示是否原地修改，即是否直接将原表中的字段进行删除，这里设置为True，如果设置为False，则将删除变量的预览效果输出来，而非真正改变原始数据。

# 删除观测，-- 如删除age变量中所对应的缺失观测data3_new = data3.drop(labels = data3.index[data3['age'].isnull()],

axis = 0)# 查看数据的规模data3_new.shapeout:(2900, 5)

如上结果所示，利用drop“方法”实现了数据行的删除，但必须将axis参数设置为0，而此时的labels参数则需要指定待删除的行编号。这里的行编号是借助于index“方法”（用于返回原始数据的行编号）和isnull“方法”（用于判断数据是否为缺失状态，如果是缺失则返回True）实现的，其逻辑就是将True对应的行编号取出来，传递给labels参数。

如果变量的缺失比例非常大，或者缺失行的比例非常小时，使用删除法是一个不错的选择，反之，将会丢失大量的数据信息而得不偿失。接下来讲解如何使用替换法处理缺失值，代码如下：

# 替换法处理缺失值data3.fillna(value = {'gender': data3['gender'].mode()[0],

# 使用性别的众数替换缺失性别 'age':data3['age'].mean()

# 使用年龄的平均值替换缺失年龄 }, inplace = True # 原地修改数据 )

# 再次查看各变量的缺失比例data3.isnull().sum(axis = 0)

如上结果所示，采用替换法后，原始数据中的变量不再含有缺失值。缺失值的填充使用的是fillna“方法”，其中value参数可以通过字典的形式对不同的变量指定不同的值。需要强调的是，如果计算某个变量的众数，一定要使用索引技术，例如代码中的[0]，表示取出众数序列中的第一个（我们知道，众数是指出现频次最高的值，假设一个变量中有多个值共享最高频次，那么Python将会把这些值以序列的形式存储起来，故取出指定的众数值，必须使用索引）。

正如前文所说，虽然替换法思想简单、效率高效，但是其替换的值往往不具有很高的准确性，于是出现了插补方法。该方法需要使用机器学习算法，不妨以KNN算法为例，对Titanic数据集中的Age变量做插补法完成缺失值的处理。代码如下：

# 读取数据titanic = pd.read_csv('Titanic.csv')# 删除缺失严重的Cabin变量titanic.drop(labels='Cabin', axis = 1,

inplace=True)# 根据Embarked变量，删除对应的缺失行titanic.dropna(subset=['Embarked'], inplace=True)

# 删除无关紧要的变量（这些变量对后面预测年龄没有太多的帮助）

titanic.drop(labels=['PassengerId','Name','Ticket','Embarked'], axis = 1, inplace=True)

# 将字符型的性别变量映射为数值变量titanic.Sex = titanic.Sex.map({'male':1, 'female':0})

# 将数据拆分为两组，一是年龄缺失组，二是年龄非缺失组，后续基于非缺失值构建KNN模型，再对缺失组做预测

nomissing = titanic.loc[~titanic.Age.isnull(),]missing = titanic.loc[titanic.Age.isnull(),]

# 导入机器学习的第三方包from sklearn import neighbors

# 提取出所有的自变量X = nomissing.columns[nomissing.columns != 'Age']

# 构建模型knn = neighbors.KNeighborsRegressor()

# 模型拟合knn.fit(nomissing[X], nomissing.Age)

# 年龄预测pred_age = knn.predict(missing[X])

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

数据清洗字段机器学习数据分析 KNN 特征有监督

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇9大Python深度学习库，哪一个最适合你？

下一篇常见数据分析方法之什么是「假设分析」？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

Python数据清洗(二)：缺失值识别与处理

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】AARRR用户增长漏斗模型全解析：从理论到 ...

【CDA干货】随机森林特征重要性分析全解析：从原理 ...

CDA数据分析师：精通表格结构数据核心功能，解锁高 ...

【CDA干货】一文读懂Excel箱线图含义：用简单图表解 ...

【CDA干货】ROC曲线阈值优化指南：如何科学提高阈值 ...

CDA数据分析师：以专业报告呈现，解锁数据洞察的落 ...

【CDA干货】主成分分析（PCA）实战全解析：从原理简 ...

【CDA干货】解析数据分析中基准比的本质：离基准值 ...

CDA数据分析师：驾驭业务数据分析全步骤，赋能业务 ...

【CDA干货】信贷违约率的统计分布特征与测算方法研 ...

【CDA干货】业务效果AB增量评估体系：搭建、实操与 ...

CDA数据分析师：以战略分析方法为翼，赋能企业长远 ...

【CDA干货】复杂抽样的统计描述：方法、要点与实操 ...

【CDA干货】详解聚合函数：可一次使用多个吗？实操 ...

CDA数据分析师视角：战略数据分析与业务数据分析的 ...

【CDA干货】详解B+树叶子节点指针：双向还是单向？ ...

【CDA干货】警惕！REPLACE(UUID(), '-', '')用于INS ...

CDA数据分析师与商业数据分析总体流程：全链路实操 ...

【CDA干货】通过标准差与平均值关系衡量数据波动性 ...

【CDA干货】基于GB标准的t检验、F检验与显著性差异 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载