pandas是如何检测和处理缺失数据的？-CDA数据分析师官网

热线电话：13121318867

首页大数据时代pandas是如何检测和处理缺失数据的？

pandas是如何检测和处理缺失数据的？

2020-07-17

我们都知道pandas 是一款功能强大的python库，基于Numpy，支持高性能的矩阵运算，通常在数据挖掘和数据分析领域应用较多，但是pandas 数据清洗功能也不能忽视，今天小编就为大家分享pandas是如何检测和处理缺失数据的。

一、缺失值是什么?

缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。通常按照数据缺失机制，可分为以下几种：

1.可忽略的缺失

(1)完全随机缺失 MCAR全称：missing completely at random，顾名思义，指的是数据的缺失是随机的，与已观察到的和未观察到的数据无关

(2)随机缺失MAR，全称：missing at random，该类数据的缺失依赖于其他完全变量

2.不可忽略的缺失NIM(全称：non-ignorable missing ) 或者非随机缺失，这种数据的缺失既依赖于完全变量又依赖于不完全变量本身

二、判断是否有缺失值

1.创建数据

import pandas as pd

import numpy as np

data = pd.DataFrame({'a': [1. 2. 4. np.nan,7. 9], 'b': ['a', 'b', np.nan, np.nan, 'd', 'e'], 'c': [np.nan, 0. 4. np.nan, np.nan, 5], 'd': [np.nan, np.nan, np.nan, np.nan, np.nan, np.nan]})

a b c d

0 1.0 a NaN NaN

1 2.0 b 0.0 NaN

2 4.0 NaN 4.0 NaN

3 NaN NaN NaN NaN

4 7.0 d NaN NaN

5 9.0 e 5.0 NaN

2.判断是否有缺失值及统计

print(data.isnull().any())

a True

b True

c True

d True

print(data.isnull().sum()) #t统计每一列的缺失值个数

a 1

b 2

c 3

d 6

三、pandas 缺失值处理一般采用两种方法

1.删除;

pandas 缺失值处理最原始的方法，pandas删除缺失值，通常通过dropna的方法，使用dropna的前提是，缺失值的类型必须是np.nan

删除缺失值为np.nan的所在行

movie.dropna()

参数说明：

axis 参数用于控制行或列，跟其他不一样的是，axis=0 (默认)表示操作行，axis=1 表示操作列。

how 参数可选的值为 any(默认) 或者 all。any 表示一行/列有任意元素为空时即丢弃，all 一行/列所有值都为空时才丢弃。

subset 参数表示删除时只考虑的索引或列名。

thresh参数的类型为整数，它的作用是，比如 thresh=3.会在一行/列中至少有 3 个非空值时将其保留。

2.填充。

最常见的是使用 fillna 完成填充。

data.fillna(0)

除了可以使用标量来填充之外，还可以使用前一个或后一个有效值来填充。

设置参数 method=‘pad’ 或 method=‘ffill’ 可以使用前一个有效值来填充。

设置参数 method=‘bfill’ 或 method=‘backfill’ 可以使用后一个有效值来填充。

3.替换。

有时候，某些异常值也会被当做缺失值来处理，可以使用 replace 方法来替换缺失值。

比如： user_info.replace({“age”: 40. “birth”: pd.Timestamp(“1978-08-08”)}, np.nan) #将年龄40替换日期为1978-08-08也替换

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

pandas 缺失值处理 numpy python DataFrame 数据清洗数据挖掘数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇分布式文件系统HDFS概念及工作机制的简单介绍

下一篇python数据清洗中，是如何识别和处理异常值的？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

pandas是如何检测和处理缺失数据的？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载