pandas是如何检测和处理缺失数据的？-CDA数据分析师官网

热线电话：13121318867

首页大数据时代pandas是如何检测和处理缺失数据的？

pandas是如何检测和处理缺失数据的？

2020-07-17

我们都知道pandas 是一款功能强大的python库，基于Numpy，支持高性能的矩阵运算，通常在数据挖掘和数据分析领域应用较多，但是pandas 数据清洗功能也不能忽视，今天小编就为大家分享pandas是如何检测和处理缺失数据的。

一、缺失值是什么?

缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。通常按照数据缺失机制，可分为以下几种：

1.可忽略的缺失

(1)完全随机缺失 MCAR全称：missing completely at random，顾名思义，指的是数据的缺失是随机的，与已观察到的和未观察到的数据无关

(2)随机缺失MAR，全称：missing at random，该类数据的缺失依赖于其他完全变量

2.不可忽略的缺失NIM(全称：non-ignorable missing ) 或者非随机缺失，这种数据的缺失既依赖于完全变量又依赖于不完全变量本身

二、判断是否有缺失值

1.创建数据

import pandas as pd

import numpy as np

data = pd.DataFrame({'a': [1. 2. 4. np.nan,7. 9], 'b': ['a', 'b', np.nan, np.nan, 'd', 'e'], 'c': [np.nan, 0. 4. np.nan, np.nan, 5], 'd': [np.nan, np.nan, np.nan, np.nan, np.nan, np.nan]})

a b c d

0 1.0 a NaN NaN

1 2.0 b 0.0 NaN

2 4.0 NaN 4.0 NaN

3 NaN NaN NaN NaN

4 7.0 d NaN NaN

5 9.0 e 5.0 NaN

2.判断是否有缺失值及统计

print(data.isnull().any())

a True

b True

c True

d True

print(data.isnull().sum()) #t统计每一列的缺失值个数

a 1

b 2

c 3

d 6

三、pandas 缺失值处理一般采用两种方法

1.删除;

pandas 缺失值处理最原始的方法，pandas删除缺失值，通常通过dropna的方法，使用dropna的前提是，缺失值的类型必须是np.nan

删除缺失值为np.nan的所在行

movie.dropna()

参数说明：

axis 参数用于控制行或列，跟其他不一样的是，axis=0 (默认)表示操作行，axis=1 表示操作列。

how 参数可选的值为 any(默认) 或者 all。any 表示一行/列有任意元素为空时即丢弃，all 一行/列所有值都为空时才丢弃。

subset 参数表示删除时只考虑的索引或列名。

thresh参数的类型为整数，它的作用是，比如 thresh=3.会在一行/列中至少有 3 个非空值时将其保留。

2.填充。

最常见的是使用 fillna 完成填充。

data.fillna(0)

除了可以使用标量来填充之外，还可以使用前一个或后一个有效值来填充。

设置参数 method=‘pad’ 或 method=‘ffill’ 可以使用前一个有效值来填充。

设置参数 method=‘bfill’ 或 method=‘backfill’ 可以使用后一个有效值来填充。

3.替换。

有时候，某些异常值也会被当做缺失值来处理，可以使用 replace 方法来替换缺失值。

比如： user_info.replace({“age”: 40. “birth”: pd.Timestamp(“1978-08-08”)}, np.nan) #将年龄40替换日期为1978-08-08也替换

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

pandas 缺失值处理 numpy python DataFrame 数据清洗数据挖掘数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇分布式文件系统HDFS概念及工作机制的简单介绍

下一篇python数据清洗中，是如何识别和处理异常值的？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

pandas是如何检测和处理缺失数据的？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：赵君研谈金融行业数据分析与运营岗 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少寒谈传统制造业与互联网行业数 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载