
在用 Python(如 pandas 库)处理 Excel 数据时,“缺失值” 是高频痛点 ——Excel 表中的空白单元格、“N/A” 标记或格式错误,导入后常会转化为 pandas 中的NaN
(Not a Number)值。这些缺失值若不处理,会导致统计分析偏差(如均值计算不准)、模型训练报错(如机器学习算法无法识别NaN
)。而dropna
作为 pandas 中删除缺失值的核心函数,是解决这一问题的关键工具。本文将从 Excel 数据缺失场景出发,全面解析dropna
的作用、参数配置与实战用法,帮助读者高效完成数据清洗。
在用dropna
处理缺失值前,需先明确 Excel 数据缺失的根源与影响,避免 “盲目删除” 导致数据浪费。
Excel 作为手动录入、多表合并的常用工具,缺失值的产生往往与操作场景相关:
手工录入遗漏:如员工信息表中,部分员工的 “入职日期”“联系方式” 因录入疏忽未填写,形成空白单元格;
数据格式不兼容:Excel 表中混合文本与数值格式(如 “年龄” 列既有数字 “25”,又有文本 “待补充”),导入 pandas 时文本内容会被识别为NaN
;
多表合并残留:将 Excel 表 “销售数据” 与 “客户信息” 合并时,部分客户无匹配的销售记录,导致 “销售额”“订单号” 列出现NaN
;
系统导出缺陷:从业务系统导出 Excel 数据时,因字段未配置或接口异常,部分列(如 “物流单号”)自动填充为空白。
若直接用含缺失值的 Excel 数据做分析,会引发一系列问题:
统计结果失真:计算 “平均销售额” 时,NaN
值会被自动排除,若缺失值占比高(如 30%),会导致均值偏离真实水平;
可视化错误:用含NaN
的 “月度销量” 列绘制折线图时,会出现断点或空白区域,无法完整呈现趋势;
dropna
是 pandas 库中专门用于 “删除含NaN
值的行或列” 的函数,其核心作用可概括为:通过灵活配置参数,选择性剔除数据集中 “无效的行 / 列”,保留完整、可用的数据样本,为后续分析(如统计计算、建模)扫清障碍。
简单来说,当 Excel 导入的数据表存在 “某行多个字段缺失”“某列全是空白” 时,dropna
能帮你快速筛选出 “无缺失的有效数据”—— 例如,删除 “销售额” 列缺失的行,避免这些无效数据影响 “月度销售总额” 的计算。
处理缺失值的方法还有 “填充法”(如用均值、中位数填充,fillna
函数),但dropna
的优势在于:
当缺失值对应的是 “无效样本”(如 Excel 表中 “订单号” 缺失的行,无实际业务意义),删除是最合理的选择,避免填充导致的虚假数据。
dropna
的灵活性体现在参数配置上 —— 通过调整axis
(方向)、how
(删除条件)、subset
(指定列)等参数,可精准控制删除范围,避免误删有用数据。以下是 Excel 数据处理中最常用的 4 个参数:
参数名 | 取值范围 | 核心作用 | Excel 数据场景示例 |
---|---|---|---|
axis |
0(默认)/1 | 0 = 删除含缺失值的行;1 = 删除含缺失值的列 | 若 Excel “用户表” 中部分行的 “手机号” 缺失→用axis=0 删行;某列 “备注” 全是空白→用axis=1 删列 |
how |
'any'(默认)/'all' | 'any'= 行 / 列只要有一个缺失值就删除;'all'= 行 / 列所有值都缺失才删除 | 若 Excel “订单表” 中某行 “订单号” 缺失(其他字段完整)→'any' 会删除该行;某行全空白→'all' 才删除 |
subset |
列表(如 [' 列 1',' 列 2']) | 仅针对指定列的缺失值判断是否删除行(仅对axis=0 生效) |
仅关注 Excel “销售表” 中 “销售额”“订单日期” 列的缺失值→subset=['销售额','订单日期'] ,其他列缺失不影响 |
thresh |
整数(如 3) | 行 / 列至少有 N 个非缺失值才保留,否则删除(与how 互补) |
Excel “产品表” 需保留 “产品 ID、名称、价格”3 个核心列无缺失的行→thresh=3 |
结合 Excel 数据的常见缺失情况,以下用 pandas 代码演示dropna
的实战应用,从 “导入 Excel” 到 “删除缺失值” 形成完整流程。
首先需安装 pandas 和读取 Excel 的依赖库(openpyxl
用于读取.xlsx 格式,xlrd
用于.xls 格式):
pip install pandas openpyxl xlrd
假设我们有一份 Excel 文件sales_data.xlsx
,包含 “订单号、客户 ID、销售额、订单日期、物流单号”5 列,导入后的数据如下(含缺失值):
订单号 | 客户 ID | 销售额 | 订单日期 | 物流单号 |
---|---|---|---|---|
1001 | C001 | 500.0 | 2024-01-01 | SF123 |
1002 | NaN | 800.0 | 2024-01-02 | NaN |
1003 | C003 | NaN | 2024-01-03 | ZT456 |
1004 | NaN | NaN | NaN | NaN |
1005 | C005 | 1200.0 | 2024-01-05 | NaN |
需求:Excel 数据中,只要 “订单号、客户 ID、销售额” 等任意一列有缺失,就删除该行(确保每行数据完整)。
代码:
import pandas as pd
# 1. 导入Excel数据(指定sheet,读取.xlsx需用engine='openpyxl')
df = pd.read_excel("sales_data.xlsx", sheet_name="Sheet1", engine="openpyxl")
# 2. 查看导入后的缺失值情况
print("导入后的数据缺失值统计:")
print(df.isnull().sum()) # 输出每列缺失值数量:客户ID=2,销售额=1,物流单号=3,订单日期=1
# 3. 用dropna默认参数删除含缺失值的行(axis=0, how='any')
df_clean1 = df.dropna()
# 4. 查看清洗后的数据
print("n删除任何一列有缺失的行后:")
print(df_clean1)
# 结果:仅保留1001行(无任何缺失值),其他4行因含缺失值被删除
需求:Excel 数据中,仅当某行所有列(如 1004 行 “订单号、客户 ID” 全为NaN
)都缺失时才删除,部分缺失的行(如 1002 行 “客户 ID、物流单号” 缺失)保留。
代码:
# 用how='all'删除全缺失的行
df_clean2 = df.dropna(how="all")
print("仅删除全缺失的行后:")
print(df_clean2)
# 结果:删除1004行(全缺失),保留1001、1002、1003、1005行(部分缺失)
需求:Excel 数据中,仅关注 “订单号、销售额、订单日期”3 个核心列 —— 只要这 3 列有一个缺失,就删除该行;其他列(如 “物流单号”)缺失不影响。
代码:
# 用subset指定核心列,仅判断这些列的缺失值
df_clean3 = df.dropna(subset=["订单号", "销售额", "订单日期"])
print("仅删除核心列(订单号、销售额、订单日期)有缺失的行后:")
print(df_clean3)
# 结果:删除1003行(销售额缺失)、1004行(核心列全缺失),保留1001、1002、1005行
# (1002行“客户ID、物流单号”缺失,但核心列完整,故保留)
需求:Excel 数据中,只要某行有至少 3 个列无缺失值,就保留;不足 3 个则删除(适用于 “部分字段缺失但仍有分析价值” 的场景)。
代码:
# 用thresh=3保留至少3个非缺失值的行
df_clean4 = df.dropna(thresh=3)
print("保留至少3个非缺失值的行后:")
print(df_clean4)
# 结果:
# 1001行(5个非缺失值)→ 保留;1002行(3个非缺失值)→ 保留;
# 1003行(3个非缺失值)→ 保留;1004行(0个)→ 删除;1005行(4个)→ 保留
需求:若 Excel 导入的数据中,某列(如 “备用字段”)所有值都是NaN
,无任何分析价值,用dropna
删除该列。
代码:
# 先模拟一列全缺失的情况(在原df中添加“备用字段”列)
df["备用字段"] = pd.NA # 新增列全为缺失值
# 用axis=1删除全缺失的列(how='all')
df_clean5 = df.dropna(axis=1, how="all")
print("删除全缺失的列后,剩余列名:")
print(df_clean5.columns.tolist())
# 结果:删除“备用字段”列,保留“订单号、客户ID、销售额、订单日期、物流单号”5列
dropna
虽操作简单,但误用可能导致有用数据丢失或分析偏差,需注意以下细节:
删除前务必用df.isnull().sum()
或df.isnull().mean()
查看缺失值占比:
若某列缺失值占比 > 50%(如 “物流单号” 缺失 70%),删除该列更合理(避免删除大量行);
若某行缺失值仅 1 个且为非核心列(如 “备注”),优先保留该行(用fillna
填充,而非dropna
删除)。
dropna
默认返回新的 DataFrame,不修改原始数据,需将结果赋值给变量(如df_clean = df.dropna()
);若想直接修改原数据,可加inplace=True
参数:
df.dropna(inplace=True) # 直接在原df上删除缺失行,无需赋值
Excel 中的 “空白单元格” 导入后会成为NaN
,但 “文本型无效值”(如 “无数据”“待补充”)需先转化为NaN
,dropna
才能识别:
# 先将Excel中的“无数据”“待补充”转化为NaN,再用dropna删除
df = pd.read_excel("sales_data.xlsx")
df = df.replace(["无数据", "待补充"], pd.NA) # 替换无效文本为NaN
df_clean = df.dropna()
dropna(axis=1)
删除列时需格外小心 —— 即使某列当前缺失值多,但后续可能通过其他表补充(如 “物流单号” 可从物流系统补录),建议先备份原始数据,再删除列:
# 备份原始数据,再删除列
df_backup = df.copy() # 备份
df_clean = df_backup.dropna(axis=1, how="all") # 删除全缺失列
dropna
的核心价值是 “快速剔除无效数据”,但并非所有缺失值场景都适用,需结合 Excel 数据的实际情况选择:
处理 Excel 导入数据时,建议遵循 “查→判→删 / 填” 的流程:
通过合理使用dropna
,能有效净化 Excel 导入的数据,为后续的统计分析、可视化、建模打下坚实基础 —— 这也是数据处理中 “去伪存真” 的关键一步。
Excel 导入数据含缺失值?详解 dropna 函数的功能与实战应用 在用 Python(如 pandas 库)处理 Excel 数据时,“缺失值” 是高频 ...
2025-09-16深入解析卡方检验与 t 检验:差异、适用场景与实践应用 在数据分析与统计学领域,假设检验是验证研究假设、判断数据差异是否 “ ...
2025-09-16CDA 数据分析师:掌控表格结构数据全功能周期的专业操盘手 表格结构数据(以 “行 - 列” 存储的结构化数据,如 Excel 表、数据 ...
2025-09-16MySQL 执行计划中 rows 数量的准确性解析:原理、影响因素与优化 在 MySQL SQL 调优中,EXPLAIN执行计划是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 对象的 text 与 content:区别、场景与实践指南 在 Python 进行 HTTP 网络请求开发时(如使用requests ...
2025-09-15CDA 数据分析师:激活表格结构数据价值的核心操盘手 表格结构数据(如 Excel 表格、数据库表)是企业最基础、最核心的数据形态 ...
2025-09-15Python HTTP 请求工具对比:urllib.request 与 requests 的核心差异与选择指南 在 Python 处理 HTTP 请求(如接口调用、数据爬取 ...
2025-09-12解决 pd.read_csv 读取长浮点数据的科学计数法问题 为帮助 Python 数据从业者解决pd.read_csv读取长浮点数据时的科学计数法问题 ...
2025-09-12CDA 数据分析师:业务数据分析步骤的落地者与价值优化者 业务数据分析是企业解决日常运营问题、提升执行效率的核心手段,其价值 ...
2025-09-12用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08