【Pandas】pandas DataFrame dropna
Pandas2.2 DataFrame
Missing data handling
方法 | 描述 |
---|---|
DataFrame.fillna([value, method, axis, …]) | 用于填充 DataFrame 中的缺失值(NaN) |
DataFrame.backfill(*[, axis, inplace, …]) | 用于**使用后向填充(即“下一个有效观测值”)来填补缺失值(NaN)**的方法 |
DataFrame.bfill(*[, axis, inplace, limit, …]) | 用于**使用后向填充(即“下一个有效观测值”)来填补缺失值(NaN)**的方法 |
DataFrame.dropna(*[, axis, how, thresh, …]) | 用于删除包含缺失值(NaN)的行或列的方法 |
pandas.DataFrame.dropna()
pandas.DataFrame.dropna()
是一个用于删除包含缺失值(NaN)的行或列的方法。它是数据清洗中最常用的方法之一,适用于去除不完整数据、准备模型输入、生成干净数据集等场景。
📌 方法签名
DataFrame.dropna(*, axis=0, how=<no_default>, thresh=<no_default>, subset=None, inplace=False, ignore_index=False)
🔧 参数说明
参数 | 类型 | 说明 |
---|---|---|
axis | {0/'index', 1/'columns'} ,默认 0 | 删除方向: - 0 :按行删除- 1 :按列删除 |
how | {'any', 'all'} ,默认 'any' | 判断是否删除的标准: - 'any' :只要有一个 NaN 就删除- 'all' :整行/整列全为 NaN 才删除 |
thresh | int ,可选 | 非空值数量阈值,若某行/列非空值个数 < thresh 则删除 |
subset | list-like,可选 | 指定检查哪些列或行(取决于 axis )中的 NaN |
inplace | bool ,默认 False | 是否在原对象上修改 |
ignore_index | bool ,默认 False | 是否重置索引(从 0 开始) |
✅ 返回值
- 返回一个新的
DataFrame
,其中满足条件的行或列被删除; - 如果
inplace=True
,则返回None
,原始数据被修改。
🧪 示例代码及结果
示例 1:基本用法 - 删除含有任何 NaN 的行(默认)
import pandas as pd
import numpy as npdf = pd.DataFrame({'A': [1, 2, np.nan, 4],'B': [5, np.nan, np.nan, 8],'C': [9, 10, 11, 12]
})print("Original DataFrame:")
print(df)# 删除包含任何 NaN 的行
df_cleaned = df.dropna()
print("\nAfter dropna():")
print(df_cleaned)
输出结果:
Original DataFrame:A B C
0 1.0 5.0 9
1 2.0 NaN 10
2 NaN NaN 11
3 4.0 8.0 12After dropna():A B C
0 1.0 5.0 9
3 4.0 8.0 12
示例 2:设置 how='all'
- 只删除全为 NaN 的行
# 构造一行全为 NaN 的数据
df_with_all_nan = pd.DataFrame({'A': [1, np.nan, np.nan, 4],'B': [5, np.nan, np.nan, 8],'C': [9, np.nan, np.nan, 12]
})print("Original DataFrame (with all-NaN row):")
print(df_with_all_nan)# 只删除全为 NaN 的行
df_how_all = df_with_all_nan.dropna(how='all')
print("\nAfter dropna(how='all'):")
print(df_how_all)
输出结果:
Original DataFrame (with all-NaN row):A B C
0 1.0 5.0 9.0
1 NaN NaN NaN
2 NaN NaN NaN
3 4.0 8.0 12.0After dropna(how='all'):A B C
0 1.0 5.0 9.0
3 4.0 8.0 12.0
示例 3:使用 thresh
参数 - 控制最少非空值数量
# 设置每行至少要有 2 个非空值才保留
df_thresh = df.dropna(thresh=2)
print("\nAfter dropna(thresh=2):")
print(df_thresh)
输出结果:
After dropna(thresh=2):A B C
0 1.0 5.0 9
1 2.0 NaN 10
3 4.0 8.0 12
第二行只有一列非空(
C=11
),所以被删除。
示例 4:指定 subset
- 仅检查特定列是否有 NaN
# 只检查 'A' 和 'B' 列是否有 NaN
df_subset = df.dropna(subset=['A', 'B'])
print("\nAfter dropna(subset=['A', 'B']):")
print(df_subset)
输出结果:
After dropna(subset=['A', 'B']):A B C
0 1.0 5.0 9
3 4.0 8.0 12
虽然第三行
C
列没有问题,但因为A
或B
有 NaN,所以也被删除。
示例 5:按列删除(axis=1)
# 构造一些列含 NaN
df_col = pd.DataFrame({'X': [1, 2, 3],'Y': [np.nan, np.nan, np.nan],'Z': [7, np.nan, 9]
})print("Original Column-wise DataFrame:")
print(df_col)# 删除全为 NaN 的列
df_col_drop = df_col.dropna(axis=1, how='all')
print("\nAfter dropna(axis=1, how='all'):")
print(df_col_drop)
输出结果:
Original Column-wise DataFrame:X Y Z
0 1 NaN 7.0
1 2 NaN NaN
2 3 NaN 9.0After dropna(axis=1, how='all'):X Z
0 1 7.0
1 2 NaN
2 3 9.0
列
Y
全为 NaN,因此被删除。
示例 6:使用 ignore_index=True
重置索引
# 删除后重置索引
df_reset = df.dropna(ignore_index=True)
print("\nAfter dropna(ignore_index=True):")
print(df_reset)
输出结果:
After dropna(ignore_index=True):A B C
0 1.0 5.0 9
1 4.0 8.0 12
示例 7:原地修改(inplace=True)
# 原地修改
df.dropna(inplace=True)
print("\nIn-place dropna (modified original):")
print(df)
输出结果(基于示例 1 的数据):
In-place dropna (modified original):A B C
0 1.0 5.0 9
3 4.0 8.0 12
🧠 应用场景
- 数据清洗:去除不完整记录;
- 模型训练前预处理:确保输入数据无缺失;
- 统计分析:避免因缺失值影响计算结果;
- 可视化前清理数据:提高图表准确性;
- 链式调用中快速过滤:如
df.dropna().describe()
。
⚠️ 注意事项
- 默认删除行(
axis=0
),如需删除列请设置axis=1
; - 使用
how='any'
更严格,how='all'
更宽松; thresh
提供更灵活的控制;subset
可限制检查范围,提升效率;ignore_index=True
可避免后续操作受索引影响;- 不会自动排序索引,建议结合
reset_index()
使用; - 推荐先查看缺失情况(如
isna().sum()
)再决定如何处理。
✅ 总结对比
参数 | 功能 |
---|---|
how='any' | 只要有一个 NaN 就删除 |
how='all' | 整行/列都为 NaN 才删除 |
thresh=N | 至少 N 个非空值才保留 |
subset=[cols] | 仅检查指定列/行中的 NaN |
axis=1 | 删除列而不是行 |
ignore_index=True | 删除后重置索引 |
你可以根据具体需求选择最适合的参数组合来清理缺失值。
相关文章:
【Pandas】pandas DataFrame dropna
Pandas2.2 DataFrame Missing data handling 方法描述DataFrame.fillna([value, method, axis, …])用于填充 DataFrame 中的缺失值(NaN)DataFrame.backfill(*[, axis, inplace, …])用于**使用后向填充(即“下一个有效观测值”)…...

基于django+vue的健身房管理系统-vue
开发语言:Python框架:djangoPython版本:python3.8数据库:mysql 5.7数据库工具:Navicat12开发软件:PyCharm 系统展示 会员信息管理 员工信息管理 会员卡类型管理 健身项目管理 会员卡管理 摘要 健身房管理…...

Yolo11改进策略:Block改进|FCM,特征互补映射模块|AAAI 2025|即插即用
1 论文信息 FBRT-YOLO(Faster and Better for Real-Time Aerial Image Detection)是由北京理工大学团队提出的专用于航拍图像实时目标检测的创新框架,发表于AAAI 2025。论文针对航拍场景中小目标检测的核心难题展开研究,重点解决…...
【系统架构设计师-2025上半年真题】综合知识-参考答案及部分详解(回忆版)
更多内容请见: 备考系统架构设计师-专栏介绍和目录 文章目录 【第1题】【第2题】【第3题】【第4题】【第5题】【第6题】【第7题】【第8题】【第9题】【第10题】【第11题】【第12题】【第13题】【第14题】【第15题】【第16题】【第17题】【第18题】【第19题】【第20~21题】【第…...

简单聊下阿里云DNS劫持事件
阿里云域名被DNS劫持事件 事件总结 根据ICANN规则,域名注册商(Verisign)认定aliyuncs.com域名下的部分网站被用于非法活动(如传播恶意软件);顶级域名DNS服务器将aliyuncs.com域名的DNS记录统一解析到shado…...
LTR-381RGB-01RGB+环境光检测应用场景及客户类型主要有哪些?
RGB环境光检测 功能,在应用场景及客户类型: 1. 可应用的儿童玩具类型 (1) 智能互动玩具 功能:通过检测环境光或物体颜色触发互动(如颜色识别积木、光感音乐盒)。 客户参考: LEGO(乐高&#x…...

循环语句之while
While语句包括一个循环条件和一段代码块,只要条件为真,就不断 循环执行代码块。 1 2 3 while (条件) { 语句 ; } var i 0; while (i < 100) {console.log(i 当前为: i); i i 1; } 下面的例子是一个无限循环,因…...

机器学习复习3--模型评估
误差与过拟合 我们将学习器对样本的实际预测结果与样本的真实值之间的差异称为:误差(error)。 误差定义: ①在训练集上的误差称为训练误差(training error)或经验误差(empirical error&#x…...

联邦学习带宽资源分配
带宽资源分配是指在网络中如何合理分配有限的带宽资源,以满足各个通信任务和用户的需求,尤其是在多用户共享带宽的情况下,如何确保各个设备或用户的通信需求得到高效且公平的满足。带宽是网络中的一个重要资源,通常指的是单位时间…...

今日行情明日机会——20250609
上证指数放量上涨,接近3400点,个股涨多跌少。 深证放量上涨,但有个小上影线,相对上证走势更弱。 2025年6月9日涨停股主要行业方向分析(基于最新图片数据) 1. 医药(11家涨停) 代表标…...

GC1808:高性能音频ADC的卓越之选
在音频处理领域,高质量的音频模数转换器(ADC)是实现精准音频数字化的关键。GC1808,一款96kHz、24bit立体声音频ADC,以其卓越的性能和高性价比脱颖而出,成为众多音频设备制造商的理想选择。 GC1808集成了64倍…...

生产管理系统开发:专业软件开发公司的实践与思考
生产管理系统开发的关键点 在当前制造业智能化升级的转型背景下,生产管理系统开发正逐步成为企业优化生产流程的重要技术手段。不同行业、不同规模的企业在推进生产管理数字化转型过程中,面临的挑战存在显著差异。本文结合具体实践案例,分析…...

VASP软件在第一性原理计算中的应用-测试GO
VASP软件在第一性原理计算中的应用 VASP是由维也纳大学Hafner小组开发的一款功能强大的第一性原理计算软件,广泛应用于材料科学、凝聚态物理、化学和纳米技术等领域。 VASP的核心功能与应用 1. 电子结构计算 VASP最突出的功能是进行高精度的电子结构计算ÿ…...

Centos 7 服务器部署多网站
一、准备工作 安装 Apache bash sudo yum install httpd -y sudo systemctl start httpd sudo systemctl enable httpd创建网站目录 假设部署 2 个网站,目录结构如下: bash sudo mkdir -p /var/www/site1/html sudo mkdir -p /var/www/site2/html添加测试…...

从数据报表到决策大脑:AI重构电商决策链条
在传统电商运营中,决策链条往往止步于“数据报表层”:BI工具整合历史数据,生成滞后一周甚至更久的销售分析,运营团队凭经验预判需求。当爆款突然断货、促销库存积压时,企业才惊觉标准化BI的决策时差正成为增长瓶颈。 一…...
在ubuntu等linux系统上申请https证书
使用 Certbot 自动申请 安装 Certbot Certbot 是 Let’s Encrypt 官方推荐的自动化工具,支持多种操作系统和服务器环境。 在 Ubuntu/Debian 上: sudo apt update sudo apt install certbot申请证书 纯手动方式(不自动配置)&…...

(12)-Fiddler抓包-Fiddler设置IOS手机抓包
1.简介 Fiddler不但能截获各种浏览器发出的 HTTP 请求,也可以截获各种智能手机发出的HTTP/ HTTPS 请求。 Fiddler 能捕获Android 和 Windows Phone 等设备发出的 HTTP/HTTPS 请求。同理也可以截获iOS设备发出的请求,比如 iPhone、iPad 和 MacBook 等苹…...
【R语言编程——数据调用】
这里写自定义目录标题 可用库及数据集外部数据导入方法查看数据集信息 在R语言中,有多个库支持调用内置数据集或外部数据,包括studentdata等教学或示例数据集。以下是常见的库和方法: 可用库及数据集 openintro库 该库包含多个教学数据集&a…...

第2课 SiC MOSFET与 Si IGBT 静态特性对比
2.1 输出特性对比 2.2 转移特性对比 2.1 输出特性对比 器件的输出特性描述了当温度和栅源电压(栅射电压)为某一具体数值时,漏极电流(集电极电流...

MCP和Function Calling
MCP MCP(Model Context Protocol,模型上下文协议) ,2024年11月底,由 Anthropic 推出的一种开放标准,旨在统一大模型与外部数据源和工具之间的通信协议。MCP 的主要目的在于解决当前 AI 模型因数据孤岛限制而…...
软件工程教学评价
王海林老师您好。 您的《软件工程》课程成功地将宏观的理论与具体的实践相结合。上半学期的理论教学中,您通过丰富的实例,将“高内聚低耦合”、SOLID原则等抽象概念解释得十分透彻,让这些理论不再是停留在纸面的名词,而是可以指导…...

解密鸿蒙系统的隐私护城河:从权限动态管控到生物数据加密的全链路防护
摘要 本文以健康管理应用为例,展示鸿蒙系统如何通过细粒度权限控制、动态权限授予、数据隔离和加密存储四大核心机制,实现复杂场景下的用户隐私保护。我们将通过完整的权限请求流程和敏感数据处理代码,演示鸿蒙系统如何平衡功能需求与隐私安…...
前端打包工具简单介绍
前端打包工具简单介绍 一、Webpack 架构与插件机制 1. Webpack 架构核心组成 Entry(入口) 指定应用的起点文件,比如 src/index.js。 Module(模块) Webpack 把项目当作模块图,模块可以是 JS、CSS、图片等…...

SFTrack:面向警务无人机的自适应多目标跟踪算法——突破小尺度高速运动目标的追踪瓶颈
【导读】 本文针对无人机(UAV)视频中目标尺寸小、运动快导致的多目标跟踪难题,提出一种更简单高效的方法。核心创新在于从低置信度检测启动跟踪(贴合无人机场景特性),并改进传统外观匹配算法以关联此类检测…...

STM32 低功耗设计全攻略:PWR 模块原理 + 睡眠 / 停止 / 待机模式实战(串口 + 红外 + RTC 应用全解析)
文章目录 PWRPWR(电源控制模块)核心功能 电源框图上电复位和掉电复位可编程电压监测器低功耗模式模式选择睡眠模式停止模式待机模式 修改主频一、准备工作二、修改主频的核心步骤:宏定义配置三、程序流程:时钟配置函数解析四、注意…...

持续交付的进化:从DevOps到AI驱动的IT新动能
文章目录 一、持续交付的本质:从手动到自动的交付飞跃关键特性案例:电商平台的高效部署 二、持续交付的演进:从CI到AI驱动的未来发展历程 中国…...
Linux信号保存与处理机制详解
Linux信号的保存与处理涉及多个关键机制,以下是详细的总结: 1. 信号的保存 进程描述符(task_struct):每个进程的PCB中包含信号相关信息。 pending信号集:记录已到达但未处理的信号(未决信号&a…...

OpenHarmony标准系统-HDF框架之I2C驱动开发
文章目录 引言I2C基础知识概念和特性协议,四种信号组合 I2C调试手段硬件软件 HDF框架下的I2C设备驱动案例描述驱动Dispatch驱动读写 总结 引言 I2C基础知识 概念和特性 集成电路总线,由串网12C(1C、12C、Inter-Integrated Circuit BUS)行数据线SDA和串…...

LeetCode - 148. 排序链表
目录 题目 思路 基本情况检查 复杂度分析 执行示例 读者可能出的错误 正确的写法 题目 148. 排序链表 - 力扣(LeetCode) 思路 链表归并排序采用"分治"的策略,主要分为三个步骤: 分割:将链表从中间…...

多模态大语言模型arxiv论文略读(110)
CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving ➡️ 论文标题:CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving ➡️ 论文作者:Hidehisa Arai, Keita Miwa, Kento Sasaki, Yu Yamaguchi, …...