当前位置: 首页 > article >正文

Pandas 操作指南(三):数据清洗与预处理

数据能够进入 DataFrame并不意味着它已经适合直接分析。在实际工作中原始数据常常存在缺失、重复、格式混乱、类型不当等问题。若不先处理这些问题后续统计结果就可能失真筛选逻辑也可能出错。因此数据清洗Data Cleaning的任务是把“可以读取的数据”进一步整理为“可以分析的数据”。本文继续围绕学生成绩数据说明如何识别并处理缺失内容、替换无效值、修正数据类型、处理重复记录以及统一时间与数字格式。为体现清洗过程本篇使用一张刻意保留若干问题的数据表import pandas as pd raw_scores pd.DataFrame([ {学号: S001, 姓名: 张三, 班级: C01, 考试日期: 2025/09/01, 语文: 88, 数学: 92, 英语: 85}, {学号: S002, 姓名: 李四, 班级: C01, 考试日期: 2025-09-01, 语文: None, 数学: 81, 英语: 79}, {学号: S003, 姓名: 王五, 班级: C02, 考试日期: 2025-09-01, 语文: 90, 数学: 缺考, 英语: 93}, {学号: S004, 姓名: 赵六, 班级: C02, 考试日期: 2025.09.01, 语文: 85, 数学: 89, 英语: 88}, {学号: S004, 姓名: 赵六, 班级: C02, 考试日期: 2025.09.01, 语文: 85, 数学: 89, 英语: 88}, {学号: S005, 姓名: 孙七, 班级: C03, 考试日期: 2025-09-01, 语文: 91, 数学: 95, 英语: 90}, {学号: S006, 姓名: 周八, 班级: C03, 考试日期: 2025-09-01, 语文: 78, 数学: 84, 英语: 80 }]) print(raw_scores)一、为什么要进行数据清洗原始数据的问题通常不在于“读不出来”而在于“读出来之后仍不规范”。例如• 某些值缺失• 某些字段格式不统一• 数字被读成文本• 同一记录重复出现• 某些无效值混入正常数据这些问题会直接影响后续分析。例如若“数学”列中出现“缺考”这样的文本则该列很难直接参与数值运算若“考试日期”列格式不统一则时间处理会变得困难若同一学生记录重复出现则统计人数和平均分都可能偏离实际情况。因此数据清洗的目标不是改变数据本身的业务含义而是将数据整理为结构一致、类型合理、格式规范、能够参与分析的状态。二、识别并处理缺失内容缺失值Missing Value是数据处理中最常见的问题之一。在 Pandas 中缺失值通常表现为 NaN 或 None。1、识别缺失值可使用 isna() 检查缺失情况print(raw_scores.isna())若只想查看各列缺失值数量print(raw_scores.isna().sum())2、删除缺失记录若某些缺失记录不能保留可使用 dropna()print(raw_scores.dropna())dropna() 默认按行删除即只要某一行存在缺失值就删除该行。也可指定只要某几列缺失就删除例如print(raw_scores.dropna(subset[语文]))3、填补缺失值若缺失值不宜直接删除可使用 fillna()scores raw_scores.copy()scores[语文] scores[语文].fillna(scores[语文].mean())print(scores)这里用语文平均分填补了缺失值。在实际工作中填补方式应依据业务背景决定例如填入均值、中位数、固定值或“未知”等标签。三、替换无效值与异常内容缺失值之外还有一类常见问题值存在但并不有效。例如“数学”列中的“缺考”并不是标准数值却占据了一个位置。1、使用替换无效内容可以使用 replace()scores raw_scores.copy()scores[数学] scores[数学].replace(缺考, pd.NA)print(scores)这一步的作用是先把“缺考”统一处理为缺失状态便于后续继续清洗。2、替换空格、特殊字符等内容例如英语列中存在 80 这样的值虽然看起来像数字但含有多余空格scores[英语] scores[英语].astype(str).str.strip()若某列存在统一但无效的占位值例如 暂无, -, 未知也可以用相同方式替换。替换的核心目的是把“表面不同、语义相近”的内容统一起来。否则后续类型转换和统计操作会受到干扰。四、修正不合适的数据类型数据类型Data Type是否合理直接决定后续能否正确计算。1、查看当前类型查看 dtypes 属性print(raw_scores.dtypes)你会发现“数学”“英语”“考试日期”等列很可能不是理想类型。2、显式类型转换当数据已经比较规范时可以使用 astype() 进行显式类型转换。例如可将整数列转为浮点型或将分类字段转为字符串类型scores raw_scores.copy()scores[英语] scores[英语].astype(float)要注意的是astype() 更适合较干净的数据。若数据中仍存在异常内容astype() 往往不如 pd.to_numeric() 或 pd.to_datetime() 稳妥。3、转换为数值类型对于数值列可使用 pd.to_numeric()scores raw_scores.copy()scores[数学] pd.to_numeric(scores[数学], errorscoerce)scores[英语] pd.to_numeric(scores[英语], errorscoerce)print(scores.dtypes)这里的 errorscoerce 表示无法转换的值统一转为缺失值。4、转换为日期时间类型对于日期列可使用 pd.to_datetime()scores[考试日期] pd.to_datetime(scores[考试日期], formatmixed, errorscoerce)print(scores.dtypes)formatmixed 表示自动识别混合格式能够被识别的字符串会被转换为日期时间类型无法识别的值会在 errorscoerce 下转为缺失值 NaT。五、处理重复数据重复记录Duplicate Data会使统计结果发生偏差因此必须检查。1、识别重复记录使用 duplicated()print(raw_scores.duplicated())若只想看重复数量print(raw_scores.duplicated().sum())2、删除重复记录使用 drop_duplicates()scores raw_scores.drop_duplicates()print(scores)3、按关键字段判断重复有时整行不完全相同但某个业务主键相同此时可以按关键字段处理scores raw_scores.drop_duplicates(subset[学号])print(scores)是否按整行去重还是按关键字段去重应依据业务含义决定。六、统一时间与数字格式原始数据中即使类型已经可用格式也可能仍不统一。1、统一时间格式经过 to_datetime() 转换后可以进一步使用 dt.strftime() 等格式化显示scores raw_scores.copy()scores[考试日期] pd.to_datetime(scores[考试日期], formatmixed, errorscoerce)scores[考试日期] scores[考试日期].dt.strftime(%Y/%m/%d)print(scores[考试日期])要注意的是.dt.strftime() 会将 datetime 类型转换回字符串类型这将失去日期计算能力。2、统一数字格式在完成数值类型转换后还可以进一步统一显示格式scores[数学] scores[数学].round(0).astype(Int64) # 四舍五入并转换类型scores[语文] scores[语文].round(1) # 保留1位小数需要注意round() 主要用于统一显示精度若列中存在缺失值结果列仍可能保持浮点型。类型统一解决的是“能否计算”的问题而格式统一更多解决的是“是否规范、是否便于展示和后续处理”的问题。七、整理表格顺序与显示结果完成缺失值、类型、重复值和格式处理后通常还需对表格做最后整理使其更适合阅读与分析。1、调整列顺序原始数据在读入 DataFrame 后列的排列顺序不一定符合阅读习惯也不一定适合后续分析。scores scores[[学号, 姓名, 班级, 考试日期, 语文, 数学, 英语]]print(scores)2、按列排序查看使用 sort_values()按“数学”成绩从高到低排序print(scores.sort_values(by数学, ascendingFalse))也可以按多列排序。比如先按“班级”升序排列在同一班级内部再按“数学”降序排列print(scores.sort_values(by[班级, 数学], ascending[True, False]))3、重置索引经过删除、筛选、排序等操作后DataFrame 的索引往往会变得不连续此时可使用 reset_index() 重置索引scores scores.reset_index(dropTrue)print(scores)dropTrue 表示丢弃原有索引不把它保留为新的一列。4、设置索引在某些情况下默认数字索引并不是最合适的表示方式。若某一列本身具有唯一标识作用也可以把它设为索引。例如可将“学号”设为索引scores scores.set_index(学号)print(scores)这样做后每一行都可通过学号直接定位表格会更像以“学号”为主键的数据表。需要注意的是设置索引后“学号”将不再作为普通数据列单独显示而是成为行标签的一部分。八、综合示例前文分别介绍了缺失值处理、无效值替换、类型修正、去重以及格式统一等方法。下面通过一个完整示例把这些步骤串联起来演示如何将一张“原始成绩表”整理为“可分析成绩表”。import pandas as pd raw_scores pd.DataFrame([ {学号: S001, 姓名: 张三, 班级: C01, 考试日期: 2025/09/01, 语文: 88, 数学: 92, 英语: 85}, {学号: S002, 姓名: 李四, 班级: C01, 考试日期: 2025-09-01, 语文: None, 数学: 81, 英语: 79}, {学号: S003, 姓名: 王五, 班级: C02, 考试日期: 2025-09-01, 语文: 90, 数学: 缺考, 英语: 93}, {学号: S004, 姓名: 赵六, 班级: C02, 考试日期: 2025.09.01, 语文: 85, 数学: 89, 英语: 88}, {学号: S004, 姓名: 赵六, 班级: C02, 考试日期: 2025.09.01, 语文: 85, 数学: 89, 英语: 88}, {学号: S005, 姓名: 孙七, 班级: C03, 考试日期: 2025-09-01, 语文: 91, 数学: 95, 英语: 90}, {学号: S006, 姓名: 周八, 班级: C03, 考试日期: 2025-09-01, 语文: 78, 数学: 84, 英语: 80 }]) # 复制原始数据避免直接修改原表scores raw_scores.copy() # 1. 删除重复记录scores scores.drop_duplicates() # 2. 将“缺考”替换为缺失值scores[数学] scores[数学].replace(缺考, pd.NA) # 3. 清理英语列中的空格scores[英语] scores[英语].astype(str).str.strip() # 4. 将语文、数学、英语转换为数值类型scores[语文] pd.to_numeric(scores[语文], errorscoerce)scores[数学] pd.to_numeric(scores[数学], errorscoerce)scores[英语] pd.to_numeric(scores[英语], errorscoerce) # 5. 统一考试日期类型scores[考试日期] pd.to_datetime(scores[考试日期], formatmixed, errorscoerce) # 6. 用语文平均分填补缺失值scores[语文] scores[语文].fillna(scores[语文].mean()) # 7. 调整列顺序scores scores[[学号, 姓名, 班级, 考试日期, 语文, 数学, 英语]] # 8. 按学号排序并重置索引scores scores.sort_values(by学号).reset_index(dropTrue) print(scores)print()print(scores.dtypes) 小结数据清洗的核心任务是把原始数据整理为结构一致、类型合理、格式规范、能够直接参与分析的数据。本文围绕学生成绩表依次介绍了缺失值处理、无效值替换、类型修正、重复记录处理、格式统一以及结果整理等常见方法。只有先完成清洗后续统计与分析才有可靠基础。延伸阅读《Pandas缺失值处理》“点赞有美意赞赏是鼓励”

相关文章:

Pandas 操作指南(三):数据清洗与预处理

数据能够进入 DataFrame,并不意味着它已经适合直接分析。在实际工作中,原始数据常常存在缺失、重复、格式混乱、类型不当等问题。若不先处理这些问题,后续统计结果就可能失真,筛选逻辑也可能出错。因此,数据清洗&#…...

Linux内存管理:malloc/free实现原理与优化

1. Linux内存管理基础概念在Linux系统中,内存管理是操作系统最核心的功能之一。应用程序通过malloc()和free()函数来动态申请和释放内存,这些操作最终都会通过系统调用与内核交互。理解这些底层机制对于开发高性能、稳定可靠的应用程序至关重要。1.1 堆内…...

策略路由选路进阶:用MQC实现双ISP链路智能负载均衡(附ENSP实验包)

企业级双ISP链路智能负载均衡实战:基于MQC的精细化流量调度 当企业网络同时接入电信和联通双ISP链路时,如何让关键业务流量自动选择最优路径?传统静态路由只能实现简单的链路备份,而基于MQC(Modular QoS CLI&#xff0…...

Linux系统下VMware虚拟机磁盘空间扩展实战:从40G到60G的详细步骤

Linux系统下VMware虚拟机磁盘空间扩展实战:从40G到60G的详细步骤 当你在Linux环境中使用VMware虚拟机时,磁盘空间不足可能是最令人头疼的问题之一。尤其是当根目录即将耗尽空间时,系统性能会急剧下降,甚至导致关键服务崩溃。作为一…...

Apache SeaTunnel 2.3.12 深度解析:Zeta 引擎优化与 SQL Transform 新特性实战

1. Zeta 引擎核心优化解析 这次 2.3.12 版本对 Zeta 引擎的改进可谓刀刀到肉,我实测下来最明显的提升就是 Checkpoint 监控现在可以精确到每个算子级别了。以前排查作业卡顿时经常要像无头苍蝇一样到处翻日志,现在通过 REST API 就能直接看到哪个算子拖慢…...

Gemini CLI 进阶实战:解锁AI自动化工作流的核心技巧

1. 从单点工具到自动化引擎:Gemini CLI的进阶定位 第一次接触Gemini CLI时,我像大多数开发者一样,只是把它当作一个普通的命令行工具——输入指令,获取AI生成结果。直到有次需要批量处理500份客户反馈,我才意识到它的真…...

PHP调用Workerman5.0实现一对一聊天

要实现一对一聊天功能,使用 Workerman 5.0 作为后端,前端可以使用 WebSocket 进行通信。以下是实现步骤和代码示例。1. 安装 Workerman首先,确保你已经安装了 Workerman。可以通过 Composer 安装:1composer require workerman/wor…...

ModelScope API 新手必看:从申请Key到调用Qwen3-32B模型的完整流程

ModelScope API 新手必看:从申请Key到调用Qwen3-32B模型的完整流程 第一次接触ModelScope API时,我花了整整两天时间才搞明白整个流程。不是文档不够详细,而是实际操作中总会遇到各种意想不到的小问题。本文将带你避开这些坑,从零…...

PHP中内存溢出问题的分析与解决详解

HP作为一种广泛使用的服务器端脚本语言,在处理大量数据或复杂任务时,常常会遇到内存溢出的问题。内存溢出不仅会导致程序崩溃,还可能影响服务器的稳定性。本文将探讨解决PHP内存溢出问题的最佳实践,并通过代码示例进行详细说明。1…...

从“冷肿瘤”到“热肿瘤”:CAF亚型如何影响免疫治疗疗效?给临床医生的解读

解码CAF亚型:如何通过肿瘤微环境优化免疫治疗策略 在肿瘤免疫治疗的时代,我们常常困惑于为什么某些患者对PD-1/PD-L1抑制剂反应良好,而另一些则完全无响应。越来越多的证据表明,肿瘤微环境(TME)中的癌症相关成纤维细胞(CAF)亚型可…...

PHP跨文件传递参数的8种常见方法

以下是 PHP 中跨文件传递参数的 8 种常见方法,按场景和安全性分类整理,附详细说明和示例代码: 一、超全局变量(适合请求间数据共享) 1. $_GET / $_POST 用途:通过 URL 或表单提交传递参数(客户…...

别再傻傻分不清了!一文搞懂手机里的陀螺仪、加速度计和磁强计到底在干啥

别再傻傻分不清了!一文搞懂手机里的陀螺仪、加速度计和磁强计到底在干啥 每次打开手机导航,那个小箭头总能精准指向你要去的方向;玩赛车游戏时,轻轻倾斜屏幕就能控制车辆转向;甚至每天走的步数,都能被智能手…...

无缝多人游戏开发:ServerTravel实现跨关卡Actor数据持久化

1. ServerTravel机制的核心作用 在多人联机游戏开发中,ServerTravel是服务器端控制关卡切换的核心机制。想象一下你和朋友玩开放世界游戏时,从城镇进入地下城的场景切换过程。传统方式会导致所有玩家断开重连,而ServerTravel能让所有客户端保…...

全差分运放设计实战:如何用CMFB解决高速电路中的共模问题?

全差分运放设计实战:CMFB在高速电路中的共模控制艺术 在模拟集成电路设计中,全差分运放因其优异的抗噪声性能和更高的信号摆幅而备受青睐。然而,这种架构面临着一个独特的挑战——共模电平的稳定控制。当信号频率进入GHz范围时,传…...

从无人机照片到3D模型:我用Metashape(原PhotoScan)完整复刻了一个古建筑

从无人机照片到3D模型:我用Metashape完整复刻古建筑的实战记录 去年春天,我在山西考察一座明代戏台时,被其精巧的斗拱结构深深吸引。这座木构建筑历经六百年风雨,细节之复杂让传统测绘束手无策。当时我随身带着大疆Mavic 3无人机&…...

遥感影像语义分割数据集全景解析:从经典基准到前沿应用

1. 遥感影像语义分割入门指南 第一次接触遥感影像语义分割时,我被那些五彩斑斓的土地分类图深深吸引。简单来说,这就像给地球表面拍X光片——不同颜色代表不同地物类型,比如蓝色是水域,绿色是植被,红色是建筑。这种技术…...

创新BLDC无刷电机无霍尔无感控制方案:采用脉冲注入法结合持续注入、低速启动动态注入与电感法、...

脉冲注入法,持续注入,启动低速运行过程中注入,电感法,ipd,力矩保持,无霍尔无感方案,媲美有霍尔效果。bldc控制器方案,无刷电机。 。提供源码,原理图。一、代码核心定位 本…...

千问3.5-27B长文本优化:OpenClaw处理超长PDF的技术方案

千问3.5-27B长文本优化:OpenClaw处理超长PDF的技术方案 1. 为什么需要处理超长PDF? 作为一名经常需要阅读大量学术文献的研究者,我长期被PDF文档处理效率低下所困扰。传统方法要么受限于模型上下文窗口长度,要么需要人工反复调整…...

29、如何判断一个元素是否在可视区域中?

这是前端面试里很常见的一道题,通常会和这些场景一起出现:图片懒加载列表曝光统计无限滚动吸顶效果动画触发埋点上报如果你只回答“用 getBoundingClientRect() 判断”,其实只能算基础。 如果你能再讲到:什么叫可视区域如何精确判…...

28、什么是防抖和节流?有什么区别?如何实现?

这是前端面试里的高频题,几乎每个做过交互、性能优化的人都会被问到。 如果你只是回答“防抖就是延迟执行,节流就是固定时间执行一次”,只能算及格。 如果你能讲清楚: 概念区别适用场景实现方式进阶参数面试表达方式 那这题会答…...

27、AJAX 原理是什么?如何实现?

这个问题非常经典,面试里经常会从 “AJAX 是什么” 一路问到 “底层原理、实现方式、和 fetch 区别、跨域、异步流程、错误处理” 。 你如果答得有层次,会显得基础很扎实。一、AJAX 是什么?AJAX Asynchronous JavaScript and XML 即&#xf…...

OpenClaw技能开发指南:为Phi-3-vision-128k-instruct定制多模态自动化流程

OpenClaw技能开发指南:为Phi-3-vision-128k-instruct定制多模态自动化流程 1. 为什么需要为特定模型开发OpenClaw技能? 去年夏天,我接手了一个数据分析项目,需要每周手动从上百张仪表盘截图里提取数字并整理成Excel报表。这种重…...

PHP如何优化冗余代码

在编程中,代码的冗余是一个常见的问题,不仅增加了代码的复杂性,还降低了可读性和可维护性。对于PHP这样的语言来说,减少代码冗余同样重要,尤其是当项目规模变得越来越大时。本文将探讨如何有效地减少PHP代码的冗余&…...

OpenClaw+Phi-3-vision-128k-instruct实战:电商产品图自动生成描述文案

OpenClawPhi-3-vision-128k-instruct实战:电商产品图自动生成描述文案 1. 为什么选择这个技术组合 去年双十一前,我负责的电商项目需要为300多款新品生成营销文案。传统做法是设计师导出图片后,由文案组手动撰写描述,平均每款产…...

PHP使用OCR技术实现识别图片中的文字

在日常开发中,我们常常会遇到需要从图片中提取文字的需求,例如处理扫描件中的文字、验证码识别或者实现文档数字化管理。OCR(Optical Character Recognition,光学字符识别)技术可以帮助我们快速完成这项任务。今天就来…...

PHP使用互斥锁确保代码的线程安全的操作示例

代码的线程安全在没有互斥机制的情况下,多个进程或线程可能会同时修改同一个资源,导致数据不一致的问题。例如,在一个简单的库存扣减操作中:12345678// 假设库存为 10$stock 10;// 多个请求同时到达,每个请求都扣减库…...

OpenClaw模型热切换:Qwen3-14B与本地小模型协同工作方案

OpenClaw模型热切换:Qwen3-14B与本地小模型协同工作方案 1. 为什么需要模型热切换? 去年我在处理一个自动化报表生成项目时,发现OpenClaw调用大模型完成简单表格整理任务也要消耗大量Token。这就像用航天飞机送快递——不是不能做&#xff…...

百川2-13B-4bits+OpenClaw:智能邮件分类回复系统个人版

百川2-13B-4bitsOpenClaw:智能邮件分类回复系统个人版 1. 为什么需要智能邮件助手 每天早晨打开邮箱,看到堆积如山的未读邮件总是让人头皮发麻。作为一个小型工作室的负责人,我经常需要处理客户咨询、合作邀约、账单通知等各种类型的邮件。…...

OpenClaw技能组合技:Phi-3-mini-128k-instruct串联多工具完成复杂任务

OpenClaw技能组合技:Phi-3-mini-128k-instruct串联多工具完成复杂任务 1. 为什么需要技能组合技? 上周我需要完成一个周期性市场分析报告,传统流程需要手动执行四个步骤:从行业网站抓取最新数据、用Python脚本清洗分析、用Excel…...

OpenClaw自动化测试:Qwen3.5-9B生成与执行Python脚本

OpenClaw自动化测试:Qwen3.5-9B生成与执行Python脚本 1. 为什么选择OpenClawQwen3.5做代码自动化 去年我在处理一个数据清洗项目时,每天要反复执行十几个相似的Python脚本。当我第一次看到OpenClaw的"自然语言生成代码自动执行"演示时&#…...