当前位置: 首页 > article >正文

09 数据预处理-缺失值处理

Python 数据分析入门一文搞懂缺失值处理附 Pandas 实战适合人群Python 初学者 / 数据分析入门 / 数据预处理学习者 / 教学案例分享在做数据分析时很多人第一步就想直接建模、直接出图、直接分析结果。但现实情况往往是数据根本没那么“干净”。你可能会遇到这些问题某些学生没有录入平时成绩某些考勤记录是空的某些字段一整列都有缺失数据表看起来完整实际上很多关键值都没填这类问题有一个统一的名字缺失值Missing Data本文将通过一个非常贴近教学场景的案例——学生成绩与考勤数据分析带你从 0 到 1 学会什么是缺失值为什么缺失值不能忽视缺失值常见处理方式有哪些如何使用Pandas检测、统计、删除和填充缺失值一、案例引入学生数据为什么不能直接分析假设我们拿到一张“学生成绩与考勤表”数据如下importpandasaspdimportnumpyasnp dfpd.DataFrame({姓名:[张三,李四,王五,赵六,钱七],平时成绩:[85,90,np.nan,78,88],期末成绩:[92,np.nan,76,80,91],考勤次数:[20,18,19,np.nan,20],是否补考:[否,否,是,否,np.nan]})print(df)输出结果如下姓名 平时成绩 期末成绩 考勤次数 是否补考0张三85.092.020.0否1李四90.0NaN18.0否2王五 NaN76.019.0是3赵六78.080.0NaN 否4钱七88.091.020.0NaN这时候你会发现王五没有平时成绩李四没有期末成绩赵六没有考勤次数钱七没有“是否补考”信息问题来了这些空值要不要管可以直接删掉吗能不能补上用什么方法补最合理这就是缺失值处理要解决的问题。二、什么是缺失值缺失值就是数据中本来应该有值但实际上没有记录下来的部分。比如成绩没录入信息没填写设备采集失败数据传输丢失因与其他数据不一致而被删除在真实数据中缺失值是非常常见的。现实世界中的原始数据往往是不完整的还可能同时存在噪声和不一致问题 [2]。三、为什么缺失值不能直接忽略很多初学者看到空值第一反应是“先不管后面再说。”但这样做通常会出问题。1影响统计结果比如你计算平均分时如果数据里有缺失值结果可能不准确或者根本算不出来。2影响建模效果很多机器学习算法不能直接处理缺失值遇到空值会报错。3影响业务判断如果某个学生没有期末成绩你直接把他算进整体分析结论可能失真。所以做数据分析之前先处理缺失值几乎是必经步骤。四、缺失值常见处理方法有哪些在实际分析中缺失值并不是只有一种处理方式。常见方法包括 [2]忽略元组人工填写缺失值使用一个全局常量填充缺失值使用属性的中心度量如均值或中位数填充使用与给定元组同一类样本的均值或中位数填充使用最可能的值填充下面我们用更好理解的话解释一下。1删除缺失值所在记录如果某一行数据缺失太多而且这条记录本身价值不大可以直接删除。例如某条学生记录大部分字段都是空的某条记录关键字段缺失无法补全优点简单直接缺点可能丢失信息数据量本来就不大时不建议大量删除2使用固定值填充比如把空值统一填成0“未知”“未填写”适合类别型字段需要明确标记“缺失”状态的场景例如是否补考未知3使用均值或中位数填充这是最常见的一类方法尤其适合数值型数据。例如平时成绩缺失可以用全班平均成绩填补如果数据有异常值优先考虑中位数适合数值型字段整体分布相对稳定的数据4按类别分组后填充比如同一个班级的学生使用本班平均分填补同一个专业的学生使用本专业平均值填补这种方法通常比“全局平均值”更合理因为它考虑了群体差异 [2]。5使用最可能值填充这种方式一般更偏机器学习例如根据其他字段推断最可能的值。对于初学者来说可以先理解为不是随便补而是根据已有信息做“更合理的估计”。五、Pandas 中怎么检测缺失值在Pandas里最常用的缺失值检测方法就是df.isnull()它会返回一个布尔表True表示缺失False表示不缺失示例代码print(df.isnull())如果你只想统计每一列缺了多少个值可以这样写print(df.isnull().sum())输出结果会更直观例如姓名0平时成绩1期末成绩1考勤次数1是否补考1dtype:int64这一步非常重要因为你要先知道缺失值在哪些列缺了多少严不严重六、快速查看数据整体情况info()很常用除了isnull()还有一个非常高频的方法df.info()它可以帮助你快速看到总行数各列非空数量数据类型这在做数据预处理时特别实用因为它能让你快速判断哪些列缺失严重哪些列是数值型哪些列是类别型示例代码print(df.info())七、如何删除缺失值如果某些记录缺失严重或者你判断这条记录没有保留价值可以使用df.dropna()示例1删除包含缺失值的整行df_dropdf.dropna()print(df_drop)这种写法会把只要有空值的行全部删除。示例2只删除某些关键字段为空的记录比如我们认为“期末成绩”非常关键缺了就没法分析df_drop_scoredf.dropna(subset[期末成绩])print(df_drop_score)这种方式比“全删”更灵活也更符合实际业务。八、如何填充缺失值如果不适合删除就可以考虑填充。Pandas中最常用的方法是df.fillna()1用固定值填充比如把“是否补考”的空值补成“未知”df[是否补考]df[是否补考].fillna(未知)2用均值填充比如“平时成绩”缺了可以用这一列均值补df[平时成绩]df[平时成绩].fillna(df[平时成绩].mean())3用中位数填充如果担心极端值影响就可以用中位数df[期末成绩]df[期末成绩].fillna(df[期末成绩].median())4用众数填充类别型字段常常使用众数填充df[是否补考]df[是否补考].fillna(df[是否补考].mode()[0])九、完整代码缺失值检测 删除 填充下面给出一份完整代码复制即可运行。importpandasaspdimportnumpyasnp# 1. 构造数据dfpd.DataFrame({姓名:[张三,李四,王五,赵六,钱七],平时成绩:[85,90,np.nan,78,88],期末成绩:[92,np.nan,76,80,91],考勤次数:[20,18,19,np.nan,20],是否补考:[否,否,是,否,np.nan]})print( 原始数据 )print(df)# 2. 检测缺失值print(\n 缺失值布尔表 )print(df.isnull())print(\n 各列缺失值统计 )print(df.isnull().sum())print(\n 数据整体信息 )print(df.info())# 3. 删除缺失值示例print(\n 删除所有含缺失值的记录 )print(df.dropna())# 4. 填充缺失值df_filleddf.copy()# 数值型均值 / 中位数填充df_filled[平时成绩]df_filled[平时成绩].fillna(df_filled[平时成绩].mean())df_filled[期末成绩]df_filled[期末成绩].fillna(df_filled[期末成绩].median())df_filled[考勤次数]df_filled[考勤次数].fillna(df_filled[考勤次数].mean())# 类别型固定值填充df_filled[是否补考]df_filled[是否补考].fillna(未知)print(\n 填充后的数据 )print(df_filled)十、实际处理时怎么选方法这个问题非常关键。因为缺失值处理不是机械操作不是所有空值都“直接删掉”或者“统一填 0”。一个简单判断思路情况1缺失比例很少且记录不重要可以考虑删除。情况2数值型字段缺失优先考虑均值中位数情况3类别型字段缺失优先考虑众数“未知”“未填写”情况4数据和业务关系明显优先考虑按类别分组填充而不是全局统一填充。比如按班级按专业按课程类型十一、最容易踩的坑坑1一看到空值就全部删除这很常见但不一定合理。如果数据量本来就不大删除太多会导致样本严重减少。坑2所有缺失值都用 0 填这通常不推荐。因为 0 不一定代表“没有”有时它会引入新的误差。坑3数值型和类别型字段用同一种方式处理这是不对的。数值型更适合均值 / 中位数类别型更适合众数 / 固定标签坑4只会处理不会解释数据预处理不仅是“把代码跑通”还要能解释为什么这样填为什么这条删掉这种处理会不会影响结果这才是真正的数据分析思维。十二、这部分知识在后续学习中有什么用缺失值处理是数据预处理最基础的一步。现实数据通常并不完整还可能同时存在噪声、不一致等问题 [2]。它在后续这些任务里都会用到数据清洗数据集成特征工程建模前处理数据可视化机器学习训练也就是说如果不会处理缺失值后面的数据分析基本走不下去。十三、给初学者的一个记忆口诀这部分你可以先记住这 4 句话先检查再处理不要一上来就删数据。数值型缺失常用均值或中位数填充。类别型缺失常用众数或“未知”填充。缺失值处理要结合业务场景不是机械套模板。十四、课后练习适合课堂 / 自学练习 1基础题已知一张学生数据表dfpd.DataFrame({姓名:[A,B,C,D],成绩:[80,None,90,85],考勤:[20,18,None,19]})请完成检测缺失值统计每列缺失值数量用均值填充“成绩”用均值填充“考勤”练习 2提高题已知数据dfpd.DataFrame({姓名:[A,B,C,D],成绩:[80,None,90,85],是否补考:[否,None,是,否]})请思考“成绩”适合用什么方法填“是否补考”适合用什么方法填能否把两个字段都统一填成 0为什么练习 3迁移题请把“学生成绩与考勤数据”换成你熟悉的业务场景例如某店铺订单数据某班学生上机记录某宿舍用电数据要求用isnull()检查缺失值用info()查看数据概况选择合适的方法处理缺失值说明你的处理理由十五、总结这篇文章主要解决了一个非常实际的问题数据里有空值时到底该怎么办我们通过“学生成绩与考勤数据”这个案例学习了什么是缺失值为什么缺失值不能忽略常见缺失值处理方法如何使用Pandas检测、统计、删除和填充缺失值其中最核心的思想是先发现问题再选择方法最后结合业务解释处理结果对于数据分析初学者来说这是最基础、也是最实用的一步。十六、写在最后如果这篇文章对你有帮助欢迎点赞、收藏、评论支持一下。如果你也在学习 Python 数据分析建议把isnull()、sum()、info()、dropna()、fillna()这几个方法先练熟它们在数据预处理中真的非常常用。你在学习缺失值处理时最容易纠结的是“该删还是该填”吗欢迎在评论区交流。

相关文章:

09 数据预处理-缺失值处理

Python 数据分析入门:一文搞懂缺失值处理(附 Pandas 实战)适合人群:Python 初学者 / 数据分析入门 / 数据预处理学习者 / 教学案例分享在做数据分析时,很多人第一步就想直接建模、直接出图、直接分析结果。 但现实情况…...

小白也能懂!SGLang框架launch_server启动全流程解析

小白也能懂!SGLang框架launch_server启动全流程解析 1. 从零开始认识SGLang 如果你正在接触大模型,可能会发现一个头疼的问题:模型推理速度慢,服务器资源消耗大,部署起来还挺复杂。SGLang就是为了解决这些问题而生的…...

Java八股文智能学习与面试模拟:MiniCPM-V-2_6实战应用

Java八股文智能学习与面试模拟:MiniCPM-V-2_6实战应用 1. 引言:当Java面试遇到AI 如果你正在准备Java面试,大概率对“八股文”这个词又爱又恨。爱的是,它确实划定了复习范围,让你知道该看什么;恨的是&…...

Kimi-VL-A3B-Thinking业务场景:电商主图审核、广告素材合规检测、包装设计理解

Kimi-VL-A3B-Thinking:用多模态AI为电商和广告业务装上“火眼金睛” 你有没有遇到过这样的烦恼?电商团队每天要审核成千上万的商品主图,人工检查不仅效率低下,还容易漏掉违规内容。广告部门为了确保素材合规,需要反复…...

GTE+SeqGPT实现智能问答系统:5分钟搭建RAG应用实战

GTESeqGPT实现智能问答系统:5分钟搭建RAG应用实战 你是不是经常遇到这样的场景:公司内部有个庞大的知识库,每次想查点资料都得手动翻半天文档;或者想给自己的产品加个智能客服,但一看到那些复杂的AI模型部署就头疼。传…...

《2026 Python零基础入门:用AI主题学编程》第十一课:简单 AI Agent 雏形——判断用户意图 + 调用不同 prompt / 工具,实现更智能的交互

大家好,我是链上杯子(CSDN:链上杯子)。失业一年了,天天想着怎么翻身。最近的多轮对话虽然能聊了,但模型每次都用同一套风格回复,总觉得不够“聪明”。如果能让程序先判断用户想干什么&#xff0…...

AAAI-2024《DVSAI: Diverse View-Shared Anchors Based Incomplete Multi-View Clustering》

2. 核心思想 针对不完全多视图聚类(Incomplete Multi-View Clustering, IMVC)问题,现有基于锚点的方法通常构建单一维度和单一大小的视图共享锚点,这会导致多视图多样性恶化及信息丢失,且无法充分表征样本分布。 本文提出了一种名为 DVSAI 的新框架。其核心思想在于: 多…...

Fl一文吃透 Flink Jobs and Scheduling从资源调度到失败恢复

一、为什么要理解 Flink 的 Jobs and Scheduling 很多人刚接触 Flink 时,会把它理解成“提交一个 Jar,然后集群帮我跑起来”。 但实际上,Flink 在运行一个作业时,内部会做很多复杂工作: 解析数据流图计算并行度划分任务…...

算法:链表:指针变化与环

1. 206.反转链表 给你单链表的头节点 head,请你反转链表,并返回反转后的链表。 反转完成后: pre 为反转前的尾节点,反转后的头结点;cur 为反转前的尾节点的后一个节点。 /*** Definition for singly-linked list.* …...

告别指标混乱:衡石指标中台如何通过“原子化指标+语义层”统一企业数据语言

随着数字化转型的深入,企业积累的数据越来越多,但能够真正信任的数据却越来越少。指标混乱,正在成为企业决策的最大敌人。 衡石科技提出的“原子化指标语义层”指标中台架构,正在帮助行业领先企业彻底告别这一困局。01 指标混乱的…...

23年的EI论文复现搞了个狠活——把碳捕集电厂和氢能玩出花来了。咱们今天就掰开揉碎了看看这模型里的黑科技,关键代码直接怼脸上,搞能源优化的老铁们准备好接干货

23年EI复现:含碳捕集电厂与氢能多元利用的综合能源系统低碳经济调度 提供服务 主题:提出一种含碳捕集电厂与氢能多元利用的综合能源系统低碳经济调度模型。 首先,引入储液罐对传统碳捕集电厂进行改造,提高电厂应对风电波动的运行灵活性&#…...

单片机—STM32中:关于寄存器

首先需了解:计算机系统五大组成部分:运算器,控制器,存储器,输入设备,输出设备。其中存储器分为内存(ROM),外设(RAM)。寄存器是连接软件和硬件的桥梁;软件读写…...

柱塞泵阀被动受力耦合运动流场仿真的三维关键技术研究——考虑弹簧力和预紧力对进液阀板的影响规律

柱塞泵阀被动受力耦合运动流场仿真,三维 关键技术:动网格网格划分,用户自定义函数UDF,被动受力设置 考虑弹簧力和预紧力对进液阀板的影响规律 动网格计算时间较长,希望快速得到结果的勿扰 满足基本的学习和研究需求柱塞…...

从零搭建车辆稳定性控制系统:模糊控制与Simulink实战

车辆ABS与ESC稳定性控制系统开发,基于simulink与模糊控制,搭建ABS通过防止车轮抱死来工作,从而确保更短在不同路况下的制动距离以及保持可控性,车辆在突然制动情况下的稳定性。 ESP的主要功能是改进车辆的稳定性,防止在…...

面试官眼中的高分简历:AI优化实战

在求职竞争日益激烈的今天,一份高分简历不仅能让你快速脱颖而出,更是面试成功的敲门砖。随着AI技术的应用,简历优化已不再完全依赖经验判断,而是可以通过数据和智能分析,提升面试命中率。本篇文章将结合面试官视角&…...

探索Matlab 2019a中的电池充放电与双向DC模拟

电池充放电,双向DC matlab2019a版本在电力电子和能源系统领域,电池充放电过程以及双向DC(直流 - 直流)变换器的研究至关重要。Matlab 2019a提供了强大的工具来对这些复杂过程进行建模与仿真。 电池充放电建模基础 电池充放电过程可…...

Apache Flink 漫谈系列

作者:金竹(Alibaba Senior Technical Expert & Apache Flink Committer) 来源:阿里云开发者社区\flink官网 序号主题链接01序https://developer.aliyun.com/article/66604302概述https://developer.aliyun.com/article/666052…...

工业路由器的使用功能与特点有哪些

工业路由器能够为现场大规模设备提供低延时、高带宽安全可到的的网络接入,易于部署和完善的管理功能,轻松实现设备互通互联;支持5G/4G/3G/WiFi/以太网(PPPOE/DHCP/StaticIP)接入。 功能特点 1、适应极端工业环境 常设计为支持-40℃至75℃的…...

永磁同步电机ADRC自抗扰控制与SVPWM在Matlab Simulink中的仿真之旅

永磁同步电机 ADRC 自抗扰控制 SVPWM matlab simulink PMSM 仿真 100转每分,0.2s带载,具体结果如图。 有仿真文档最近在研究永磁同步电机(Permanent Magnet Synchronous Motor,PMSM)控制,尝试了将自抗扰控制…...

打开CATIA模型发现有个诡异破面?别慌,这几乎是每个工程师第一次做多软件联动的必修课。咱们今天直接上手实操,用APDL命令流暴力解决模型转换的坑

catia模型转入ansys进行静力学仿真分析从CATIA导出.step文件时记得勾选"缝合曲面"选项(这步能避免80%的破面问题)。导入ANSYS Workbench别急着点鼠标,直接进Mechanical点右键选"Export to MAPDL"生成CDB文件——这比中间…...

基于Matlab GUI的手势识别之旅

基于matlab gui的手势识别,导入手部图片,基于肤色模型的颜色分割,去噪,边缘提取,傅立叶算子特征提取,利用最小距离识别手势。最近在研究基于Matlab GUI的手势识别,觉得还挺有趣,来和…...

LabVIEW框架下的产线MES系统探秘

labview框架生产线MES系统源码上位机程序源代码程序设计 labview框架 产线MES系统 物料管理,排产计划,设备管理,报表管理,功能齐全 扫码追溯 PLC通信 数据库存储 标签打印在工业4.0的浪潮下,制造执行系统(M…...

COMSOL 6.1 激光超声仿真:揭开 Lamb 波数值模拟的神秘面纱

COMSOL激光超声仿真:激光激发超声波的产生lamb波的数值模拟 版本为6.1,低于此版本打不开此模型在材料无损检测、结构健康监测等领域,激光超声技术凭借其非接触、高分辨率等优势,逐渐崭露头角。而借助 COMSOL 软件进行激光超声仿真&#xff0c…...

西门子HMI监控PLC:梯形图与诊断故障的精简解决方案,偶发性故障可追溯

西门子HMI监控PLC梯形图和诊断故障,大大精简报警条目,偶发性故障trace可追溯车间里最让人头疼的永远是那些"薛定谔的故障"——设备明明刚才还在抽风,等你抄着万用表冲过去,它又跟没事人似的正常运转了。上周产线真空泵就…...

Maven 安装与配置完全指南(Windows版)

一、下载 Maven 1. 官网下载 访问 Maven 官方下载页面:https://maven.apache.org/download.cgi 2. 选择版本 选择 Binary zip archive 格式的压缩包(如 apache-maven-3.6.x-bin.zip),这是已编译的二进制版本,开箱即…...

伺服驱动器原理及设计实践:开发与控制性能优化

伺服驱动器原理及设计实践开发与控制性能优化。伺服系统像是一台精密机械的肌肉和神经,工业机器人关节的每一次精准转动都离不开它的控制。上周调试某款国产伺服驱动器时,意外发现位置环震荡的问题让我在实验室熬了三个通宵——这玩意儿远比教科书上的传…...

3.12-3.14

这周把面试题记了c/c,ARM体系与架构,然后Linux驱动记了一半今天完成,还差网络编程,操作系统,下周看完就完成简历简历项目,4月投简历知识点积累nand flash和nor flash异同NOR Flash 支持片内执行&#xff08…...

【c-数据结构】二叉树的层序遍历

层序遍历二叉树的层序遍历,也被称为广度优先遍历(BFS),是一种按层次访问树中所有节点的算法。它从根节点开始,一层一层地向下遍历,每一层都从左到右依次访问节点。与前序、中序、后序遍历(这些属…...

风光储并网仿真与协同运行:永磁风机、光伏板及储能系统的建模与参数计算

风光储并网仿真 风光储并网协同运行 送资料可帮助快速入门!simulink 单相并网 仿真包括永磁风机发电机、光伏板、储能系统 附带参考资料、建模过程参考文件夹(万字以上),内涵参数计算,有笔记,整理不易 [永磁直驱风机] …...

基于气动力学的导弹姿态控制技术及其MATLAB仿真研究

基于气动力的导弹姿态控制(含MATLAB仿真)导弹在空中转弯的瞬间,舵面偏转产生的气动力矩就像无形的手,精准地掰动弹体姿态。这看似简单的物理现象背后,藏着微分方程、空气动力学和自动控制的完美配合。咱们今天用MATLAB…...