当前位置: 首页 > article >正文

Python数据分析实战:Pandas处理缺失值的5个高级技巧(附完整代码)

Python数据分析实战Pandas处理缺失值的5个高级技巧真实业务数据从来不会干净。今天把我在项目中踩过的坑一次性整理给你。做数据分析的都知道数据清洗占整个分析工作量的60-80%。而缺失值处理又是数据清洗中最常见的问题。很多人遇到缺失值第一反应就是df.dropna()一行代码删完。然后呢数据从10万行变成3万行分析结论偏差巨大。今天分享5个在真实项目中验证过的高级技巧每个都有代码示例。技巧1按业务逻辑分组填充场景用户收入数据有缺失但你不能简单地用全局均值填充。一线城市和三线城市的收入差距很大全局均值会把三线城市的数据拉高。方案按城市分组用组内中位数填充。import pandas as pd import numpy as np # 模拟数据 df pd.DataFrame({ city: [北京, 上海, 北京, 成都, 上海, 成都, 北京, 成都], income: [25000, 22000, None, 8000, None, 7500, 28000, None] }) # 按城市分组用组内中位数填充 df[income] df.groupby(city)[income].transform( lambda x: x.fillna(x.median()) ) print(df) # city income # 0 北京 25000.0 # 1 上海 22000.0 # 2 北京 26500.0 - 用北京的中位数填充 # 3 成都 8000.0 # 4 上海 22000.0 - 用上海的中位数填充 # 5 成都 7500.0 # 6 北京 28000.0 # 7 成都 7750.0 - 用成都的中位数填充为什么用中位数不用均值收入数据通常右偏分布少数高收入拉高均值中位数更稳健。这是数据分析的基本功但很多人会忽略。技巧2时间序列插值法场景每日活跃用户数据有几天缺失不能直接删除会影响趋势分析也不能用均值填充会抹平波动。方案用时间插值法基于前后数据点推算缺失值。# 模拟日活数据4月10日和12日缺失 dates pd.date_range(2026-04-08, periods7) dau pd.Series([12000, 13500, None, 14200, None, 15100, 14800], indexdates) # 线性插值 dau_filled dau.interpolate(methodtime) print(dau_filled) # 2026-04-08 12000.0 # 2026-04-09 13500.0 # 2026-04-10 13850.0 - 基于前后值线性推算 # 2026-04-11 14200.0 # 2026-04-12 14650.0 - 基于前后值线性推算 # 2026-04-13 15100.0 # 2026-04-14 14800.0Pandas的interpolate()方法支持多种插值策略linear线性、time考虑时间间隔、quadratic二次曲线等。技巧3多重插值法处理高缺失率场景某个字段的缺失率超过30%简单填充会引入大量偏差。方案用其他特征做回归预测来填充缺失值。from sklearn.linear_model import LinearRegression import numpy as np # 模拟数据age和incomeincome有缺失 df pd.DataFrame({ age: [25, 30, 35, 28, 40, 32, 45, 27, 38, 33], income: [8000, 12000, None, 9500, 22000, None, 25000, 8500, None, 15000] }) # 分离有值和缺失的数据 known df[df[income].notna()] unknown df[df[income].isna()] # 用已知数据训练回归模型 model LinearRegression() model.fit(known[[age]], known[income]) # 预测缺失值 df.loc[df[income].isna(), income] model.predict(unknown[[age]]) print(df.round(0)) # age income # 0 25 8000.0 # 1 30 12000.0 # 2 35 16500.0 - 模型预测值 # 3 28 9500.0 # 4 40 22000.0 # 5 32 13200.0 - 模型预测值 # 6 45 25000.0 # 7 27 8500.0 # 8 38 19500.0 - 模型预测值 # 9 33 15000.0实际项目中建议用IterativeImputersklearn提供它会对每个缺失特征迭代使用其他特征做预测精度更高。技巧4标记缺失值本身也是一种信息场景用户注册时年收入字段为空这个空本身可能意味着不愿意填或收入较低。方案新增一列标记是否缺失再填充原始列。# 新增缺失标记列 df[income_missing] df[income].isna().astype(int) # 再用中位数填充原始列 df[income] df[income].fillna(df[income].median()) print(df) # age income income_missing # 0 25 8000.0 0 # 1 30 12000.0 0 # 2 35 15000.0 1 - 标记为缺失 # 3 28 9500.0 0 # 4 40 22000.0 0 # 5 32 15000.0 1 - 标记为缺失 # 后续建模时income_missing可以作为特征使用 # 模型能学到缺失这个模式船长经验在金融风控和用户分析项目中缺失标记列往往比填充值本身更有预测力。一个不愿意填收入的用户违约概率可能更高。技巧5缺失值可视化诊断场景数据集有50多个字段你需要快速了解缺失值的分布情况。方案用缺失值热力图和统计表做快速诊断。import pandas as pd # 模拟多字段数据集 np.random.seed(42) df pd.DataFrame({ user_id: range(1000), age: np.random.choice([np.nan, *range(18, 65)], 1000), income: np.random.choice([np.nan, *range(3000, 50000, 1000)], 1000), city: np.random.choice([np.nan, 北京, 上海, 广州, 深圳], 1000), login_days: np.random.choice([np.nan, *range(1, 365)], 1000), order_count: np.random.choice([np.nan, *range(0, 50)], 1000), }) # 1. 缺失值统计表 missing_stats pd.DataFrame({ 缺失数量: df.isnull().sum(), 缺失比例: (df.isnull().sum() / len(df) * 100).round(1), 数据类型: df.dtypes }) missing_stats missing_stats[missing_stats[缺失数量] 0].sort_values( 缺失比例, ascendingFalse ) print(missing_stats) # 缺失数量 缺失比例 数据类型 # income 520 52.0 float64 # city 498 49.8 object # age 503 50.3 float64 # login_days 495 49.5 float64 # order_count 502 50.2 float64 # 2. 快速判断缺失是否随机 # 按某个字段分组看缺失率差异 print(df.groupby(city)[income].apply(lambda x: x.isna().mean())) # city # 上海 0.50 # 北京 0.51 # 广州 0.50 # 深圳 0.49 # 如果某组缺失率显著偏高说明缺失不是随机的总结缺失值处理决策流程第一步先看缺失率——低于5%可以直接删或简单填充高于30%需要特殊处理第二步判断缺失模式——是随机缺失还是系统性缺失系统性缺失要标记第三步选择填充策略——业务分组 时间插值 回归预测 全局统计量第四步始终保留缺失标记列——缺失本身就是信息第五步验证填充效果——对比填充前后的分布确保没有引入偏差船长的话数据不说谎但会误导人。缺失值处理不当你的分析结论就是建立在沙子上的城堡。这5个技巧覆盖了90%的真实业务场景建议收藏备用。别再用dropna一键删完了。你平时怎么处理缺失值有没有遇到过什么奇葩场景评论区聊聊。

相关文章:

Python数据分析实战:Pandas处理缺失值的5个高级技巧(附完整代码)

Python数据分析实战:Pandas处理缺失值的5个高级技巧真实业务数据从来不会干净。今天把我在项目中踩过的坑,一次性整理给你。做数据分析的都知道,数据清洗占整个分析工作量的60-80%。而缺失值处理,又是数据清洗中最常见的问题。很多…...

4.20-4.26周报

牛客周赛 Round 140:A B C D E...

MCP 2026量子适配实录:从经典HPC集群到QPU协同架构的90天平滑过渡路径

更多请点击: https://intelliparadigm.com 第一章:MCP 2026量子适配实录:从经典HPC集群到QPU协同架构的90天平滑过渡路径 在国家超算中心某前沿实验室,MCP 2026量子适配项目以“零停机、双栈并行、渐进式卸载”为原则&#xff0c…...

【VS Code MCP性能调优黄金21条】:基于137个真实企业插件压测报告,第9条90%开发者至今未启用

更多请点击: https://intelliparadigm.com 第一章:VS Code MCP插件生态搭建手册 性能调优指南 MCP(Model Control Protocol)插件正成为 VS Code 中连接本地开发环境与大模型服务的关键桥梁。高效搭建其生态并保障响应性能&#x…...

想给照片换背景底色?2026 年这几款工具加一个微信小程序的搭配建议

如果你是日常需要处理证件照、产品白底图或社交分享图的人,想搞清楚换背景底色到底怎么操作才不翻车,这篇文章给你三种路径建议:零门槛手机搞定的、追求画质用桌面软件的、以及介于两者之间不需要安装的工具。下面会先拆解一款叫抠图喵的微信…...

模型加载慢、吞吐暴跌、OOM频发,MCP AI推理配置错误诊断与秒级修复方案

更多请点击: https://intelliparadigm.com 第一章:MCP AI推理配置的典型故障全景图 在大规模模型协同平台(MCP)中,AI推理配置的稳定性直接决定服务可用性与响应质量。常见故障并非孤立发生,而是呈现链式耦…...

抖音下载终极解决方案:douyin-downloader完全指南,新手也能轻松上手

抖音下载终极解决方案:douyin-downloader完全指南,新手也能轻松上手 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, an…...

关于Navicat Premium 17破解方法

文件内容非原创,纯分享链接:https://pan.xunlei.com/s/VOr8GQmMy1b57H9mhJ6VYL7kA1# 提取码:r39z 复制这段内容后打开「手机迅雷 App」即可获取。无需下载在线查看,视频原画享倍速播放解压后将winmm.dll文件拖至软件根目录下重启即…...

从零开始学习 Linux SPI 驱动开发(基于 IMX6ULL + TLC5615 DAC)

从零开始学习 Linux SPI 驱动开发(基于 IMX6ULL TLC5615 DAC) 文章目录从零开始学习 Linux SPI 驱动开发(基于 IMX6ULL TLC5615 DAC)[TOC]1. 什么是 SPI?硬件信号与连接![在这里插入图片描述](https://i-blog.csdnim…...

EmbeddingGemma-300m惊艳效果展示:音乐流派评论语义聚类与用户画像关联分析

EmbeddingGemma-300m惊艳效果展示:音乐流派评论语义聚类与用户画像关联分析 1. 核心能力概览 EmbeddingGemma-300m是谷歌推出的开源嵌入模型,拥有3亿参数,基于先进的Gemma 3架构构建。这个模型专门用来将文本转换成向量表示,就像…...

使用 GES DISC 的 IMAP-DOAS 预处理器 (IDP) V11.2 (OCO2_L2_IMAPDOAS) 筛选 OCO-2 二级空间排序地理定位反演结果

OCO-2 Level 2 spatially ordered geolocated retrievals screened using the IMAP-DOAS Preprocessor (IDP) V11.2 (OCO2_L2_IMAPDOAS) at GES DISC 简介 当前数据集版本为 11.2。旧版本将不再可用,并被 11.2 版本取代。轨道碳观测站 (OCO-2) 是 NASA 首个旨在收…...

nli-MiniLM2-L6-H768快速部署:Kubernetes Helm Chart一键部署到生产集群

nli-MiniLM2-L6-H768快速部署:Kubernetes Helm Chart一键部署到生产集群 1. 模型概述 nli-MiniLM2-L6-H768是一个轻量级自然语言推理(NLI)模型,专注于文本关系判断而非内容生成。该模型的核心能力是分析两段文本之间的语义关系,主要判断以下…...

别再用namespace硬隔离了!MCP 2026正式启用硬件辅助隔离(Intel AMX+AMD SVM-V),性能损耗<0.7%?

更多请点击: https://intelliparadigm.com 第一章:MCP 2026沙箱资源隔离的演进逻辑与战略意义 随着云原生基础设施向多租户、高密调度和强合规方向加速演进,MCP(Multi-Container Platform)2026 引入了基于 eBPF cgro…...

cv_unet_image-matting WebUI二次开发指南:从改颜色到加功能的完整教程

cv_unet_image-matting WebUI二次开发指南:从改颜色到加功能的完整教程 1. 环境准备与快速部署 1.1 系统要求 在开始二次开发前,确保你的开发环境满足以下要求: 操作系统:支持Windows 10/11、macOS或Linux(推荐Ubu…...

MCP低代码集成调试成功率从41%→98.6%:基于137个真实产线案例提炼的7阶渐进式验证模型

更多请点击: https://intelliparadigm.com 第一章:MCP低代码集成调试的行业痛点与演进逻辑 在企业级低代码平台(如MCP——Model-Code-Platform)快速落地过程中,集成调试正成为交付瓶颈的核心症结。开发者常需在可视化…...

Phi-mini-MoE-instructGPU利用率提升:通过batch size与kv cache优化

Phi-mini-MoE-instruct GPU利用率提升:通过batch size与kv cache优化 1. 项目概述 Phi-mini-MoE-instruct是一款轻量级混合专家(MoE)指令型小语言模型,在多个基准测试中表现出色: 代码能力:在RepoQA、Hu…...

油藏模拟中线性求解器的优化与Arm架构实践

1. 油藏模拟与线性求解器的关键作用在石油天然气勘探开发领域,油藏模拟技术堪称工程师们的"数字实验室"。这项技术通过构建复杂的数学模型,能够模拟地下数千米深处油、气、水在多孔介质中的流动行为。想象一下,这就像是在计算机里重…...

SMU4.20-4.26补题

牛客周赛140 A-F牛客北华大学 A,D,F,H,I,L;团体天梯赛5,8题;Spring天梯赛一5,8题...

【花雕学编程】Arduino BLDC 之多旋翼无人机局部避障

基于 Arduino 平台结合无刷直流电机(BLDC)的多旋翼无人机局部避障系统,是嵌入式飞控领域的高阶应用。它要求无人机在高速动态飞行中,利用机载传感器实时感知环境,并通过 BLDC 电机的毫秒级响应调整姿态与轨迹&#xff…...

用Python模拟宏观超导电路的量子化现象

摘要 超导电路是当代量子信息科学和低温凝聚态物理中最重要的宏观量子系统之一。与原子、电子、光子等微观对象不同,超导电路通常由金属薄膜、电容、电感、约瑟夫森结和外部控制线路组成,其几何尺寸可以达到微米甚至毫米量级,包含数量巨大的电子。然而,当金属进入超导态后…...

AOS演进的非对称性真相

AOS架构演进策略分析:软件先行与硬件迭代的非对称性博弈 针对AOS(全光磁反转)计算架构中“软件先转型、硬件后迭代”与“硬件先突破、软件滞后”两种路径的对比分析,该论证逻辑高度可靠,深刻揭示了物理计算范式与传统…...

【xiaozhi-客户端】xiaozhi-web-client 连接客户端 6位有效码

小智Web客户端介绍与使用指南 一、项目概述 xiaozhi-web-client 是一个开源的小智Web客户端实现,提供了语音对话功能。该项目通过WebSocket实现实时通信,支持Opus音频编码,让用户可以在浏览器中直接与小智进行语音交互。 项目说明链接xiao…...

别再只懂JWT三部分了:手把手教你用Node.js + Express实战JWT登录与权限控制

别再只懂JWT三部分了:手把手教你用Node.js Express实战JWT登录与权限控制 每次看到技术文章里"JWT由Header、Payload、Signature三部分组成"的科普,我都想问问作者:您自己实现过完整的JWT流程吗?三年前我第一次在项目中…...

Flux2-Klein-9B-True-V2效果集:Proteus电路仿真与AI概念艺术设计的碰撞

Flux2-Klein-9B-True-V2效果集:Proteus电路仿真与AI概念艺术设计的碰撞 1. 当电路板遇见艺术想象力 打开Proteus软件,你看到的可能是冰冷的电路走线和规整的元器件布局。但通过Flux2-Klein-9B-True-V2模型的"眼睛",这些工程图纸突…...

终极抖音下载指南:免费开源工具让你的视频获取效率飙升300%

终极抖音下载指南:免费开源工具让你的视频获取效率飙升300% 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback …...

Xinference-v1.17.1与Latex集成:AI辅助的学术论文写作系统

Xinference-v1.17.1与Latex集成:AI辅助的学术论文写作系统 1. 引言 写学术论文这事儿,估计每个研究生和学者都头疼过。光是找文献、整理思路、写内容、调整格式,一套流程下来就得花上好几天甚至几周时间。特别是到了深夜,对着空…...

Z-Image权重注入避坑指南:strict=False模式下100%兼容LM系列

Z-Image权重注入避坑指南:strictFalse模式下100%兼容LM系列 1. 工具概览 Z-Image权重动态测试台是专为LM系列自定义权重设计的可视化测试工具,基于阿里云通义Z-Image架构开发。这个工具解决了模型调试过程中的几个关键痛点: 权重切换繁琐&…...

机器学习核心原理与实践指南:从数据到智能应用

1. 为什么机器学习如此迷人第一次接触机器学习时,我被它的"思考"能力震撼了。那是在2012年,我尝试用简单的线性回归预测房价,当模型开始从杂乱数据中发现规律时,那种感觉就像教会计算机"理解"世界。十年后的今…...

冥想第一千八百六十一天(1861)

1.周六今天,然后加了一天的班非常的累.项目上非常的忙。 2.感谢父母,感谢朋友,感谢家人,感谢不断进步的自己。...

AI智能体安全攻防实战:从提示词注入到纵深防御

1. 项目概述:当AI助手成为攻击目标最近在安全研究圈里,一个名为“agent-attack”的项目引起了我的注意。这个由ChenWu98开源的仓库,直指当前大热的AI智能体(Agent)系统的安全软肋。简单来说,它研究的不是如…...