当前位置: 首页 > article >正文

别再只会用fillna了!Pandas数据预处理实战:缺失值、离散化、归一化与相关性分析保姆级教程

Pandas数据预处理实战从缺失值处理到特征工程的完整指南当你面对一个来自真实业务场景的脏数据集时是否经常感到无从下手数据预处理占据了数据科学项目80%的工作量而Pandas作为Python生态中最强大的数据处理工具其深度功能远不止基础的fillna()操作。本文将带你超越基础掌握一套完整的预处理流程。1. 缺失值处理的进阶策略缺失值处理远非简单的均值填充那么简单。在实际项目中选择何种填充策略需要结合数据分布、业务场景和后续模型需求综合考虑。1.1 理解你的缺失模式在动手填充之前先使用以下代码分析缺失模式import missingno as msno import matplotlib.pyplot as plt msno.matrix(df) plt.show()missingno库提供的矩阵图可以直观显示哪些列存在缺失缺失值是否呈现特定模式随机缺失还是系统性缺失不同列缺失值之间是否存在关联1.2 填充策略的选择艺术数值型数据填充方案对比方法适用场景优点缺点中位数数据存在离群值对异常值稳健忽略变量间关系均值数据分布对称保持数据均值受异常值影响大众数分类变量保持类别分布可能引入偏差插值时间序列数据保留趋势信息对非连续数据效果差对于分类变量考虑使用fillna(Unknown)或基于其他特征的预测填充from sklearn.ensemble import RandomForestClassifier # 对分类变量进行模型预测填充 def model_based_impute(df, target_col): # 分离完整数据和缺失数据 complete df[df[target_col].notna()] missing df[df[target_col].isna()] # 准备特征和目标 X complete.drop(target_col, axis1) y complete[target_col] # 训练模型 model RandomForestClassifier() model.fit(X, y) # 预测缺失值 preds model.predict(missing.drop(target_col, axis1)) # 填充回原数据 df.loc[df[target_col].isna(), target_col] preds return df提示对于时间序列数据优先考虑df.interpolate(methodtime)它能更好地捕捉时间依赖性。2. 特征离散化的工程实践将连续变量转换为分类变量不仅能简化模型还能揭示数据中的非线性关系。但如何选择分箱策略直接影响模型效果。2.1 分箱方法深度解析等宽分箱 vs 等频分箱# 等宽分箱固定宽度 pd.cut(df[age], bins5) # 等频分箱每个箱相同数量观察值 pd.qcut(df[age], q5)实际项目中等频分箱通常表现更好因为它能避免某些箱中数据过少的问题。但对于存在显著业务界限的变量如法定成年年龄18岁手动指定切分点更合理。2.2 高级离散化技巧基于决策树的最优分箱from sklearn.tree import DecisionTreeRegressor def optimal_binning(df, feature, target, max_bins5): # 移除缺失值 temp_df df[[feature, target]].dropna() # 训练决策树 tree DecisionTreeRegressor(max_leaf_nodesmax_bins) tree.fit(temp_df[[feature]], temp_df[target]) # 获取分割点 thresholds tree.tree_.threshold[tree.tree_.threshold ! -2] thresholds np.sort(thresholds) # 创建分箱 bins [-np.inf] list(thresholds) [np.inf] return pd.cut(df[feature], binsbins)这种方法能自动找到使目标变量区分度最大的分箱边界特别适合监督学习任务。3. 数据标准化的全面方案不同标准化方法对模型性能有显著影响特别是在使用距离度量的算法如KNN、SVM时。3.1 常用标准化方法对比实现代码与数学公式# Min-Max标准化 (0-1范围) normalized (df - df.min()) / (df.max() - df.min()) # Z-score标准化 (均值0标准差1) normalized (df - df.mean()) / df.std() # Robust标准化 (抗异常值) from sklearn.preprocessing import RobustScaler scaler RobustScaler() normalized scaler.fit_transform(df)适用场景对比表方法公式优点适用模型Min-Max(x-min)/(max-min)结果有界神经网络、图像处理Z-score(x-μ)/σ保持分布大多数统计模型Robust(x-median)/IQR抗异常值含有离群值的数据Loglog(1x)处理偏态右偏分布数据3.2 标准化陷阱与解决方案常见问题数据泄露在训练集和测试集上分别计算统计量分类变量误标准化只应对数值列操作稀疏数据标准化可能破坏稀疏性正确做法from sklearn.pipeline import Pipeline from sklearn.preprocessing import StandardScaler # 创建处理管道 preprocessor Pipeline([ (imputer, SimpleImputer(strategymedian)), (scaler, StandardScaler()) ]) # 在训练集上拟合 preprocessor.fit(X_train) # 统一转换训练集和测试集 X_train_scaled preprocessor.transform(X_train) X_test_scaled preprocessor.transform(X_test)4. 特征相关性分析的进阶技巧皮尔逊相关系数只是相关性分析的起点真实项目中需要更全面的分析策略。4.1 超越皮尔逊全面相关性分析多方法对比实现# 数值-数值相关性 df.corr(methodpearson) # 线性关系 df.corr(methodspearman) # 单调关系 # 数值-分类相关性 from sklearn.feature_selection import mutual_info_classif mutual_info mutual_info_classif(X_num, y_cat) # 分类-分类相关性 from scipy.stats import chi2_contingency chi2, p, _, _ chi2_contingency(pd.crosstab(df[cat1], df[cat2]))可视化工具import seaborn as sns # 热力图 sns.heatmap(df.corr(), annotTrue) # 散点图矩阵 sns.pairplot(df, huetarget_column) # 非线性关系检测 sns.jointplot(xfeature, ytarget, datadf, kindreg)4.2 特征选择实战流程高相关特征过滤# 去除高度相关的特征 corr_matrix df.corr().abs() upper corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k1).astype(bool)) to_drop [column for column in upper.columns if any(upper[column] 0.8)] df df.drop(to_drop, axis1)基于模型的特征重要性from sklearn.ensemble import RandomForestClassifier model RandomForestClassifier() model.fit(X, y) importances pd.Series(model.feature_importances_, indexX.columns) important_features importances[importances 0.01].index递归特征消除from sklearn.feature_selection import RFECV selector RFECV(estimatorLogisticRegression(), step1, cv5) selector.fit(X, y) selected_features X.columns[selector.support_]在实际项目中我经常发现数据预处理的质量直接决定了模型性能的上限。有一次在客户流失预测项目中仅仅通过优化分箱策略就将AUC提升了15%。记住没有最好的预处理方法只有最适合你数据和业务场景的方法。

相关文章:

别再只会用fillna了!Pandas数据预处理实战:缺失值、离散化、归一化与相关性分析保姆级教程

Pandas数据预处理实战:从缺失值处理到特征工程的完整指南 当你面对一个来自真实业务场景的脏数据集时,是否经常感到无从下手?数据预处理占据了数据科学项目80%的工作量,而Pandas作为Python生态中最强大的数据处理工具,…...

Markdown Viewer:5分钟告别浏览器原生Markdown阅读困境的终极解决方案

Markdown Viewer:5分钟告别浏览器原生Markdown阅读困境的终极解决方案 【免费下载链接】markdown-viewer Markdown Viewer / Browser Extension 项目地址: https://gitcode.com/gh_mirrors/ma/markdown-viewer 你是否曾在浏览器中打开一个Markdown文件&#…...

2026 湖南智慧票务系统公司推荐榜

随着湖南文旅产业高质量发展,全省 A 级景区及文博场馆数字化改造全面铺开,智慧票务作为景区数字化的核心入口,需求持续攀升。本次榜单综合系统技术成熟度、项目落地数量、运行稳定性、本地化服务能力及售后响应速度五大客观维度,筛…...

PHP安全那些坑:从PolarCTF靶场看RCE绕过与变量覆盖的防御之道

PHP安全实战:从CTF靶场解析RCE与变量覆盖的防御策略 在2023年OWASP发布的十大Web应用安全风险中,注入类漏洞依然高居榜首。作为占据全球78%网站服务端的语言,PHP的代码安全问题直接影响着数百万线上业务。上周在审查某金融平台代码时&#xf…...

百度文库免费获取工具终极指南:三步告别付费墙,轻松保存任何文档

百度文库免费获取工具终极指南:三步告别付费墙,轻松保存任何文档 【免费下载链接】baidu-wenku fetch the document for free 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wenku 还在为百度文库的付费文档而烦恼吗?每次找到心…...

手把手教你用Vivado ILA在线调试单端口RAM:从仿真波形到上板抓取数据的完整工作流

Vivado ILA实战:单端口RAM硬件调试全流程解析 当FPGA设计从仿真环境切换到实际硬件平台时,那些在仿真中完美运行的RAM模块可能会表现出各种"意外行为"。本文将以单端口RAM为例,深入探讨如何利用Vivado的集成逻辑分析仪(ILA)进行高效…...

3步掌握喜马拉雅音频下载:xmly-downloader-qt5完全指南

3步掌握喜马拉雅音频下载:xmly-downloader-qt5完全指南 【免费下载链接】xmly-downloader-qt5 喜马拉雅FM专辑下载器. 支持VIP与付费专辑. 使用GoQt5编写(Not Qt Binding). 项目地址: https://gitcode.com/gh_mirrors/xm/xmly-downloader-qt5 你是否经常遇到…...

RTranslator模型下载快速指南:5分钟搞定离线翻译模型部署

RTranslator模型下载快速指南:5分钟搞定离线翻译模型部署 【免费下载链接】RTranslator Open source real-time translation app for Android that runs locally 项目地址: https://gitcode.com/GitHub_Trending/rt/RTranslator 还在为RTranslator首次启动时…...

Windows下用MinGW和VSCode手把手搭建C++ WebSocket通信(附完整代码和避坑指南)

Windows平台C WebSocket开发实战:从环境搭建到双端通信 在Windows环境下使用C进行WebSocket开发,既能满足高性能需求,又能充分利用Windows平台的特性。本文将带你从零开始,完成MinGW和VSCode的环境配置,实现完整的WebS…...

AMD Ryzen硬件调试神器SMUDebugTool:解锁处理器隐藏性能的终极指南

AMD Ryzen硬件调试神器SMUDebugTool:解锁处理器隐藏性能的终极指南 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址…...

Cadence OrCAD新手必看:别再乱找了,这些核心OLB库文件帮你快速上手画原理图

Cadence OrCAD新手必看:别再乱找了,这些核心OLB库文件帮你快速上手画原理图 刚打开OrCAD Capture时,面对左侧资源管理器里密密麻麻的OLB库文件,大多数新手都会陷入选择困难——就像走进一个没有分类标签的超大型电子元件超市。实际…...

LeagueAkari英雄联盟工具包:从新手到高手的智能游戏助手完整指南

LeagueAkari英雄联盟工具包:从新手到高手的智能游戏助手完整指南 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 你是否在英雄联盟…...

如何在电脑上免费畅玩Switch游戏?Ryujinx模拟器完整指南

如何在电脑上免费畅玩Switch游戏?Ryujinx模拟器完整指南 【免费下载链接】Ryujinx 用 C# 编写的实验性 Nintendo Switch 模拟器 项目地址: https://gitcode.com/GitHub_Trending/ry/Ryujinx 想在电脑上体验《塞尔达传说:旷野之息》的壮丽世界&…...

Claude Code + CCR + AWS Bedrock 踩坑复盘:上下文超限、模型路由、Mantle 端点与 Qwen3 Coder Next

最近在使用 Claude Code Claude Code Router(CCR) AWS Bedrock 模型 做代码开发时,遇到了一连串和上下文长度、模型路由、AWS 端点类型相关的问题。表面上看只是一个 context length exceeded 报错,实际排查下来牵扯到&#xff1…...

解锁汽车智能:用Python API与你的爱车对话

解锁汽车智能:用Python API与你的爱车对话 【免费下载链接】opendbc a Python API for your car 项目地址: https://gitcode.com/gh_mirrors/op/opendbc 你是否曾想过,你的汽车其实是一个装满数据的移动计算机?方向盘转角、油门深度、…...

5个理由告诉你:为什么Pyfa是EVE玩家必备的舰船配置终极方案

5个理由告诉你:为什么Pyfa是EVE玩家必备的舰船配置终极方案 【免费下载链接】Pyfa Python fitting assistant, cross-platform fitting tool for EVE Online 项目地址: https://gitcode.com/gh_mirrors/py/Pyfa 你是否曾在EVE Online中因为配置不当而损失昂贵…...

7-Zip:你的免费数字空间整理大师,让文件压缩变得简单高效

7-Zip:你的免费数字空间整理大师,让文件压缩变得简单高效 【免费下载链接】7z 7-Zip Official Chinese Simplified Repository (Homepage and 7z Extra package) 项目地址: https://gitcode.com/gh_mirrors/7z1/7z 想象一下,你的电脑硬…...

如何用AI图像分层工具Layerdivider在5分钟内将单张图片转换为专业PSD文件

如何用AI图像分层工具Layerdivider在5分钟内将单张图片转换为专业PSD文件 【免费下载链接】layerdivider A tool to divide a single illustration into a layered structure. 项目地址: https://gitcode.com/gh_mirrors/la/layerdivider Layerdivider是一款革命性的AI图…...

3d Tiles

针对 Cesium 1.104+ 版本,3D Tiles 的 API 经历了从 new Cesium3DTileset() 到 Cesium3DTileset.fromUrl() 的重大重构。以下是基于最新标准的核心 API 手册。 一、加载方式:弃用 new,拥抱 fromUrl ⚠️ 旧版写法(Cesium < 1.104 或已弃用) // ❌ 已废弃,新版中 re…...

GetQzonehistory:3步永久备份QQ空间青春记忆的终极Python工具

GetQzonehistory&#xff1a;3步永久备份QQ空间青春记忆的终极Python工具 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 你是否担心QQ空间里那些珍贵的青春记忆会随着时间流逝而消失&a…...

截至2026年4月初,智能问数在金融行业能做到什么程度,哪些场景还要谨慎?

截至2026年4月初&#xff0c;金融行业的智能问数已经能用&#xff0c;但成熟度高度分层直接回答问题&#xff1a;截至2026年4月初&#xff0c;金融行业的智能问数已经在“固定口径、固定指标、固定分析链路”的场景中具备较高可用性&#xff0c;在部分跨表、跨主题域分析中也能…...

如何高效下载B站视频?BilibiliDown免费工具完整指南

如何高效下载B站视频&#xff1f;BilibiliDown免费工具完整指南 【免费下载链接】BilibiliDown (GUI-多平台支持) B站 哔哩哔哩 视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader &#x1f633; 项目地址: https://gitcode.com/gh_mirrors/bi/…...

终极剧本写作指南:为什么Trelby是你创作生涯的最佳伙伴?

终极剧本写作指南&#xff1a;为什么Trelby是你创作生涯的最佳伙伴&#xff1f; 【免费下载链接】trelby The free, multiplatform, feature-rich screenwriting program! 项目地址: https://gitcode.com/gh_mirrors/tr/trelby 你是否曾因剧本格式的复杂要求而头疼不已&…...

基于非对称纳什谈判的多微网电能共享运行优化策略-MATLAB代码标题MATLAB代码:非对...

基于非对称纳什谈判的多微网电能共享运行优化策略 MATLAB代码&#xff0c;电网技术文献复现&#xff1a; 关键词&#xff1a;纳什谈判 合作博弈 微网 电转气-碳捕集 P2P电能交易交易 参考文档&#xff1a;《基于非对称纳什谈判的多微网电能共享运行优化策略》完美复现 仿…...

VAP动画播放器终极指南:如何实现跨平台高性能特效动画

VAP动画播放器终极指南&#xff1a;如何实现跨平台高性能特效动画 【免费下载链接】vap VAP是企鹅电竞开发&#xff0c;用于播放特效动画的实现方案。具有高压缩率、硬件解码等优点。同时支持 iOS,Android,Web 平台。 项目地址: https://gitcode.com/gh_mirrors/va/vap …...

GModPatchTool终极指南:三步修复Garry‘s Mod浏览器崩溃与视频播放问题

GModPatchTool终极指南&#xff1a;三步修复Garrys Mod浏览器崩溃与视频播放问题 【免费下载链接】GModPatchTool &#x1f1ec;&#x1fa79;&#x1f6e0; Patches for Garrys Mod. Updates/Improves CEF and Fixes common launch/performance issues (esp. on Linux/Proton/…...

3步彻底解决Cursor试用限制:go-cursor-help工具完全指南

3步彻底解决Cursor试用限制&#xff1a;go-cursor-help工具完全指南 【免费下载链接】go-cursor-help 解决Cursor在免费订阅期间出现以下提示的问题: Your request has been blocked as our system has detected suspicious activity / Youve reached your trial request limit…...

c++超细致讲解引用

引用的概念引用 不是新定义一个变量&#xff0c;而 是给已存在变量取了一个别名 &#xff0c;编译器不会为引用变量开辟内存空间&#xff0c;它和它引用的变量共用同一块内存空间。引用的表示方法类型 & 引用变量名 ( 对象名 ) 引用实体&#xff1b;如果熟悉C语言的同学可…...

【2026最新版|必收藏】程序员/小白入门大模型不踩坑,实战转型指南

大模型赛道持续高热&#xff0c;2026年行业需求更偏向“实战落地”&#xff0c;冗余理论型人才逐渐被市场淘汰。作为常年扎根大模型培训、带过120学员成功转型就业的训练营主理人&#xff0c;我的后台每天都被CSDN上的新手和转型程序员的焦虑提问刷屏&#xff0c;每一个都戳中痛…...

QuickLook Video:5分钟搞定macOS视频预览,让Finder支持所有视频格式

QuickLook Video&#xff1a;5分钟搞定macOS视频预览&#xff0c;让Finder支持所有视频格式 【免费下载链接】QuickLookVideo This package allows macOS Finder to display thumbnails, static QuickLook previews, cover art and metadata for most types of video files. …...