当前位置: 首页 > article >正文

Pandas 数据处理进阶:缺失值、合并、分组聚合与透视表

Pandas 数据处理进阶缺失值、合并、分组聚合与透视表在完成 pandas 的基础操作索引、筛选、赋值、函数应用之后下一步便是处理真实数据中常见的问题缺失值、多表合并、分组统计以及数据透视。本文带你系统掌握这些核心技能并提供可直接运行的代码示例。目录数据清洗缺失值处理1.1 检测缺失值1.2 删除缺失值1.3 填充缺失值1.4 自定义替换为 NaN数据合并concat 与 merge2.1 concat轴向拼接2.2 merge键值关联2.3 join基于索引的合并分组与聚合groupby 的威力3.1 基础分组3.2 多列分组3.3 聚合函数 agg3.4 过滤与变换透视表与交叉表4.1 交叉表 crosstab频数统计4.2 透视表 pivot_table灵活聚合4.3 多级透视综合实战电商订单数据分析小结与进阶建议1. 数据清洗缺失值处理真实数据往往不完整pandas 提供了丰富的缺失值处理工具。1.1 检测缺失值isna()/isnull()返回布尔型 DataFrameTrue 表示缺失。isna().any(axis?)检查每列/行是否有缺失。isna().sum()统计每列缺失数量。importpandasaspdimportnumpyasnp dfpd.DataFrame({A:[1,2,np.nan,4],B:[5,np.nan,np.nan,8],C:[9,10,11,12]})print(df.isna())print(df.isna().any())# 每列是否有缺失print(df.isna().sum())# 每列缺失个数1.2 删除缺失值dropna# 删除任何含有缺失值的行df_cleandf.dropna()# 删除任何含有缺失值的列df_cleandf.dropna(axis1)# 仅当某列全部缺失时才删除df_cleandf.dropna(howall)# 指定 subset仅检查特定列df_cleandf.dropna(subset[A,B])1.3 填充缺失值fillna# 用常数填充df_filleddf.fillna(0)# 用前一个值填充向前填充df_filleddf.fillna(methodffill)# 用后一个值填充df_filleddf.fillna(methodbfill)# 针对不同列用不同值df_filleddf.fillna({A:0,B:df[B].mean()})1.4 自定义替换为 NaN某些数据中特殊值如N/A、-1、0应视为缺失。dfdf.replace({N/A:np.nan,-1:np.nan,0:np.nan})# 或原地修改df.replace({N/A:np.nan,0:np.nan},inplaceTrue)2. 数据合并concat 与 merge2.1concat轴向拼接axis0纵向拼接上下堆叠要求列名一致。axis1横向拼接左右并排要求行索引对齐。ignore_indexTrue重置索引。df1pd.DataFrame({A:[1,2],B:[3,4]})df2pd.DataFrame({A:[5,6],B:[7,8]})# 纵向拼接df_verticalpd.concat([df1,df2],axis0,ignore_indexTrue)# 横向拼接df_horizontalpd.concat([df1,df2],axis1)2.2merge键值关联类似 SQL JOINleftpd.DataFrame({key:[X,Y,Z],value_left:[1,2,3]})rightpd.DataFrame({key:[X,Y,W],value_right:[4,5,6]})# 内连接默认innerpd.merge(left,right,onkey,howinner)# 左连接left_joinpd.merge(left,right,onkey,howleft)# 右连接right_joinpd.merge(left,right,onkey,howright)# 外连接全连接outerpd.merge(left,right,onkey,howouter)# 多列关联on[col1, col2]# 处理重复列名suffixes(_x, _y)2.3join基于索引的合并leftpd.DataFrame({A:[1,2]},index[a,b])rightpd.DataFrame({B:[3,4]},index[a,c])resultleft.join(right,howleft)# 默认左连接基于索引3. 分组与聚合groupby 的威力分组聚合是数据分析的核心范式split-apply-combine。3.1 单字段分组dfpd.DataFrame({类别:[A,A,B,B,C],销售额:[100,150,200,250,300],成本:[60,80,120,140,180]})groupeddf.groupby(类别)print(grouped[销售额].mean())# 每类平均销售额print(grouped[销售额].sum())3.2 多字段分组df[城市][北京,上海,北京,上海,北京]grouped_multidf.groupby([类别,城市])print(grouped_multi[销售额].sum())3.3 聚合函数agg单列单函数.agg({列名: mean})单列多函数.agg({销售额: [sum, mean, count]})多列不同函数.agg({销售额: sum, 成本: mean})自定义函数.agg(lambda x: x.max() - x.min())resultdf.groupby(类别).agg({销售额:[sum,mean],成本:min})print(result)3.4 过滤与变换filter根据分组条件过滤组保留满足条件的整个组。transform将聚合结果广播回原始行常用于添加组内统计列。# 保留销售额总和大于 400 的组filtereddf.groupby(类别).filter(lambdax:x[销售额].sum()400)# 添加组内平均值列df[销售额_组内均指]df.groupby(类别)[销售额].transform(mean)4. 透视表与交叉表4.1 交叉表crosstab频数统计pd.crosstab用于计算两个或多个分类变量的频数分布。dfpd.DataFrame({性别:[男,女,男,女,男],城市:[北京,上海,北京,北京,上海],购买次数:[1,3,2,1,4]})# 性别 vs 城市的频数表ctpd.crosstab(df[性别],df[城市])print(ct)# 添加行/列总计ct_marginspd.crosstab(df[性别],df[城市],marginsTrue,margins_name总计)4.2 透视表pivot_table灵活聚合类似 Excel 数据透视表可指定行、列、值、聚合函数。# 按性别和城市统计购买次数的平均值ptpd.pivot_table(df,values购买次数,index性别,columns城市,aggfuncmean)print(pt)# 多个聚合函数pt_multipd.pivot_table(df,values购买次数,index性别,columns城市,aggfunc[sum,count])4.3 多级 index / 多 values# 多级行索引pt_levelspd.pivot_table(df,values购买次数,index[性别,城市],aggfuncsum)# 多 values 列pt_multi_valuespd.pivot_table(df,values[购买次数,性别],index城市,aggfunccount)5. 综合实战电商订单数据分析模拟一个电商订单数据集完成从清洗到聚合的全流程。importpandasaspdimportnumpyasnp# 创建订单数据orderspd.DataFrame({order_id:range(1,11),user_id:[101,102,101,103,104,101,102,105,103,106],category:[电子产品,服装,电子产品,食品,服装,电子产品,服装,食品,食品,电子产品],amount:[299,89,450,35,120,310,150,45,60,520],discount:[0.1,0.0,0.15,0.0,0.05,0.1,0.0,0.0,0.05,0.2]})# 故意引入一个缺失值orders.loc[5,amount]np.nanprint(原始数据)print(orders)# 1. 缺失值处理用该品类平均金额填充category_avgorders.groupby(category)[amount].transform(mean)orders[amount].fillna(category_avg,inplaceTrue)# 2. 计算实际支付金额金额 * (1 - 折扣)orders[paid]orders[amount]*(1-orders[discount])# 3. 分组聚合每用户的总支付金额和订单数user_statsorders.groupby(user_id).agg(总支付(paid,sum),订单数(order_id,count)).reset_index()print(\n用户统计)print(user_stats)# 4. 透视表各类别在不同折扣区间的平均支付金额orders[discount_bin]pd.cut(orders[discount],bins[-0.01,0.05,0.15,0.21],labels[低折扣,中折扣,高折扣])ptpd.pivot_table(orders,valuespaid,indexcategory,columnsdiscount_bin,aggfuncmean)print(\n透视表品类×折扣区间 平均支付)print(pt)# 5. 交叉表用户 vs 品类购买频数ctpd.crosstab(orders[user_id],orders[category])print(\n用户购买品类频次)print(ct)6. 小结与进阶建议本文系统介绍了 pandas 中四个核心进阶功能功能核心方法典型场景缺失值处理isna(),dropna(),fillna()数据清洗数据合并concat(),merge(),join()多表关联分组聚合groupby(),agg(),transform(),filter()统计分析透视表/交叉表pivot_table(),crosstab()多维汇总经验法则处理缺失时优先分析缺失原因合理填充或删除。合并数据前确保关联键的数据类型一致。分组聚合时使用agg一次完成多个统计代码更清晰。透视表是快速生成报表的利器尤其是多维度交叉分析。进阶方向时间序列数据的重采样resample窗口函数rolling,expanding性能优化使用eval()和query()处理大数据结合matplotlib/seaborn做可视化分析建议读者将本文代码逐一运行并尝试修改参数观察结果。掌握这些技能你就能应对绝大多数数据处理需求。

相关文章:

Pandas 数据处理进阶:缺失值、合并、分组聚合与透视表

Pandas 数据处理进阶:缺失值、合并、分组聚合与透视表 在完成 pandas 的基础操作(索引、筛选、赋值、函数应用)之后,下一步便是处理真实数据中常见的问题:缺失值、多表合并、分组统计以及数据透视。本文带你系统掌握这…...

Taotoken的TokenPlan套餐如何为个人开发者节省成本

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 Taotoken的TokenPlan套餐如何为个人开发者节省成本 对于个人开发者或小型工作室而言,在项目开发中集成大模型API是提升…...

源代码论文分享|基于 Spring Boot 的校园商铺管理系统!

很多同学选毕业设计时都会纠结:题目太简单,怕老师觉得没含金量;题目太复杂,又怕自己做不完。 其实像校园商铺管理系统这种项目,就挺适合拿来做毕设或课程设计。它有真实场景,功能也能展开,技术…...

DeepSeek LeetCode 2488. 统计中位数为 K 的子数组 public int countSubarrays(int[] nums, int k)

这道题要求统计所有子数组中,中位数等于 k 的子数组个数。 核心思路: 先找到 k 在数组中的位置 pos中位数定义(对于奇数长度):排序后中间的数 k等价转换:对于子数组,比 k 小的数个数 比 k 大的…...

源代码论文分享|社区养老服务平台的设计与实现!

有些毕业设计题目,听起来不是特别“炫”,但真的很适合做,也很容易写出实际意义。 比如这次分享的这个项目:社区养老服务平台的设计与实现。 现在社区养老、居家养老、智慧养老这些方向本身就很有现实背景,老师看到这…...

曝GPT-5.5用上“全球最快芯片”,Claude慌了

120B模型飙到2000 token/秒,CFO更放话已在跑GPT-5.5!Cerebras 560亿美元IPO首日暴涨68%,但SemiAnalysis万字拆解直指死穴。 SemiAnalysis,硅谷最硬核的芯片分析机构,4月份光是AI工具的订阅费就烧到了年化1000万美元。…...

3分钟告别Windows桌面混乱:这款免费工具让你的图标瞬间变整齐

3分钟告别Windows桌面混乱:这款免费工具让你的图标瞬间变整齐 【免费下载链接】NoFences 🚧 Open Source Stardock Fences alternative 项目地址: https://gitcode.com/gh_mirrors/no/NoFences 还在为Windows桌面上那些杂乱无章的图标头疼吗&…...

商业空间吸音地毯怎么选?16 年品牌雅尔居靠谱

商业空间装修,噪音控制是刚需。办公室人声嘈杂、酒店走廊脚步声扰客、工装大堂回音重,都会直接影响空间体验与使用效率。选对吸音地毯,既能高效降噪,又能提升空间质感,是商业空间地面材料的优选。今天就来聊聊吸音地毯…...

为AI智能体项目选择与接入高性价比大模型API服务

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 为AI智能体项目选择与接入高性价比大模型API服务 在构建AI智能体或自动化工作流时,开发者面临的核心挑战往往集中在两个…...

进程管理器大横评:从 PM2 到 Systemd 的选型与实战

一、为什么需要进程管理器? 在服务器运维的世界里,“进程管理器”(Process Manager)是一个看似基础却极其关键的角色。它的核心使命可以概括为:确保你的应用程序在服务器重启、进程崩溃、资源耗尽等意外情况下&#xf…...

实测:JD匹配度从50%到90%,面试邀约直接翻倍,我才发现简历写错了10年!

“简历投出去就石沉大海,每天海投几十份,零回复。”“好不容易收到面试,结果聊了几句就没下文了,感觉岗位根本不适合我。”“JD看了又看,觉得自己的经验挺符合啊,为啥总是卡在第一关?”这些&…...

零经验想投运营?3分钟AI生成高匹配简历,告别海投无效!

“我一个零经验小白,简历怎么写才能打动运营岗HR啊?!!” “海投了快100份简历,一个面试都没有,我是不是不适合运营?” 相信这是大部分想转行或者刚毕业,对运营岗有点心动但完全没经…...

打卡信奥刷题(3292)用C++实现信奥题 P8976 「DTOI-4」排列

P8976 「DTOI-4」排列 题目背景 Update on 2023.2.1:新增一组针对 yuanjiabao 的 Hack 数据,放置于 #21。 Update on 2023.2.2:新增一组针对 CourtesyWei 和 bizhidaojiaosha 的 Hack 数据,放置于 #22。 构造一个排列 ppp&…...

转行简历不会衔接?AI一键生成,自然过渡无违和感,邀约率飙升3倍!

“我以前是做销售的,想转行产品经理,简历上怎么写才能不让HR觉得我风马牛不相及?” “干了几年运营,现在想尝试开发,简历里除了写熟悉Word、Excel,还能写啥?” “裸辞转行,简历一片…...

RK3588开发板Ubuntu系统深度解析:架构设计与性能优化指南

RK3588开发板Ubuntu系统深度解析:架构设计与性能优化指南 【免费下载链接】ubuntu-rockchip Ubuntu for Rockchip RK35XX Devices 项目地址: https://gitcode.com/gh_mirrors/ub/ubuntu-rockchip 在嵌入式开发领域,Rockchip RK3588处理器凭借其强…...

FlashAttention 深度解读:让大模型注意力机制“一口气算完“

FlashAttention:让大模型注意力机制"一口气算完" 想象你在厨房做菜。冰箱在远处(HBM,高带宽内存),料理台在面前(SRAM,片上缓存)。每次要切菜,都得走过去开冰箱…...

实战测试10款降AIGC软件:只选真正管用的那一款!

随着AI写作工具的普及,论文撰写和内容创作变得前所未有的高效,许多学生和职场人都从中受益。然而,随着AIGC检测技术的不断升级,越来越多的人开始面临新的挑战:原本流畅自然的AI生成内容,如今很容易被系统识…...

【期刊征稿 | 录用后最快当月见刊,刊后1个月检索,且检索稳定】第九届艺术、教育与管理国际学术会议(ICAEM 2026) - 第二期

录用后最快当月见刊,刊后1个月检索,且检索稳定 | 含ISSN号,DOI,封面目录 第九届艺术、教育与管理国际学术会议(ICAEM 2026) - 第二期 2026 9th International Conference on Arts, Education and Management 2026年…...

从入门到发烧:2026 Linux 必装 13 款播放器(VLC/MPV/Kodi 全覆盖)

Linux视频播放器选择多样,如榛名、MPlayer、VLC等,功能强大、支持多格式,满足各类用户需求 一、榛名视频播放器 榛名视频播放器是一款基于Qt的开源视频播放器,提供了许多基本功能。其特点包括支持Youtube-dl、控制播放速度、丰富…...

【案例共创】CodeArts+SKILL 双引擎:AI 驱动 WEB 服务器极速部署

本案例由开发者:JeffDing提供,华为开发者空间案例中心优化并收录。 最新案例动态,请查阅【案例共创】CodeArtsSKILL 双引擎:AI 驱动 WEB 服务器极速部署小伙伴们快来进行实操吧! 一、概述 1.1 案例介绍 华为云码道…...

如何在跨平台场景下实现高效远程桌面控制?BilldDesk Pro的现代化解决方案

如何在跨平台场景下实现高效远程桌面控制?BilldDesk Pro的现代化解决方案 【免费下载链接】billd-desk 基于Vue3 WebRTC Nodejs Flutter搭建的远程桌面控制、游戏串流 项目地址: https://gitcode.com/gh_mirrors/bi/billd-desk 在远程办公和技术支持日益普…...

3步搞定:m4s-converter让你的B站缓存视频重获新生

3步搞定:m4s-converter让你的B站缓存视频重获新生 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾经遇到过这样的困境&#…...

Flink 2.2集成Flink CDC 3.6

1 、部署Flink CDC tar -zxf flink-cdc-3.6.0-2.2-bin.tar.gz -C /usr/bigtop/3.3.0/usr/libln -s /usr/bigtop/3.3.0/usr/lib/flink-cdc-3.6...

三步解锁全网盘极速下载:免登录直链解析完整教程

三步解锁全网盘极速下载:免登录直链解析完整教程 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘 …...

网盘直链解析工具:多平台文件下载的实用解决方案

网盘直链解析工具:多平台文件下载的实用解决方案 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘 …...

GitHub资源精准下载:3分钟掌握DownGit的完整使用指南

GitHub资源精准下载:3分钟掌握DownGit的完整使用指南 【免费下载链接】DownGit github 资源打包下载工具 项目地址: https://gitcode.com/gh_mirrors/dow/DownGit 还在为下载GitHub上单个文件而烦恼吗?DownGit是你的终极解决方案!这个…...

技术人的收入结构优化:工资、副业、投资的三支柱模型

在软件测试的世界里,我们熟知一个真理:没有任何单一测试策略能保证系统的绝对健壮。一个高质量的系统,必然建立在单元测试、集成测试、系统测试和验收测试所构成的稳固金字塔上。同样的逻辑,也适用于我们技术人的财务健康。过度依…...

实力入选丨全知科技荣登嘶吼2026网络安全产业图谱

近日,嘶吼安全产业研究院正式发布《嘶吼2026网络安全产业图谱》。全知科技凭借在数据安全赛道的长期深耕积淀、持续技术创新能力与规模化行业落地实践,成功入选图谱数据安全核心板块,强势入围开发与应用安全、数据安全两大核心板块&#xff0…...

9大网盘直链解析:免费高效的完整下载解决方案

9大网盘直链解析:免费高效的完整下载解决方案 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘 / 迅…...

B-H 曲线 vs B-P 曲线|磁芯材料两大核心曲线详解

一、B-H 曲线:描述磁芯 “能不能导磁、会不会饱和” 1. 它是什么? 全称:B-H 磁化曲线 定义:磁感应强度 B(单位:T)与磁场强度 H(单位:A/m)的关系曲线 物理意义:反映磁芯材料在磁场中的磁化特性,决定磁导率、饱和磁通密度。 2. 核心作用 计算磁路磁阻、电感值; 判断…...