深入解析 `DataFrame.groupby` 和 `agg` 的用法及使用场景
深入解析 `DataFrame.groupby` 和 `agg` 的用法及使用场景
- 1. `groupby` 的基本用法
- 语法:
- 示例:
- 2. `agg` 的基本用法
- 语法:
- 示例:
- 3. `first`、`sum`、`lambda` 的用法
- 3.1 `first`
- 示例:
- 3.2 `sum`
- 示例:
- 3.3 `lambda`
- 示例:
- 4. `reset_index` 的用法
- 语法:
- 示例:
- 5. 综合示例:`groupby` + `agg` 的完整用法
- 6. 总结
在数据分析和处理中,pandas
是一个非常强大的工具。其中,DataFrame.groupby
和 agg
是两个常用的功能,它们可以帮助我们对数据进行分组、聚合和转换。本文将详细讲解 groupby
和 agg
的用法,以及如何结合 first
、sum
、lambda
和 reset_index
来实现复杂的数据处理。
1. groupby
的基本用法
groupby
是 pandas
中用于分组数据的函数。它的核心思想是将数据按照某个或某些列的值进行分组,然后对每个分组进行操作。
语法:
DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False)
- by:指定分组的列名或列名列表。
- as_index:是否将分组列作为索引,默认为
True
。 - sort:是否对分组键进行排序,默认为
True
。
示例:
假设我们有一个包含学生成绩的 DataFrame
:
import pandas as pddata = {'Name': ['Alice', 'Bob', 'Alice', 'Bob', 'Alice'],'Subject': ['Math', 'Math', 'Science', 'Science', 'Math'],'Score': [85, 90, 88, 92, 95]
}df = pd.DataFrame(data)
print(df)
输出:
Name Subject Score
0 Alice Math 85
1 Bob Math 90
2 Alice Science 88
3 Bob Science 92
4 Alice Math 95
我们可以按照 Name
列进行分组:
grouped = df.groupby('Name')
print(grouped.groups)
输出:
{'Alice': [0, 2, 4], 'Bob': [1, 3]}
2. agg
的基本用法
agg
是 groupby
对象的一个方法,用于对分组后的数据进行聚合操作。它可以接受一个函数、字符串(如 'sum'
、'mean'
)或字典(指定不同列的聚合方式)。
语法:
DataFrame.groupby(...).agg(func, *args, **kwargs)
- func:聚合函数,可以是字符串、函数或字典。
示例:
我们继续使用上面的 df
,计算每个学生的平均分:
result = df.groupby('Name').agg({'Score': 'mean'})
print(result)
输出:
Score
Name
Alice 89.333333
Bob 91.000000
3. first
、sum
、lambda
的用法
在 agg
中,我们可以使用多种聚合函数来处理数据。以下是常用的几种:
3.1 first
first
用于获取每个分组中第一行的值。
示例:
result = df.groupby('Name').agg({'Subject': 'first', 'Score': 'mean'})
print(result)
输出:
Subject Score
Name
Alice Math 89.333333
Bob Math 91.000000
3.2 sum
sum
用于计算每个分组中数值列的总和。
示例:
result = df.groupby('Name').agg({'Score': 'sum'})
print(result)
输出:
Score
Name
Alice 268
Bob 182
3.3 lambda
lambda
是一种匿名函数,可以在 agg
中自定义聚合逻辑。
示例:
假设我们想将每个学生的 Score
转换为字符串,并在前面加上 "Score: "
:
result = df.groupby('Name').agg({'Score': lambda x: 'Score: ' + str(x.sum())})
print(result)
输出:
Score
Name
Alice Score: 268.0
Bob Score: 182.0
4. reset_index
的用法
reset_index
用于重置 DataFrame
的索引。当使用 groupby
和 agg
后,分组列会作为索引,如果需要将其还原为普通列,可以使用 reset_index
。
语法:
DataFrame.reset_index(level=None, drop=False, inplace=False, col_level=0, col_fill='')
- drop:是否丢弃索引列,默认为
False
。
示例:
result = df.groupby('Name').agg({'Score': 'mean'}).reset_index()
print(result)
输出:
Name Score
0 Alice 89.333333
1 Bob 91.000000
5. 综合示例:groupby
+ agg
的完整用法
现在,我们来看一个更复杂的例子,结合 first
、sum
、lambda
和 reset_index
来处理数据。
假设我们有一个包含边信息的 DataFrame
:
data = {'edge_key': ['A', 'A', 'B', 'B', 'C'],'source': ['X', 'X', 'Y', 'Y', 'Z'],'target': ['P', 'P', 'Q', 'Q', 'R'],'text_unit_ids': [[1, 2], [3], [4], [5, 6], [7]],'weight': [10, 20, 30, 40, 50],'description': ['Edge A', 'Edge A', 'Edge B', 'Edge B', 'Edge C'],'human_readable_id': ['A1', 'A2', 'B1', 'B2', 'C1'],'id': [1, 2, 3, 4, 5]
}df = pd.DataFrame(data)
print(df)
输出:
edge_key source target text_unit_ids weight description human_readable_id id
0 A X P [1, 2] 10 Edge A A1 1
1 A X P [3] 20 Edge A A2 2
2 B Y Q [4] 30 Edge B B1 3
3 B Y Q [5, 6] 40 Edge B B2 4
4 C Z R [7] 50 Edge C C1 5
我们希望对 edge_key
进行分组,并进行以下操作:
source
和target
取第一行的值。text_unit_ids
合并为一个列表。weight
求和。description
拼接为一个字符串。human_readable_id
和id
取第一行的值。
代码如下:
def _aggregate_text_unit_ids(x):return [item for sublist in x for item in sublist]def _add_quotes(s):return f'"{s}"'updated_edges_df = df.groupby('edge_key').agg(source=('source', 'first'),target=('target', 'first'),text_unit_ids=('text_unit_ids', _aggregate_text_unit_ids),weight=('weight', 'sum'),description=('description', lambda x: ''.join(x.apply(_add_quotes))),human_readable_id=('human_readable_id', 'first'),id=('id', 'first'),
).reset_index(drop=True)print(updated_edges_df)
输出:
source target text_unit_ids weight description human_readable_id id
0 X P [1, 2, 3] 30 "Edge A""Edge A" A1 1
1 Y Q [4, 5, 6] 70 "Edge B""Edge B" B1 3
2 Z R [7] 50 "Edge C" C1 5
6. 总结
通过本文,我们学习了 groupby
和 agg
的基本用法,以及如何结合 first
、sum
、lambda
和 reset_index
来实现复杂的数据处理。这些功能在数据分析和处理中非常实用,能够帮助我们高效地完成任务。
希望这篇文章能帮助你更好地理解和使用 groupby
和 agg
。如果你有任何问题或想了解更多,欢迎在评论区留言!
Happy Coding! 🚀
相关文章:
深入解析 `DataFrame.groupby` 和 `agg` 的用法及使用场景
深入解析 DataFrame.groupby 和 agg 的用法及使用场景 1. groupby 的基本用法语法:示例: 2. agg 的基本用法语法:示例: 3. first、sum、lambda 的用法3.1 first示例: 3.2 sum示例: 3.3 lambda示例ÿ…...
MySQL 的锁
MySQL有哪些锁?各种锁的作用与使用场景全局锁表级锁表锁元素锁意向锁AUTO-INC 锁 行级锁记录锁间隙锁临键锁 其他共享锁排他锁乐观锁悲观锁 MySQL有哪些锁? 全局锁表级锁 a. 表锁 b. 元素锁 c. 意向锁 d. AUTO-INC 锁行级锁 a. 记录锁 b. 间隙锁 c. 临键锁 各种锁的作用与使…...

二、使用langchain搭建RAG:金融问答机器人--数据清洗和切片
选择金融领域的专业文档作为源文件 这里选择 《博金大模型挑战赛-金融千问14b数据集》,这个数据集包含若干公司的年报,我们将利用这个年报搭建金融问答机器人。 具体下载地址 这里 git clone https://www.modelscope.cn/datasets/BJQW14B/bs_challenge_…...
【Linux】-- linux 配置用户免密登录本机
比如我们要配置用户 app_tom 免密登录本机(SSH 登录自己机器时无需输入密码),你可以按照以下步骤操作: 步骤 1:切换到 app_tom 用户 首先,确保你已经以 app_tom 用户登录,或者切换到该用户&…...

泷羽sec学习打卡-brupsuite8伪造IP和爬虫审计
声明 学习视频来自B站UP主 泷羽sec,如涉及侵权马上删除文章 笔记的只是方便各位师傅学习知识,以下网站只涉及学习内容,其他的都 与本人无关,切莫逾越法律红线,否则后果自负 关于brupsuite的那些事儿-Brup-FaskIP 伪造IP配置环境brupsuite导入配置1、扩展中先配置python环境2、安…...
【uniapp蓝牙】基于native.js链接ble和非ble蓝牙
【uniapp蓝牙】基于native.js链接ble和非ble蓝牙 uniapp不是仅支持低功耗蓝牙(基础蓝牙通讯不支持),有些可能需要基础蓝牙。我现在同步我的手机蓝牙列表低功耗,基础蓝牙都支持 /*** author wzj* 通用蓝牙模块封装* 搜索 ble 和非…...
.NET Core 各版本特点、差异及适用场景详解
随着 .NET Core 的不断发展,微软推出了一系列版本来满足不同场景下的开发需求。这些版本随着时间的推移逐渐演变为统一的 .NET 平台(从 .NET 5 开始)。本文将详细说明每个版本的特点、差异以及适用场景,帮助开发者更好地选择和使用…...
Linux中自动检测并定时关闭KDialog程序
自动检测并关闭对话框的程序示例 创建并打开KDialog的脚本自动检测并定时关闭KDialog的脚本 创建并打开KDialog的脚本 #!/bin/bash kdialog --msgbox "demo"自动检测并定时关闭KDialog的脚本 #!/bin/bash# Continuously check for kdialog dialog while true; do# …...

CSS学习记录12
CSS浮动 CSSfloat属性规定元素如何浮动 CSSclear属性规定哪些元素可以在清除的元素旁边以及在哪一侧浮动。 float属性 float属性用于定位和格式化内容,例如让图像向左浮动到容器的文本那里。 float属性可以设置以下值之一: left - 元素浮动到其容器…...
【Java基础面试题016】JavaObject类中有什么主要方法,作用是什么?
equals() 作用:用于比较两个对象是否相等。默认实现比较对象的内存地址,即判断两个引用是否指向同一个对象 使用:通常会重写此方法来比较对象的内容 hashCode() 作用:返回对象的哈希值,用整数表示对象。 使用&…...

实践环境-docker安装mysql8.0.40步骤
一、docker安装mysql 8.0.40版本 1、检索镜像版本 docker search mysql:8.0.40 NAME DESCRIPTION STARS OFFICIAL mysql MySQL is a widely used, open-source relation… …...

边缘智能创新应用大赛获奖作品系列一:智能边缘计算✖软硬件一体化,开启全场景效能革命新征程
边缘智能技术快速迭代,并与行业深度融合。它正重塑产业格局,催生新产品、新体验,带动终端需求增长。为促进边缘智能技术的进步与发展,拓展开发者的思路与能力,挖掘边缘智能应用的创新与潜能,高通技术公司联…...

决策树的生成与剪枝
决策树的生成与剪枝 决策树的生成生成决策树的过程决策树的生成算法 决策树的剪枝决策树的损失函数决策树的剪枝算法 代码 决策树的生成 生成决策树的过程 为了方便分析描述,我们对上节课中的训练样本进行编号,每个样本加一个ID值,如图所示…...
蓝桥杯算法训练 黑色星期五
题目描述 有些西方人比较迷信,如果某个月的13号正好是星期五,他们就会觉得不太吉利,用古人的说法,就是“诸事不宜”。请你编写一个程序,统计出在某个特定的年份中,出现了多少次既是13号又是星期五的情形&am…...

MySQL存储引擎-存储结构
Innodb存储结构 Buffer Pool(缓冲池):BP以Page页为单位,页默认大小16K,BP的底层采用链表数据结构管理Page。在InnoDB访问表记录和索引时会在Page页中缓存,以后使用可以减少磁盘IO操作,提升效率。 ○ Page根据状态可以分…...
理解torch函数bmm
基本信息 功能描述 torch.bmm 是 PyTorch 中的一个函数,用于执行批量矩阵乘法(Batch Matrix Multiplication)。它适用于处理一批矩阵的乘法操作,特别适合于深度学习任务中的场景,比如卷积神经网络中的某些层。 参数…...

2024 年的科技趋势
2024 年在科技领域有着诸多重大进展与突破。从人工智能、量子计算到基因组医学、可再生能源以及新兴技术重塑了众多行业。随着元宇宙等趋势的兴起以及太空探索取得的进步,未来在接下来的岁月里有望继续取得进展与突破。让我们来探讨一下定义 2024 年的一些关键趋势&…...

win服务器的架设、windows server 2012 R2 系统的下载与安装使用
文章目录 windows server 2012 R2 系统的下载与安装使用1 windows server 2012 的下载2 打开 VMware 虚拟机软件(1)新建虚拟机(2)设置虚拟机(3)打开虚拟机 windows server 2012(4)进…...
leetcode45.跳跃游戏II
标签:动态规划 给定一个长度为 n 的 0 索引整数数组 nums。初始位置为 nums[0]。每个元素 nums[i] 表示从索引 i 向前跳转的最大长度。换句话说,如果你在 nums[i] 处,你可以跳转到任意 nums[i j] 处:返回到达 nums[n - 1] 的最小跳跃次数。…...

边缘智能创新应用大赛获奖作品系列三:边缘智能强力驱动,机器人天团花式整活赋能千行百业
边缘智能技术快速迭代,并与行业深度融合。它正重塑产业格局,催生新产品、新体验,带动终端需求增长。为促进边缘智能技术的进步与发展,拓展开发者的思路与能力,挖掘边缘智能应用的创新与潜能,高通技术公司联…...

大话软工笔记—需求分析概述
需求分析,就是要对需求调研收集到的资料信息逐个地进行拆分、研究,从大量的不确定“需求”中确定出哪些需求最终要转换为确定的“功能需求”。 需求分析的作用非常重要,后续设计的依据主要来自于需求分析的成果,包括: 项目的目的…...

MFC内存泄露
1、泄露代码示例 void X::SetApplicationBtn() {CMFCRibbonApplicationButton* pBtn GetApplicationButton();// 获取 Ribbon Bar 指针// 创建自定义按钮CCustomRibbonAppButton* pCustomButton new CCustomRibbonAppButton();pCustomButton->SetImage(IDB_BITMAP_Jdp26)…...

汽车生产虚拟实训中的技能提升与生产优化
在制造业蓬勃发展的大背景下,虚拟教学实训宛如一颗璀璨的新星,正发挥着不可或缺且日益凸显的关键作用,源源不断地为企业的稳健前行与创新发展注入磅礴强大的动力。就以汽车制造企业这一极具代表性的行业主体为例,汽车生产线上各类…...
React Native在HarmonyOS 5.0阅读类应用开发中的实践
一、技术选型背景 随着HarmonyOS 5.0对Web兼容层的增强,React Native作为跨平台框架可通过重新编译ArkTS组件实现85%以上的代码复用率。阅读类应用具有UI复杂度低、数据流清晰的特点。 二、核心实现方案 1. 环境配置 (1)使用React Native…...

2021-03-15 iview一些问题
1.iview 在使用tree组件时,发现没有set类的方法,只有get,那么要改变tree值,只能遍历treeData,递归修改treeData的checked,发现无法更改,原因在于check模式下,子元素的勾选状态跟父节…...

PL0语法,分析器实现!
简介 PL/0 是一种简单的编程语言,通常用于教学编译原理。它的语法结构清晰,功能包括常量定义、变量声明、过程(子程序)定义以及基本的控制结构(如条件语句和循环语句)。 PL/0 语法规范 PL/0 是一种教学用的小型编程语言,由 Niklaus Wirth 设计,用于展示编译原理的核…...
【RockeMQ】第2节|RocketMQ快速实战以及核⼼概念详解(二)
升级Dledger高可用集群 一、主从架构的不足与Dledger的定位 主从架构缺陷 数据备份依赖Slave节点,但无自动故障转移能力,Master宕机后需人工切换,期间消息可能无法读取。Slave仅存储数据,无法主动升级为Master响应请求ÿ…...

k8s业务程序联调工具-KtConnect
概述 原理 工具作用是建立了一个从本地到集群的单向VPN,根据VPN原理,打通两个内网必然需要借助一个公共中继节点,ktconnect工具巧妙的利用k8s原生的portforward能力,简化了建立连接的过程,apiserver间接起到了中继节…...
精益数据分析(97/126):邮件营销与用户参与度的关键指标优化指南
精益数据分析(97/126):邮件营销与用户参与度的关键指标优化指南 在数字化营销时代,邮件列表效度、用户参与度和网站性能等指标往往决定着创业公司的增长成败。今天,我们将深入解析邮件打开率、网站可用性、页面参与时…...

零基础在实践中学习网络安全-皮卡丘靶场(第九期-Unsafe Fileupload模块)(yakit方式)
本期内容并不是很难,相信大家会学的很愉快,当然对于有后端基础的朋友来说,本期内容更加容易了解,当然没有基础的也别担心,本期内容会详细解释有关内容 本期用到的软件:yakit(因为经过之前好多期…...