【python数据分析11】——Pandas统计分析(分组聚合进行组内计算)
分组聚合进行组内计算
- 前言
- 1、groupby方法拆分数据
- 2、agg方法聚合数据
- 3、apply方法聚合数据
- 4、transform方法聚合数据
- 5 小案例
- 5.1 按照时间对菜品订单详情表进行拆分
- 5.2 使用agg方法计算
- 5.3 使用apply方法统计单日菜品销售数目
前言
依据某个或者几个字段对数据集进行分组,并对各组应用一个函数,无论是聚合还是转换,都是数据分析的常用操作。pandas提供了一个灵活高效的groupby方法,配合agg或apply方法,能够实现分组聚合的操作。
原理图如下:
1、groupby方法拆分数据
groupby方法提供的是分组聚合步骤中的拆分功能,能够根据索引或者字段对数据进行分组。方法格式如下:
DataFrame.groupby(by=None,axis=0,level=None,as_index=True,sort=True,group_key=True,squeeze=False,**kwargs)
参数说明:
- by: 接收list、string、mapping或 generator。用于确定进行分组的依据。如果传人的是一个函数,则对索引进行计算并分组;如果传入的是一个字典或者Series,则字典或者Series的值用来作为分组依据;如果传入一个NumPy数组,则数据的元素作为分组依据;如果传人的是字符串或者字符串列表,则使用这些字符串所代表的字段作为分组依据。无默认 。
- axis:表示操作的轴向,默认对列进行操作。默认为0。
- level:接收int或者索引名。代表标签所在级别。默认为None。
- as_index:表示聚合后的聚合标签是否以DataFrame 索引形式输出。默认为 True。
- sort:接收boolean。表示是否对分组依据、分组标签进行排序。默认为True。
- group_keys:接收boolean。表示是否显示分组标签的名称。默认为 True。
- squeeze:接收boolean。表示是否在允许的情况下对返回数据进行降维。默认为False。
以餐饮企业的菜品订单详情表为例,依据订单编号对数据进行分组。
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
username = 'root' # 替换为你的数据库用户名
password = '1234' # 替换为你的数据库密码
host = 'localhost' # 数据库地址
database = 'testdb' # 数据库名称# 创建数据库连接
engine = create_engine(f'mysql+pymysql://{username}:{password}@{host}/{database}')
detail = pd.read_sql_table('meal_order_detail1',con = engine)
detailGroup = detail[['order_id','counts','amounts']].groupby(by = 'order_id')
print('分组后的订单详情表为:',detailGroup)
输出:
由输出可知,分组后的结果并不能直接看,而是被存在内存中,输出的是内存地址。实际上,分组后的数据对象Groupby类似于Series与DataFrame,是pandas提供的一种对象。常用的描述性统计方法如下表:
方法名称 | 说明 |
---|---|
count | 计算分组的数目,包括缺失值 |
head | 返回每组的前n个值 |
max | 返回每组最大值 |
mean | 返回每组的均值 |
median | 返回每组的中位数 |
cumcount | 对每个分组中的组员进行标记,0~n-1 |
size | 返回每组的大小 |
min | 返回每组最小值 |
std | 返回每组的标准差 |
sum | 返回每组的和 |
对餐饮企业的菜品订单表经过分组操作后的每一组的均值、标准差、中位数
print('订单详情表分组后前5组每组的均值为:\n', detailGroup.mean().head())
print('订单详情表分组后前5组每组的标准差为:\n', detailGroup.std().head())
print('订单详情表分组后前5组每组的大小为:','\n', detailGroup.size().head())
2、agg方法聚合数据
agg、aggregate方法支持对每个分组应用某函数,包括python内置函数或自定义函数。同时这两个方法也能直接对DataFrame进行函数应用操作。
注意:agg函数能够对DataFrame对象进行操作师从pandas0.20版本开始的,在之前版本中,没有此功能。针对DataFrame的aggyuaggregate函数使用格式如下:
DataFrame.agg(func,axis=0,*args,**kwargs)
DataFrame.aggregate(func,axis=0,*args,**kwargs)
参数说明如下:
- func:接收list、dict、function。表示应用于每行或者每列的函数。无默认
- axis:接收0或1。代表操作的轴向。默认为0
agg、aggregate几乎完全相同,以T餐饮企业的菜品订单信息表为例,使用agg方法一次求出当前数据中所有菜品销量和售价的总和与均值,如下:
print('订单详情表的菜品销量与售价的和与均值为:\n',detail[['counts','amounts']].agg([np.sum,np.mean]))
输出:
一个字段求和,另一个求均值
print('订单详情表的菜品销量总和与售价的均值为:\n',detail.agg({'counts':np.sum,'amounts':np.mean}))
输出:
求某个字段多个统计量
print('菜品订单详情表的菜品销量总和与售价的总和与均值为:\n',detail.agg({'counts':np.sum,'amounts':[np.mean,np.sum]}))
输出:
上述都是numpy库的统计函数,也可以传入自定义的函数。例如:
##自定义函数求两倍的和
def DoubleSum(data):s = data.sum()*2return s
print('菜品订单详情表的菜品销量两倍总和为:','\n',detail.agg({'counts':DoubleSum},axis = 0))
输出:
在自定义函数中,使用numpy库中的这些函数时,如果计算的时候是单个序列,则无法得出想要的结果,如果是多列数据同时计算,就不会出现这个问题。例如:
##自定义函数求两倍的和
def DoubleSum1(data):s = np.sum(data)*2return s
print('订单详情表的菜品销量两倍总和为:\n',detail.agg({'counts':DoubleSum1},axis = 0).head())print('订单详情表的菜品销量与售价的和的两倍为:\n',detail[['counts','amounts']].agg(DoubleSum1))
输出:
使用agg方法也能够实现对每一个字段的每一组使用相同的函数,如下:
print('订单详情表分组后前3组每组的均值为:\n', detailGroup.agg(np.mean).head(3))print('订单详情表分组后前3组每组的标准差为:\n', detailGroup.agg(np.std).head(3))
输出:
如果需要对不同的字段应用不同的函数,则与DataFrame中使用agg方法的操作相同。使用agg方法对分组后的菜品订单表求取每组菜品总数和售价均值。
print('订单详情分组前3组每组菜品总数和售价均值为:\n', detailGroup.agg({'counts':np.sum,'amounts':np.mean}).head(3))
3、apply方法聚合数据
apply方法类似于agg方法,能够将函数应用于每一列。不同之处在与,与agg方法相比,apply方法传入的函数只能够作用于整个DataFrame或者Series,而无法像agg一样能够对不同字段应用不同函数来获取不同结果。
apply方法的形式如下:
DataFrame.apply(func,axis=0,broadcast=False,raw=False,reduce=None,args(),**kwds)
参数说明:
- func:接收functions,表示应用于每行或每列的函数,无默认
- axis:接收0或1,代表操作的轴向。默认为0
- broadcast:接收boolean,表示是否进行广播。默认为False
- raw:接收boolean,表示是否直接将ndarray对象传递给函数。默认为False
- reduce:接收boolean或者None,表示返回值的格式。默认None
apply方法的使用方式和agg方法相同,如下:
print('订单详情表的菜品销量与售价的均值为:\n',detail[['counts','amounts']].apply(np.mean))
使用apply方法对groupby对象进行聚合操作的方法和agg方法也相同,只是使用agg方法能够实现对不同的字段应用不同的函数,而apply不行。
4、transform方法聚合数据
transform方法能够对整个DataFrame的所有元素进行操作。transform方法只有一个参数“func”,表示对DataFrame操作的函数,如下:
print('订单详情表的菜品销量与售价的两倍为:\n',detail[['counts','amounts']].transform(lambda x:x*2).head(4))
输出:
同时,transform方法还能够对DataFrame分组后的对象groupby进行操作,可以实现组内离差标准化等操作。
print('订单详情表分组后实现组内离差标准化后前五行为:\n', detailGroup.transform(lambda x:(x.mean()-x.min())/(x.max()-x.min())).head())
输出:
输出中部分为NaN,这是由于销量中的许多订单的最大值和最小值是相同的,根据离差标准化公式,最大值和最小值相同的情况下分母是0,而分母为0的数在python中表示为NaN
5 小案例
5.1 按照时间对菜品订单详情表进行拆分
通过分组聚合的方式能够将每天的数据放在一个组内,从而可以方便地对每一个组的内容进行分析。
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:\
3306/testdb?charset=utf8')
detail = pd.read_sql_table('meal_order_detail1',con = engine)
detail['place_order_time'] = pd.to_datetime(detail['place_order_time'])
detail['date'] = [i.date() for i in detail['place_order_time']]
detailGroup = detail[['date','counts','amounts']].groupby(by='date')
print('订单详情表前5组每组的数目为:\n',detailGroup.size().head())
5.2 使用agg方法计算
对已经拆分完成的订单详情表进行聚合,得出每组的销售均价和售价中位数等信息
dayMean = detailGroup.agg({'amounts':np.mean})
print('订单详情表前五组每日菜品均价为:\n',dayMean.head())dayMedian = detailGroup.agg({'amounts':np.median})
print('订单详情表前五组每日菜品售价中位数为:\n',dayMedian.head())
输出:
5.3 使用apply方法统计单日菜品销售数目
除了可以对售价进行计算外,还可以计算单日总共销售的菜品数目,如下
daySaleSum = detailGroup.apply(np.sum)['counts']
print('订单详情表前五组每日菜品售出数目为:\n',daySaleSum.head())
输出:
相关文章:

【python数据分析11】——Pandas统计分析(分组聚合进行组内计算)
分组聚合进行组内计算 前言1、groupby方法拆分数据2、agg方法聚合数据3、apply方法聚合数据4、transform方法聚合数据5 小案例5.1 按照时间对菜品订单详情表进行拆分5.2 使用agg方法计算5.3 使用apply方法统计单日菜品销售数目 前言 依据某个或者几个字段对数据集进行分组&…...

高性能web服务器
目录 一、简介 (一)nginx-高性能的web服务端 (二)用户访问体验 二、I/O模型 (一)概念 (二)网络I/O模型 (三)阻塞型 I/O 模型 (四…...

微服务案例搭建
目录 一、案例搭建 1.数据库表 2.服务模块 二、具体代码实现如下: (1) 首先是大体框架为: (2)父模块中的pom文件配置 (3)shop_common模块,这个模块里面只需要配置pom.xml,与实体…...

SAP负库存
业务示例 在系统中,对于一些物料而言,不能立即将收到的交货输入为收货。如果要使发货无论如何都是可以过帐的,则需要允许这些物料的负库存。 负库存 发货数量大于预订数量时,过帐该发货就会出现负库存。如果由于组织原因&#…...

集团数字化转型方案(三)
集团数字化转型方案通过系统整合人工智能(AI)、大数据、云计算和物联网(IoT)技术,建立了一个全面智能化的业务管理平台,涵盖从业务流程自动化、数据驱动决策支持,到客户体验优化和供应链管理的各…...
ESP32智能设备:蓝牙音箱、AI语音助手、环境监测与调节以及智能控制,基于BLE与MQTT技术(代码详解)
本文将介绍如何实现一个功能丰富的ESP32项目,集成蓝牙音箱、AI语音助手、智能设备控制器、环境监测与调节等功能。通过本项目,您将学习到硬件设计、嵌入式编程、蓝牙技术、音频处理、人工智能与语音识别、物联网平台、数据分析及用户界面构建等技术。 一…...

web渗透测试 学习导图
web渗透学习路线 前言 一、web渗透测试是什么? Web渗透测试分为白盒测试和黑盒测试,白盒测试是指目标网站的源码等信息的情况下对其渗透,相当于代码分析审计。而黑盒测试则是在对该网站系统信息不知情的情况下渗透,以下所说的Web…...
WordPress禁止后台自定义功能
wordpress后台可以彻底禁止主题的自定义菜单功能,下面这段代码添加到functions.php文件中,后台外观菜单中的”自定义”就会消失不见了。 add_filter(map_meta_cap, function($caps, $cap){if($cap customize){return [do_not_allow];}return $caps; },…...
(六)Flink 窗口计算
窗口(Window)是处理无界流的关键所在。窗口可以将数据流装入大小有限的“桶”中,再对每个“桶”加以处理。 目录 时间概念 窗口类型 窗口划分 窗口的生命周期 Window Assigners 窗口函数 Triggers 窗口触发器 Evictor 数据剔除器 Allowed Lateness 旁路输出 时间…...

SQL 布尔盲注 (injection 第六关)
简介 SQL注入(SQL Injection)是一种常见的网络攻击方式,通过向SQL查询中插入恶意的SQL代码,攻击者可以操控数据库,SQL注入是一种代码注入攻击,其中攻击者将恶意的SQL代码插入到应用程序的输入字段中&am…...

OpenAI 重回巅峰:ChatGPT-4O 最新模型超越谷歌 Gemini 1.5,多项测试夺冠!
谷歌上周发布的Gemini 1.5 Pro模型,在LMSYS办的聊天机器人竞技场Chatbot Arena中获得第一名。但是,OpenAI迅速反应,推出了最新的chatgpt-4o-latest模型,重新夺回了冠军头衔。 chatgpt-4o-latest模型简介 OpenAI最近推出了名为gpt-…...
软件工程(2)面向对象方法:Booch方法与开发实例
Booch方法(Booch Method)是由Grady Booch提出的一种面向对象的软件开发方法。它是一种系统分析与设计的框架,主要用于设计和建模面向对象的系统。Booch方法特别关注对象模型的构建,以及类、对象和它们之间的关系。以下是Booch方法…...
高阶面试-concurrentHashMap的整理
算不上死磕,里面太痛苦了,现在很多位移等操作还看不懂,只是先理清大致思路,面试用 concurrentHashMap的实现原理 为啥会用到?并发安全。之前都用的hashtable实现线程安全的map,但是太过笨重,不…...

VSCode系列 - 如何用VSCode搭建C++高效开发环境(1)
VSCode是笔者用过的最好用的开发工具,没有之一。笔者14年的码龄生涯中,先后用过Eclipse、 IntelliJ IDEA、 WebStorm、 PyCharm、 Visual Studio(2010/2013/2015)、 NetBeans、 Sublime Text等,但自从用VSCode之后,就再没换过其他…...

【人工智能】Python融合机器学习、深度学习和微服务的创新之路
1. 🚀 引言1.1 🚀 人工智能的现状与发展趋势1.2 📜 机器学习、深度学习和神经网络的基本概念1.3 🏆 微服务架构在人工智能中的作用 2. 🔍 机器学习的演变与创新2.1 🌟 机器学习的历史回顾2.2 🧠…...

Stability AI发布了单目视频转4D模型的新AI模型:Stable Video 4D
开放生成式人工智能初创公司Stability AI在3月发布了Stable Video 3D,是一款可以根据图像中的物体生成出可旋转的3D模型视频工具。Stability AI在7月24日发布了新一代的Stable Video 4D,增添了赋予3D模移动作的功能。 Stable Video 4D能在约40秒内生成8…...

网站如何被Google收录?
想让你的网站快速被Google收录?试试GSI快速收录服务吧,这是通过谷歌爬虫池系统来实现的。这套系统吸引并圈养Google爬虫,提高你网站的抓取频率。每天有大量Google爬虫抓取你的网站页面,大大提高了页面的收录概率,从而增…...

LearnOpenGL——法线贴图、视差贴图学习笔记
LearnOpenGL——法线贴图、视差贴图学习笔记 法线贴图 Normal Mapping一、基本概念二、切线空间1. TBN矩阵2. 切线空间中的法线贴图 三、复杂模型四、小问题 视差贴图 Parallax Mapping一、基本概念二、实现视差贴图三、陡峭视差映射 Steep Parallax Mapping四、视差遮蔽映射 P…...

界面优化 - 绘图
目录 1. 基本概念 2. 绘制各种形状 2.1 绘制线段 2.2 绘制矩形 2.3 绘制圆形 2.4 绘制文本 2.5 设置画笔 2.6 设置画刷 3. 绘制图片 3.1 绘制简单图片 3.2 平移图片 3.3 缩放图片 3.4 旋转图片 1. 基本概念 虽然 Qt 已经内置了很多的控件, 但是不能保证现有控件就…...

死锁问题分析和解决——资源回收时
1.描述问题 在完成线程池核心功能功能时,没有遇到太大的问题(Any,Result,Semfore的设计),在做线程池资源回收时,遇到了死锁的问题 1、在ThreadPool的资源回收,等待线程池所有线程退出时ÿ…...
Ubuntu系统下交叉编译openssl
一、参考资料 OpenSSL&&libcurl库的交叉编译 - hesetone - 博客园 二、准备工作 1. 编译环境 宿主机:Ubuntu 20.04.6 LTSHost:ARM32位交叉编译器:arm-linux-gnueabihf-gcc-11.1.0 2. 设置交叉编译工具链 在交叉编译之前&#x…...

Opencv中的addweighted函数
一.addweighted函数作用 addweighted()是OpenCV库中用于图像处理的函数,主要功能是将两个输入图像(尺寸和类型相同)按照指定的权重进行加权叠加(图像融合),并添加一个标量值&#x…...

什么是库存周转?如何用进销存系统提高库存周转率?
你可能听说过这样一句话: “利润不是赚出来的,是管出来的。” 尤其是在制造业、批发零售、电商这类“货堆成山”的行业,很多企业看着销售不错,账上却没钱、利润也不见了,一翻库存才发现: 一堆卖不动的旧货…...

从零开始打造 OpenSTLinux 6.6 Yocto 系统(基于STM32CubeMX)(九)
设备树移植 和uboot设备树修改的内容同步到kernel将设备树stm32mp157d-stm32mp157daa1-mx.dts复制到内核源码目录下 源码修改及编译 修改arch/arm/boot/dts/st/Makefile,新增设备树编译 stm32mp157f-ev1-m4-examples.dtb \stm32mp157d-stm32mp157daa1-mx.dtb修改…...

PL0语法,分析器实现!
简介 PL/0 是一种简单的编程语言,通常用于教学编译原理。它的语法结构清晰,功能包括常量定义、变量声明、过程(子程序)定义以及基本的控制结构(如条件语句和循环语句)。 PL/0 语法规范 PL/0 是一种教学用的小型编程语言,由 Niklaus Wirth 设计,用于展示编译原理的核…...

JVM虚拟机:内存结构、垃圾回收、性能优化
1、JVM虚拟机的简介 Java 虚拟机(Java Virtual Machine 简称:JVM)是运行所有 Java 程序的抽象计算机,是 Java 语言的运行环境,实现了 Java 程序的跨平台特性。JVM 屏蔽了与具体操作系统平台相关的信息,使得 Java 程序只需生成在 JVM 上运行的目标代码(字节码),就可以…...

C# 表达式和运算符(求值顺序)
求值顺序 表达式可以由许多嵌套的子表达式构成。子表达式的求值顺序可以使表达式的最终值发生 变化。 例如,已知表达式3*52,依照子表达式的求值顺序,有两种可能的结果,如图9-3所示。 如果乘法先执行,结果是17。如果5…...
【深尚想】TPS54618CQRTERQ1汽车级同步降压转换器电源芯片全面解析
1. 元器件定义与技术特点 TPS54618CQRTERQ1 是德州仪器(TI)推出的一款 汽车级同步降压转换器(DC-DC开关稳压器),属于高性能电源管理芯片。核心特性包括: 输入电压范围:2.95V–6V,输…...
__VUE_PROD_HYDRATION_MISMATCH_DETAILS__ is not explicitly defined.
这个警告表明您在使用Vue的esm-bundler构建版本时,未明确定义编译时特性标志。以下是详细解释和解决方案: 问题原因: 该标志是Vue 3.4引入的编译时特性标志,用于控制生产环境下SSR水合不匹配错误的详细报告1使用esm-bundler…...

【多线程初阶】单例模式 指令重排序问题
文章目录 1.单例模式1)饿汉模式2)懒汉模式①.单线程版本②.多线程版本 2.分析单例模式里的线程安全问题1)饿汉模式2)懒汉模式懒汉模式是如何出现线程安全问题的 3.解决问题进一步优化加锁导致的执行效率优化预防内存可见性问题 4.解决指令重排序问题 1.单例模式 单例模式确保某…...