【python数据分析11】——Pandas统计分析(分组聚合进行组内计算)
分组聚合进行组内计算
- 前言
- 1、groupby方法拆分数据
- 2、agg方法聚合数据
- 3、apply方法聚合数据
- 4、transform方法聚合数据
- 5 小案例
- 5.1 按照时间对菜品订单详情表进行拆分
- 5.2 使用agg方法计算
- 5.3 使用apply方法统计单日菜品销售数目
前言
依据某个或者几个字段对数据集进行分组,并对各组应用一个函数,无论是聚合还是转换,都是数据分析的常用操作。pandas提供了一个灵活高效的groupby方法,配合agg或apply方法,能够实现分组聚合的操作。
原理图如下:
1、groupby方法拆分数据
groupby方法提供的是分组聚合步骤中的拆分功能,能够根据索引或者字段对数据进行分组。方法格式如下:
DataFrame.groupby(by=None,axis=0,level=None,as_index=True,sort=True,group_key=True,squeeze=False,**kwargs)
参数说明:
- by: 接收list、string、mapping或 generator。用于确定进行分组的依据。如果传人的是一个函数,则对索引进行计算并分组;如果传入的是一个字典或者Series,则字典或者Series的值用来作为分组依据;如果传入一个NumPy数组,则数据的元素作为分组依据;如果传人的是字符串或者字符串列表,则使用这些字符串所代表的字段作为分组依据。无默认 。
- axis:表示操作的轴向,默认对列进行操作。默认为0。
- level:接收int或者索引名。代表标签所在级别。默认为None。
- as_index:表示聚合后的聚合标签是否以DataFrame 索引形式输出。默认为 True。
- sort:接收boolean。表示是否对分组依据、分组标签进行排序。默认为True。
- group_keys:接收boolean。表示是否显示分组标签的名称。默认为 True。
- squeeze:接收boolean。表示是否在允许的情况下对返回数据进行降维。默认为False。
以餐饮企业的菜品订单详情表为例,依据订单编号对数据进行分组。
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
username = 'root' # 替换为你的数据库用户名
password = '1234' # 替换为你的数据库密码
host = 'localhost' # 数据库地址
database = 'testdb' # 数据库名称# 创建数据库连接
engine = create_engine(f'mysql+pymysql://{username}:{password}@{host}/{database}')
detail = pd.read_sql_table('meal_order_detail1',con = engine)
detailGroup = detail[['order_id','counts','amounts']].groupby(by = 'order_id')
print('分组后的订单详情表为:',detailGroup)
输出:
由输出可知,分组后的结果并不能直接看,而是被存在内存中,输出的是内存地址。实际上,分组后的数据对象Groupby类似于Series与DataFrame,是pandas提供的一种对象。常用的描述性统计方法如下表:
方法名称 | 说明 |
---|---|
count | 计算分组的数目,包括缺失值 |
head | 返回每组的前n个值 |
max | 返回每组最大值 |
mean | 返回每组的均值 |
median | 返回每组的中位数 |
cumcount | 对每个分组中的组员进行标记,0~n-1 |
size | 返回每组的大小 |
min | 返回每组最小值 |
std | 返回每组的标准差 |
sum | 返回每组的和 |
对餐饮企业的菜品订单表经过分组操作后的每一组的均值、标准差、中位数
print('订单详情表分组后前5组每组的均值为:\n', detailGroup.mean().head())
print('订单详情表分组后前5组每组的标准差为:\n', detailGroup.std().head())
print('订单详情表分组后前5组每组的大小为:','\n', detailGroup.size().head())
2、agg方法聚合数据
agg、aggregate方法支持对每个分组应用某函数,包括python内置函数或自定义函数。同时这两个方法也能直接对DataFrame进行函数应用操作。
注意:agg函数能够对DataFrame对象进行操作师从pandas0.20版本开始的,在之前版本中,没有此功能。针对DataFrame的aggyuaggregate函数使用格式如下:
DataFrame.agg(func,axis=0,*args,**kwargs)
DataFrame.aggregate(func,axis=0,*args,**kwargs)
参数说明如下:
- func:接收list、dict、function。表示应用于每行或者每列的函数。无默认
- axis:接收0或1。代表操作的轴向。默认为0
agg、aggregate几乎完全相同,以T餐饮企业的菜品订单信息表为例,使用agg方法一次求出当前数据中所有菜品销量和售价的总和与均值,如下:
print('订单详情表的菜品销量与售价的和与均值为:\n',detail[['counts','amounts']].agg([np.sum,np.mean]))
输出:
一个字段求和,另一个求均值
print('订单详情表的菜品销量总和与售价的均值为:\n',detail.agg({'counts':np.sum,'amounts':np.mean}))
输出:
求某个字段多个统计量
print('菜品订单详情表的菜品销量总和与售价的总和与均值为:\n',detail.agg({'counts':np.sum,'amounts':[np.mean,np.sum]}))
输出:
上述都是numpy库的统计函数,也可以传入自定义的函数。例如:
##自定义函数求两倍的和
def DoubleSum(data):s = data.sum()*2return s
print('菜品订单详情表的菜品销量两倍总和为:','\n',detail.agg({'counts':DoubleSum},axis = 0))
输出:
在自定义函数中,使用numpy库中的这些函数时,如果计算的时候是单个序列,则无法得出想要的结果,如果是多列数据同时计算,就不会出现这个问题。例如:
##自定义函数求两倍的和
def DoubleSum1(data):s = np.sum(data)*2return s
print('订单详情表的菜品销量两倍总和为:\n',detail.agg({'counts':DoubleSum1},axis = 0).head())print('订单详情表的菜品销量与售价的和的两倍为:\n',detail[['counts','amounts']].agg(DoubleSum1))
输出:
使用agg方法也能够实现对每一个字段的每一组使用相同的函数,如下:
print('订单详情表分组后前3组每组的均值为:\n', detailGroup.agg(np.mean).head(3))print('订单详情表分组后前3组每组的标准差为:\n', detailGroup.agg(np.std).head(3))
输出:
如果需要对不同的字段应用不同的函数,则与DataFrame中使用agg方法的操作相同。使用agg方法对分组后的菜品订单表求取每组菜品总数和售价均值。
print('订单详情分组前3组每组菜品总数和售价均值为:\n', detailGroup.agg({'counts':np.sum,'amounts':np.mean}).head(3))
3、apply方法聚合数据
apply方法类似于agg方法,能够将函数应用于每一列。不同之处在与,与agg方法相比,apply方法传入的函数只能够作用于整个DataFrame或者Series,而无法像agg一样能够对不同字段应用不同函数来获取不同结果。
apply方法的形式如下:
DataFrame.apply(func,axis=0,broadcast=False,raw=False,reduce=None,args(),**kwds)
参数说明:
- func:接收functions,表示应用于每行或每列的函数,无默认
- axis:接收0或1,代表操作的轴向。默认为0
- broadcast:接收boolean,表示是否进行广播。默认为False
- raw:接收boolean,表示是否直接将ndarray对象传递给函数。默认为False
- reduce:接收boolean或者None,表示返回值的格式。默认None
apply方法的使用方式和agg方法相同,如下:
print('订单详情表的菜品销量与售价的均值为:\n',detail[['counts','amounts']].apply(np.mean))
使用apply方法对groupby对象进行聚合操作的方法和agg方法也相同,只是使用agg方法能够实现对不同的字段应用不同的函数,而apply不行。
4、transform方法聚合数据
transform方法能够对整个DataFrame的所有元素进行操作。transform方法只有一个参数“func”,表示对DataFrame操作的函数,如下:
print('订单详情表的菜品销量与售价的两倍为:\n',detail[['counts','amounts']].transform(lambda x:x*2).head(4))
输出:
同时,transform方法还能够对DataFrame分组后的对象groupby进行操作,可以实现组内离差标准化等操作。
print('订单详情表分组后实现组内离差标准化后前五行为:\n', detailGroup.transform(lambda x:(x.mean()-x.min())/(x.max()-x.min())).head())
输出:
输出中部分为NaN,这是由于销量中的许多订单的最大值和最小值是相同的,根据离差标准化公式,最大值和最小值相同的情况下分母是0,而分母为0的数在python中表示为NaN
5 小案例
5.1 按照时间对菜品订单详情表进行拆分
通过分组聚合的方式能够将每天的数据放在一个组内,从而可以方便地对每一个组的内容进行分析。
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:\
3306/testdb?charset=utf8')
detail = pd.read_sql_table('meal_order_detail1',con = engine)
detail['place_order_time'] = pd.to_datetime(detail['place_order_time'])
detail['date'] = [i.date() for i in detail['place_order_time']]
detailGroup = detail[['date','counts','amounts']].groupby(by='date')
print('订单详情表前5组每组的数目为:\n',detailGroup.size().head())
5.2 使用agg方法计算
对已经拆分完成的订单详情表进行聚合,得出每组的销售均价和售价中位数等信息
dayMean = detailGroup.agg({'amounts':np.mean})
print('订单详情表前五组每日菜品均价为:\n',dayMean.head())dayMedian = detailGroup.agg({'amounts':np.median})
print('订单详情表前五组每日菜品售价中位数为:\n',dayMedian.head())
输出:
5.3 使用apply方法统计单日菜品销售数目
除了可以对售价进行计算外,还可以计算单日总共销售的菜品数目,如下
daySaleSum = detailGroup.apply(np.sum)['counts']
print('订单详情表前五组每日菜品售出数目为:\n',daySaleSum.head())
输出:
相关文章:

【python数据分析11】——Pandas统计分析(分组聚合进行组内计算)
分组聚合进行组内计算 前言1、groupby方法拆分数据2、agg方法聚合数据3、apply方法聚合数据4、transform方法聚合数据5 小案例5.1 按照时间对菜品订单详情表进行拆分5.2 使用agg方法计算5.3 使用apply方法统计单日菜品销售数目 前言 依据某个或者几个字段对数据集进行分组&…...

高性能web服务器
目录 一、简介 (一)nginx-高性能的web服务端 (二)用户访问体验 二、I/O模型 (一)概念 (二)网络I/O模型 (三)阻塞型 I/O 模型 (四…...

微服务案例搭建
目录 一、案例搭建 1.数据库表 2.服务模块 二、具体代码实现如下: (1) 首先是大体框架为: (2)父模块中的pom文件配置 (3)shop_common模块,这个模块里面只需要配置pom.xml,与实体…...

SAP负库存
业务示例 在系统中,对于一些物料而言,不能立即将收到的交货输入为收货。如果要使发货无论如何都是可以过帐的,则需要允许这些物料的负库存。 负库存 发货数量大于预订数量时,过帐该发货就会出现负库存。如果由于组织原因&#…...

集团数字化转型方案(三)
集团数字化转型方案通过系统整合人工智能(AI)、大数据、云计算和物联网(IoT)技术,建立了一个全面智能化的业务管理平台,涵盖从业务流程自动化、数据驱动决策支持,到客户体验优化和供应链管理的各…...

ESP32智能设备:蓝牙音箱、AI语音助手、环境监测与调节以及智能控制,基于BLE与MQTT技术(代码详解)
本文将介绍如何实现一个功能丰富的ESP32项目,集成蓝牙音箱、AI语音助手、智能设备控制器、环境监测与调节等功能。通过本项目,您将学习到硬件设计、嵌入式编程、蓝牙技术、音频处理、人工智能与语音识别、物联网平台、数据分析及用户界面构建等技术。 一…...

web渗透测试 学习导图
web渗透学习路线 前言 一、web渗透测试是什么? Web渗透测试分为白盒测试和黑盒测试,白盒测试是指目标网站的源码等信息的情况下对其渗透,相当于代码分析审计。而黑盒测试则是在对该网站系统信息不知情的情况下渗透,以下所说的Web…...

WordPress禁止后台自定义功能
wordpress后台可以彻底禁止主题的自定义菜单功能,下面这段代码添加到functions.php文件中,后台外观菜单中的”自定义”就会消失不见了。 add_filter(map_meta_cap, function($caps, $cap){if($cap customize){return [do_not_allow];}return $caps; },…...

(六)Flink 窗口计算
窗口(Window)是处理无界流的关键所在。窗口可以将数据流装入大小有限的“桶”中,再对每个“桶”加以处理。 目录 时间概念 窗口类型 窗口划分 窗口的生命周期 Window Assigners 窗口函数 Triggers 窗口触发器 Evictor 数据剔除器 Allowed Lateness 旁路输出 时间…...

SQL 布尔盲注 (injection 第六关)
简介 SQL注入(SQL Injection)是一种常见的网络攻击方式,通过向SQL查询中插入恶意的SQL代码,攻击者可以操控数据库,SQL注入是一种代码注入攻击,其中攻击者将恶意的SQL代码插入到应用程序的输入字段中&am…...

OpenAI 重回巅峰:ChatGPT-4O 最新模型超越谷歌 Gemini 1.5,多项测试夺冠!
谷歌上周发布的Gemini 1.5 Pro模型,在LMSYS办的聊天机器人竞技场Chatbot Arena中获得第一名。但是,OpenAI迅速反应,推出了最新的chatgpt-4o-latest模型,重新夺回了冠军头衔。 chatgpt-4o-latest模型简介 OpenAI最近推出了名为gpt-…...

软件工程(2)面向对象方法:Booch方法与开发实例
Booch方法(Booch Method)是由Grady Booch提出的一种面向对象的软件开发方法。它是一种系统分析与设计的框架,主要用于设计和建模面向对象的系统。Booch方法特别关注对象模型的构建,以及类、对象和它们之间的关系。以下是Booch方法…...

高阶面试-concurrentHashMap的整理
算不上死磕,里面太痛苦了,现在很多位移等操作还看不懂,只是先理清大致思路,面试用 concurrentHashMap的实现原理 为啥会用到?并发安全。之前都用的hashtable实现线程安全的map,但是太过笨重,不…...

VSCode系列 - 如何用VSCode搭建C++高效开发环境(1)
VSCode是笔者用过的最好用的开发工具,没有之一。笔者14年的码龄生涯中,先后用过Eclipse、 IntelliJ IDEA、 WebStorm、 PyCharm、 Visual Studio(2010/2013/2015)、 NetBeans、 Sublime Text等,但自从用VSCode之后,就再没换过其他…...

【人工智能】Python融合机器学习、深度学习和微服务的创新之路
1. 🚀 引言1.1 🚀 人工智能的现状与发展趋势1.2 📜 机器学习、深度学习和神经网络的基本概念1.3 🏆 微服务架构在人工智能中的作用 2. 🔍 机器学习的演变与创新2.1 🌟 机器学习的历史回顾2.2 🧠…...

Stability AI发布了单目视频转4D模型的新AI模型:Stable Video 4D
开放生成式人工智能初创公司Stability AI在3月发布了Stable Video 3D,是一款可以根据图像中的物体生成出可旋转的3D模型视频工具。Stability AI在7月24日发布了新一代的Stable Video 4D,增添了赋予3D模移动作的功能。 Stable Video 4D能在约40秒内生成8…...

网站如何被Google收录?
想让你的网站快速被Google收录?试试GSI快速收录服务吧,这是通过谷歌爬虫池系统来实现的。这套系统吸引并圈养Google爬虫,提高你网站的抓取频率。每天有大量Google爬虫抓取你的网站页面,大大提高了页面的收录概率,从而增…...

LearnOpenGL——法线贴图、视差贴图学习笔记
LearnOpenGL——法线贴图、视差贴图学习笔记 法线贴图 Normal Mapping一、基本概念二、切线空间1. TBN矩阵2. 切线空间中的法线贴图 三、复杂模型四、小问题 视差贴图 Parallax Mapping一、基本概念二、实现视差贴图三、陡峭视差映射 Steep Parallax Mapping四、视差遮蔽映射 P…...

界面优化 - 绘图
目录 1. 基本概念 2. 绘制各种形状 2.1 绘制线段 2.2 绘制矩形 2.3 绘制圆形 2.4 绘制文本 2.5 设置画笔 2.6 设置画刷 3. 绘制图片 3.1 绘制简单图片 3.2 平移图片 3.3 缩放图片 3.4 旋转图片 1. 基本概念 虽然 Qt 已经内置了很多的控件, 但是不能保证现有控件就…...

死锁问题分析和解决——资源回收时
1.描述问题 在完成线程池核心功能功能时,没有遇到太大的问题(Any,Result,Semfore的设计),在做线程池资源回收时,遇到了死锁的问题 1、在ThreadPool的资源回收,等待线程池所有线程退出时ÿ…...

【Java】效率工具模板的使用
Java系列文章目录 补充内容 Windows通过SSH连接Linux 第一章 Linux基本命令的学习与Linux历史 文章目录 Java系列文章目录一、前言二、学习内容:三、问题描述四、解决方案:4.1 乱码问题4.2 快捷键模板4.3 文件模板 一、前言 提高效率 二、学习内容&am…...

c++指南 -指针和引用
指针和引用 指针的基本概念 指针是存储另一个变量的内存地址的变量。指针变量的声明包括指针类型和星号 (*)。 int* ptr; // ptr 是一个指向 int 类型的指针指针操作 初始化:将指针设置为变量的地址。 int var 10; int* ptr &var; // ptr 现在存储 var 的…...

[CISCN 2023 华北]ez_date
[CISCN 2023 华北]ez_date 点开之后是一串php代码: <?php error_reporting(0); highlight_file(__FILE__); class date{public $a;public $b;public $file;public function __wakeup(){if(is_array($this->a)||is_array($this->b)){die(no array);}if( (…...

前端不同项目使用不同的node版本(Volta管理切换)
前端不同项目使用不同的node版本(Volta管理切换) 使用volta自动切换前端项目的node版本, 每个不同的前端项目,可以使用不同的node版本。Volta这个工具,它允许用户方便地安装、切换和管理不同版本的Node.js,避免了为每个项目手动配…...

Ropdump:针对二进制可执行文件的安全检测工具
关于Ropdump Ropdump是一款针对二进制可执行文件的安全检测工具,该工具基于纯Python开发,是一个命令行工具,旨在帮助广大研究人员检测和分析二进制可执行文件中潜在的ROP小工具、缓冲区溢出漏洞和内存泄漏等安全问题。 功能介绍 1、识别二进…...

Quartz - 定时任务框架集成
参考了若依框架,将quartz定时任务框架集成到自己的项目当中。 目录 一、Quartz概述二、库表创建1.Quartz关键表(11张)表SQL 2.自定义业务表(2张)表SQL 三、代码示例1.依赖引入2.类文件1)定时任务配置类2&am…...

GoModule
GOPATH 最早的就是GOPATH构建模式, go get下载的包都在path中的src目录下 src目录是源代码存放目录。 package mainimport ("net/http""github.com/gorilla/mux" )func main() {r : mux.NewRouter()r.HandleFunc("/hello", func(w h…...

SQL - 数据库管理
保障数据库安全的用户账户和权限问题,当在工作环境中使用MySQL的时候,我们需要创建其他用户账户,并赋予它们特定权限。创建一个用户 create user wolf127.0.0.1 identified by 1234; create user wolf127.0.0.1 identified by 1234;-- 无 …...

密码学之AES算法
文章目录 1. AES简介1.1 AES算法的历史背景1.2 AES算法的应用领域 2. AES加解密流程图2. AES算法原理2.1 AES加密过程2.2 AES解密过程 1. AES简介 1.1 AES算法的历史背景 AES算法,全称为Advanced Encryption Standard(高级加密标准)&#x…...

GitHub每日最火火火项目(8.20)
项目名称:goauthentik / authentik 项目介绍:authentik 是一款提供认证功能的工具,它就像是一个强大的粘合剂,能够满足您在认证方面的各种需求。无论是在安全验证、用户身份管理还是访问控制等方面,它都能发挥重要作用…...