mysql中的group by用法详解
MySQL中的GROUP BY是数据聚合分析的核心功能,主要用于将结果集按指定列分组,并结合聚合函数进行统计计算。以下从基本语法到高级用法进行详细解析:
一、基本语法与核心功能
SELECT 分组列, 聚合函数(计算列)
FROM 表名
[WHERE 条件]
GROUP BY 分组列
[HAVING 分组过滤条件]
[ORDER BY 排序列];
核心功能:
- 数据分组:按一列或多列的值将数据划分为逻辑组。
- 聚合计算:对每个分组应用聚合函数(如
COUNT、SUM、AVG、MAX、MIN)进行统计。 - 结果过滤:通过
HAVING对分组后的结果进行筛选(区别于WHERE的分组前过滤)。
二、基础用法示例
1. 单列分组统计
统计每个部门的员工数量和平均工资:
SELECT department, COUNT(*) AS emp_count, AVG(salary) AS avg_salary
FROM employees
GROUP BY department; --
2. 多列组合分组
按部门和职位统计员工数量:
SELECT department, job_title, COUNT(*)
FROM employees
GROUP BY department, job_title; --
3. 与WHERE结合使用
仅统计薪资超过2000元的员工部门平均工资:
SELECT department, AVG(salary)
FROM employees
WHERE salary > 2000
GROUP BY department; --
三、高级特性与扩展
1. HAVING子句过滤分组
筛选员工数量超过5人的部门:
SELECT department, COUNT(*) AS emp_count
FROM employees
GROUP BY department
HAVING emp_count > 5; --
2. WITH ROLLUP生成汇总行
生成部门及职位的薪资小计和总计:
SELECT department, job_title, SUM(salary)
FROM employees
GROUP BY department, job_title WITH ROLLUP; --
3. GROUP_CONCAT合并列值
统计每个用户购买的所有产品(逗号分隔):
SELECT user_id, GROUP_CONCAT(product_name SEPARATOR ', ')
FROM orders
GROUP BY user_id; --
4. 按表达式/函数分组
按年份统计订单数量:
SELECT YEAR(order_date) AS year, COUNT(*)
FROM orders
GROUP BY YEAR(order_date); --
四、注意事项与常见错误
-
ONLY_FULL_GROUP_BY模式
MySQL 8.0+默认启用该模式,要求SELECT中的非聚合列必须出现在GROUP BY中,否则报错。-- 错误示例(salary未聚合且未分组) SELECT department, salary FROM employees GROUP BY department;-- 修正方法:添加聚合函数或分组字段 SELECT department, MAX(salary) FROM employees GROUP BY department; -
WHERE与HAVING的区别
WHERE在分组前过滤行数据,不可使用聚合函数。HAVING在分组后过滤组数据,必须与聚合条件结合。
-
性能优化建议
- 在分组列上创建索引(如
ALTER TABLE employees ADD INDEX(department))。 - 避免对大表直接分组,可先通过临时表或子查询缩小数据范围。
- 在分组列上创建索引(如
五、经典案例场景
1. 按时间维度聚合
统计每月的销售总额:
SELECT YEAR(sale_date) AS year, MONTH(sale_date) AS month, SUM(amount)
FROM sales
GROUP BY year, month; --
2. 多层级统计
分析每个客户每年的订单总金额及平均金额:
SELECT customer_id, YEAR(order_date), SUM(total_amount), AVG(total_amount)
FROM orders
GROUP BY customer_id, YEAR(order_date); --
3. 数据去重
查找重复邮箱的用户:
SELECT email, COUNT(*)
FROM users
GROUP BY email
HAVING COUNT(*) > 1; --
六、聚合效率优化
在MySQL中优化GROUP BY聚合效率需要从索引设计、查询逻辑、执行引擎特性等多维度入手。以下基于最新优化实践和数据库引擎特性,总结9大核心优化策略:
1、索引优化策略
-
复合索引精准匹配分组列
• 创建与GROUP BY顺序完全匹配的复合索引(如GROUP BY a,b则创建(a,b)索引),可触发松散索引扫描,减少90%以上的磁盘I/O。
• 典型案例:当对(department, job_title)分组时,复合索引idx_dept_job可使查询跳过全表扫描,直接通过索引完成分组。 -
覆盖索引避免回表
• 确保SELECT列与聚合函数涉及的列均包含在索引中。例如索引(category, sales),查询SELECT category, SUM(sales)时可直接通过索引完成计算,无需访问数据行。 -
利用函数索引应对复杂分组
• 对含表达式的分组(如YEAR(date_col)),创建虚拟列或函数索引(MySQL 8.0+支持)。例如:ALTER TABLE orders ADD COLUMN year_date INT AS (YEAR(order_date)) VIRTUAL; CREATE INDEX idx_year ON orders(year_date);
2、查询设计与执行优化
-
减少分组字段数量与复杂度
• 每增加一个分组字段,排序复杂度呈指数级增长。优先合并相关字段(如将province和city合并为region字段)。
• 避免在GROUP BY中使用函数,否则索引失效。需改写为基于原字段分组,如将GROUP BY DATE(created_at)改为GROUP BY created_at_date预计算列。 -
分阶段过滤与聚合
• 先通过子查询过滤无关数据再分组:SELECT department, AVG(salary) FROM (SELECT * FROM employees WHERE salary > 5000) AS filtered GROUP BY department; -- 比直接HAVING效率提升40% -
内存排序与临时表优化
• 调整tmp_table_size和max_heap_table_size参数(建议设置为物理内存的20%),避免临时表落盘。
• 监控Created_tmp_disk_tables状态变量,若频繁出现磁盘临时表,需优化索引或拆分查询。
3、高级优化技术
-
分区表加速大数据处理
• 按时间或业务维度分区(如按月分区),使GROUP BY仅扫描特定分区。例如对10亿级日志表按event_date分区后,月度统计耗时从分钟级降至秒级。 -
物化视图与结果缓存
• 对高频聚合查询使用物化视图(如通过CREATE TABLE mv AS SELECT...定期刷新),减少实时计算压力。
• 应用层缓存重复查询结果(如Redis缓存日汇总数据),降低数据库负载。 -
并行查询(MySQL 8.0+)
• 启用parallel_query功能,通过多线程处理复杂分组:SET SESSION optimizer_switch='parallel_query=on'; SELECT region, SUM(revenue) FROM sales GROUP BY region; -- 利用多核CPU加速
4、诊断工具与注意事项
• 执行计划分析
使用EXPLAIN FORMAT=JSON观察using_index(是否用索引)、using_temporary(是否用临时表)、filesort(排序方式)等关键指标。
• 严格模式规避错误
启用ONLY_FULL_GROUP_BY模式,防止非聚合列误用导致结果不稳定。
性能优化对比案例
| 场景 | 优化前耗时 | 优化手段 | 优化后耗时 |
|---|---|---|---|
| 百万级用户行为分析 | 12.8s | 创建(user_id,action_time)覆盖索引 | 1.2s |
| 十亿级日志日聚合 | 3分钟 | 按日分区+并行查询 | 8秒 |
通过上述策略组合,可系统性解决GROUP BY性能瓶颈。实际应用中建议结合EXPLAIN分析和A/B测试,选择最适合业务场景的优化方案。
七、扩展知识
- NULL值的处理:
GROUP BY将NULL视为独立分组。 - 排序结合:分组后使用
ORDER BY对结果排序(如按平均工资降序)。 - 动态分组:通过
CASE WHEN实现条件分组(如按薪资区间统计)。
通过灵活组合这些功能,GROUP BY可满足复杂的数据分析需求。实际应用中需结合索引优化和查询逻辑设计,以提升执行效率。

相关文章:
mysql中的group by用法详解
MySQL中的GROUP BY是数据聚合分析的核心功能,主要用于将结果集按指定列分组,并结合聚合函数进行统计计算。以下从基本语法到高级用法进行详细解析: 一、基本语法与核心功能 SELECT 分组列, 聚合函数(计算列) FROM 表名 [WHERE 条件] GROUP B…...
java基础从入门到上手(九):Java - List、Set、Map
一、List集合 List 是一种用于存储有序元素的集合接口,它是 java.util 包中的一部分,并且继承自 Collection 接口。List 接口提供了多种方法,用于按索引操作元素,允许元素重复,并且保持插入顺序。常用的 List 实现类包…...
从malloc到free:动态内存管理全解析
1.为什么要有动态内存管理 我们已经掌握的内存开辟方法有: int main() {int val 20;//在栈空间上开辟四个字节char arr[20] { 0 };//在栈空间上开辟10个字节的连续空间return 0; }上述开辟的内存空间有两个特点: 1.空间开辟的时候大小已经固定 2.数组…...
AutoSAR从概念到实践系列之MCAL篇(二)——Mcu模块配置及代码详解(上)
欢迎大家学习我的《AutoSAR从概念到实践系列之MCAL篇》系列课程,我是分享人M哥,目前从事车载控制器的软件开发及测试工作。 学习过程中如有任何疑问,可底下评论! 如果觉得文章内容在工作学习中有帮助到你,麻烦点赞收藏评论+关注走一波!感谢各位的支持! 根据上一篇内容中…...
ubuntu22.04安装dukto
1.添加源 sudo add-apt-repository ppa:xuzhen666/dukto2.进行更新和安装 sudo apt update sudo apt install dukto3.报错 $ sudo apt install dukto 正在读取软件包列表... 完成 正在分析软件包的依赖关系树... 完成 正在读取状态信息... 完成 您也许需要…...
【数据库】事务
目录 1. 什么是事务? 2. 事务的ACID特性 3. 为什么使用事务? 4. 如何使用事务 4.1 查看支持事务的存储引擎 4.2 语法 4.3 保存点 4.4 自动/手动提交事务 5. 事物的隔离性和隔离级别 5.1 什么是隔离性 5.2 隔离级别 5.3 查看和设置隔离级别 1…...
使用Redis实现实时排行榜
为了实现一个实时排行榜系统,我们可以使用Redis的有序集合(ZSet),其底层通常是使用跳跃表实现的。有序集合允许我们按照分数(score)对成员(member)进行排序,因此非常适合…...
QML中的3D功能--入门开发
Qt Quick 提供了强大的 3D 功能支持,主要通过 Qt 3D 模块实现。以下是 QML 中开发 3D 应用的全面指南。 1. 基本配置 环境要求 Qt 5.10 或更高版本(推荐 Qt 6.x) 启用 Qt 3D 模块 支持 OpenGL 的硬件 项目配置 在 .pro 文件中添加: QT += 3dcore 3drender 3dinput 3dex…...
6. 字符串
1.反转字符串 2.替换数字 3.反转字符串中的单词 4.KMP算法 5.重复的子字符串(看具体证明) 太6了(真不是人做的)...
000.初识 dyld
dyld(Dynamic Link Editor) 是 Apple 操作系统的动态加载器/链接器。 在 iOS 或 iPadOS 启动一个 Mach‑O 可执行文件时,dyld 会: 解析可执行文件头,确认 CPU 架构、地址空间布局随机化(ASLR)参…...
Redis ④-通用命令
Redis 是一个 客户端-服务器 结构的程序,这与 MySQL 是类似的,这点需要牢记!!! Redis 固然好,但也不是任何场景都适合使用 Redis,一定要根据当前的业务需求来选择是否使用 Redis Redis 通用命令…...
卷积神经网络(CNN)与VGG16在图像识别中的实验设计与思路
卷积神经网络(CNN)与VGG16在图像识别中的实验设计与思路 以下从基础原理、VGG16架构解析、实验设计步骤三个层面展开说明,结合代码示例与关键参数设置,帮助理解其应用逻辑。 一、CNN与VGG16的核心差异 基础CNN结构 通常包含33~55个…...
玩机搞机基本常识-------小米OLED屏幕机型怎么设置为永不休眠_手机不息屏_保持亮屏功能 拒绝“烧屏” ?
前面在帮一位粉丝解决小米OLED机型在设置----锁屏下没有永不休眠的问题。在这里,大家要明白为什么有些小米机型有这个设置有的没有的原因。区分OLED 屏幕和 LCD屏幕的不同。从根本上拒绝烧屏问题。 OLED 屏幕的一些优缺点💝💝💝 …...
2021-11-14 C++三七二十一数
缘由c编程怎么写,紧急求解-编程语言-CSDN问答 void 三七二十一数() {//缘由https://ask.csdn.net/questions/7566632?spm1005.2025.3001.5141int n 0, a 0, b 0, p 1;std::cin >> n;while (n--){std::cin >> a >> b;while (a<b){if (a %…...
安全生产责任制考核方案与风险评估
安全生产责任制考核方案旨在通过有效落实国家安全生产法律法规,确保煤矿及相关单位的安全管理机制建立与运行,减少生产安全事故的发生。方案强调通过定期的量化考核和系统化评估,确保安全生产责任的有效落实。考核涉及集团公司各单位及相关人…...
Transformers是一种基于自注意力机制的神经网络模型
概述与发展历程 背景介绍 Transformers是一种基于自注意力机制的神经网络模型,最早由Google团队在2017年的论文《Attention Is All You Need》中提出。该模型旨在解决传统循环神经网络(RNNs)在处理长距离依赖关系时的低效性问题,…...
32-工艺品商城小程序
技术: 基于 B/S 架构 SpringBootMySQLvueelementuiuniapp 环境: Idea mysql maven jdk1.8 node 可修改为其他类型商城 用户端功能 1.系统首页展示轮播图及工艺品列表 2.分类模块:展示产品的分类类型 3.购物车:进行商品多选结算 或者批量管理操作 4.…...
深度解析微前端架构设计:从monorepo工程化设计到最佳实践
一、项目架构概览:微前端与传统架构的融合创新 在企业级前端工程中,微前端架构通过「分治思想」解决了单体应用臃肿、技术栈割裂、团队协作低效等问题。本项目采用 主应用(基座) 子应用集群 独立服务 的立体化架构,支…...
强制重装及验证onnxruntime-gpu是否正确工作
#工作记录 我们经常会遇到明明安装了onnxruntime-gpu或onnxruntime后,无法正常使用的情况。 一、强制重新安装 onnxruntime-gpu 及其依赖 # 强制重新安装 onnxruntime-gpu 及其依赖 pip install --force-reinstall --no-cache-dir onnxruntime-gpu1.18.0 --extra…...
设计模式 --- 外观模式
外观模式是一种结构型设计模式,为复杂子系统提供统一的高层接口,通过定义一个外观类来简化客户端与子系统的交互,降低系统耦合度。这种模式隐藏了子系统的复杂性,将客户端与子系统的实现细节隔离开来,…...
OverlayFS 简介与最简单 Demo
OverlayFS 是什么 OverlayFS 是一种 Linux 文件系统,允许将多个目录(称为“层”)叠加在一起,形成一个统一的视图。它广泛用于容器技术(如 Docker),用于实现镜像层和容器写时复制(Co…...
Python爬虫实战:获取B站查询数据
一、引言 1.1 研究背景 随着互联网的迅猛发展,视频分享平台积累了海量的数据资源。以 B 站为例,其丰富的视频内容和活跃的用户群体蕴含着巨大的价值。对 B 站搜索数据进行爬取和分析,有助于洞察用户兴趣、市场趋势以及内容创作方向,为市场调研、用户行为分析和内容推荐系…...
用python脚本怎么实现:把一个文件夹里面.png文件没有固定名称,复制到另外一个文件夹按顺序命名?
环境: python3.10 Win10 问题描述: 用python脚本怎么实现:怎么把一个文件夹里面.png文件没有固定名称,复制到另外一个文件夹按顺序命名? 解决方案: 1.新建一个脚本文件,内容如下࿱…...
山东大学软件学院创新项目实训开发日志(20)之中医知识问答自动生成对话标题bug修改
在原代码中存在一个bug:当前对话的标题不是现有对话的用户的第一段的前几个字,而是历史对话的第一段的前几个字。 这是生成标题的逻辑出了错误: 当改成size()-1即可...
ZYNQ笔记(十):XADC (PS XDAC 接口)
版本:Vivado2020.2(Vitis) 任务:通过 PS XADC 接口读取XADC测量的芯片温度、供电电压,并通过串口打印出来 目录 一、介绍 二、硬件设计 三、软件设计 四、效果 一、介绍 XADC(Xilinx Analog-to-Digital…...
适配器模式在Java开发中的应用
适配器模式(Adapter Pattern)是设计模式中的一种结构型模式,它允许将一个类的接口转换成客户端所期望的另一个接口。通过这种方式,原本因接口不兼容而无法协同工作的类能够一起工作。适配器模式在Java开发中非常常见,尤…...
【Rust 精进之路之第15篇-枚举 Enum】定义、变体与数据关联:表达多种可能性
系列: Rust 精进之路:构建可靠、高效软件的底层逻辑 作者: 码觉客 发布日期: 2025年4月20日 引言:当值拥有“选项”——超越结构体的表达力 在上一篇【结构体 Struct】中,我们学习了如何使用结构体将多个相关的数据字段组合成一个有意义的整体。结构体非常适合表示那些…...
【C++】多态 - 从虚函数到动态绑定的核心原理
📌 个人主页: 孙同学_ 🔧 文章专栏:C 💡 关注我,分享经验,助你少走弯路 文章目录 1. 多态的概念2. 多态的定义及实现2.1 多态的构成条件2.1.1实现多态还有两个必须重要条件:2.1.2 虚…...
免费图片软件,可矫正倾斜、调整去底效果
软件介绍 有个超棒的软件要给大家介绍一下哦,它就是——ImgTool,能实现图片漂白去底的功能,而且重点是,它是完全免费使用的呢,功能超强大! 软件特点及使用便捷性 这软件是绿色版本的哟,就像一…...
Kubernetes(k8s)学习笔记(二)--k8s 集群安装
1、kubeadm kubeadm 是官方社区推出的一个用于快速部署 kubernetes 集群的工具。这个工具能通过两条指令完成一个 kubernetes 集群的部署: 1.1 创建一个 Master 节点$ kubeadm init 1.2 将一个 Node 节点加入到当前集群中$ kubeadm join <Master 节点的 IP 和…...
