【PostgreSQL】提高篇——公用表表达式(CTE)和窗口函数
在这篇文章中,我将详细介绍 PostgreSQL 中的公用表表达式(CTE)和窗口函数,帮助你理解如何使用它们进行复杂的数据分析。我将通过具体的示例来演示这些概念的实际应用,并在每个示例中提供详细的解释和注释。
1. 公用表表达式(CTE)
1.1 什么是 CTE?
公用表表达式(Common Table Expression,CTE)是一种在 SQL 查询中定义临时结果集的方式,可以在主查询中多次引用。
CTE 可以提高查询的可读性和结构性,尤其是在处理复杂的查询时。
使用 CTE,可以避免使用嵌套查询,从而使 SQL 代码更清晰。
1.2 CTE 的基本语法
CTE 的基本语法如下:
WITH cte_name AS (SELECT columnsFROM tableWHERE conditions
)
SELECT *
FROM cte_name;
WITH关键字用于定义 CTE。cte_name是 CTE 的名称,可以在后续查询中使用。- CTE 内部的
SELECT查询定义了临时结果集。
1.3 示例:使用 CTE 进行复杂查询
假设有一个名为 sales 的表,记录了销售数据,结构如下:
CREATE TABLE sales (id SERIAL PRIMARY KEY, -- 唯一标识每一条销售记录product_name VARCHAR(100), -- 产品名称sale_date DATE, -- 销售日期amount DECIMAL, -- 销售金额quantity INT -- 销售数量
);
插入一些示例数据:
INSERT INTO sales (product_name, sale_date, amount, quantity) VALUES
('Product A', '2023-01-01', 100.00, 1),
('Product B', '2023-01-02', 200.00, 2),
('Product A', '2023-01-03', 150.00, 1),
('Product C', '2023-01-04', 300.00, 3),
('Product B', '2023-01-05', 250.00, 1);
示例 1:计算每个产品的总销售额
想要计算每个产品的总销售额,可以使用 CTE 来先计算每个产品的销售额,然后再进行汇总。
WITH sales_summary AS (SELECTproduct_name, -- 选择产品名称SUM(amount) AS total_sales -- 计算每个产品的总销售额FROMsalesGROUP BYproduct_name -- 按产品名称分组
)
SELECTproduct_name,total_sales
FROMsales_summary -- 从 CTE 中查询结果
ORDER BYtotal_sales DESC; -- 按总销售额降序排列
注释:
- 在 CTE
sales_summary中,使用SUM(amount)来计算每个产品的总销售额,并使用GROUP BY子句按product_name进行分组。 - 主查询从 CTE 中获取结果,并根据
total_sales降序排列,以便查看销售额最高的产品。
1.4 CTE 的递归查询
CTE 还支持递归查询,适用于层级结构的数据(如组织结构、分类等)。
示例 2:递归 CTE 示例
假设有一个员工表 employees,结构如下:
CREATE TABLE employees (employee_id SERIAL PRIMARY KEY, -- 员工唯一标识employee_name VARCHAR(100), -- 员工姓名manager_id INT -- 上级员工的 ID
);
插入一些示例数据:
INSERT INTO employees (employee_name, manager_id) VALUES
('Alice', NULL), -- Alice 是顶层管理者,没有上级
('Bob', 1), -- Bob 是 Alice 的下属
('Charlie', 1), -- Charlie 也是 Alice 的下属
('David', 2), -- David 是 Bob 的下属
('Eve', 2); -- Eve 也是 Bob 的下属
想要查询所有员工及其上级,可以使用递归 CTE:
WITH RECURSIVE employee_hierarchy AS (SELECTemployee_id, -- 选择员工 IDemployee_name, -- 选择员工姓名manager_id, -- 选择上级员工 ID0 AS level -- 级别,顶层管理者的级别为 0FROMemployeesWHEREmanager_id IS NULL -- 从顶层管理者开始UNION ALLSELECTe.employee_id, -- 选择下属员工 IDe.employee_name, -- 选择下属员工姓名e.manager_id, -- 选择下属的上级员工 IDeh.level + 1 -- 级别加 1FROMemployees eJOINemployee_hierarchy eh ON e.manager_id = eh.employee_id -- 连接下属和上级
)
SELECTemployee_name,level
FROMemployee_hierarchy
ORDER BYlevel, employee_name; -- 按级别和姓名排序
注释:
- 递归 CTE
employee_hierarchy的第一部分选择顶层管理者(没有上级的员工),并初始化级别为 0。 - 第二部分通过
JOIN连接员工表和 CTE,以查找每个员工的下属,并将级别加 1。 - 最后,查询 CTE,返回员工姓名及其层级,并按层级和姓名排序。
2. 窗口函数
2.1 什么是窗口函数?
窗口函数是一种在结果集的每一行上执行计算的函数,它允许我们在不分组的情况下进行聚合计算。
窗口函数通常用于计算排名、移动平均、累计和等。
与普通的聚合函数不同,窗口函数不会减少结果集的行数。
2.2 窗口函数的基本语法
窗口函数的基本语法如下:
SELECT columns,window_function() OVER (PARTITION BY column ORDER BY column)
FROM table;
window_function()是要使用的窗口函数,如SUM(),RANK(),ROW_NUMBER()等。OVER子句定义了窗口的分区和排序方式。PARTITION BY用于将结果集分成不同的组(类似于 GROUP BY),而ORDER BY用于在每个组内排序。
2.3 示例:使用窗口函数进行数据分析
示例 3:计算每个产品的销售排名
可以使用窗口函数来计算每个产品的销售排名。
SELECTproduct_name,SUM(amount) AS total_sales, -- 计算每个产品的总销售额RANK() OVER (ORDER BY SUM(amount) DESC) AS sales_rank -- 计算销售排名
FROMsales
GROUP BYproduct_name
ORDER BYsales_rank; -- 按销售排名排序
注释:
- 在这个查询中,
SUM(amount)计算每个产品的总销售额,并使用RANK()函数为每个产品分配一个排名,排名基于总销售额的降序。 - 最后,结果按销售排名排序。
示例 4:计算累计销售额
还可以使用窗口函数计算累计销售额。
SELECTsale_date,product_name,amount,SUM(amount) OVER (ORDER BY sale_date) AS cumulative_sales -- 计算累计销售额
FROMsales
ORDER BYsale_date; -- 按销售日期排序
注释:
- 在这个查询中,
SUM(amount) OVER (ORDER BY sale_date)计算截至每个销售日期的累计销售额。 - 结果按销售日期排序,显示每个日期的销售额和累计销售额。
3. 综合示例:结合 CTE 和窗口函数
现在结合 CTE 和窗口函数进行一个更复杂的分析,计算每个产品的总销售额、排名以及累计销售额。
WITH sales_summary AS (SELECTproduct_name,SUM(amount) AS total_sales -- 计算每个产品的总销售额FROMsalesGROUP BYproduct_name -- 按产品名称分组
)
SELECTproduct_name,total_sales,RANK() OVER (ORDER BY total_sales DESC) AS sales_rank, -- 计算销售排名SUM(total_sales) OVER (ORDER BY total_sales DESC) AS cumulative_sales -- 计算累计销售额
FROMsales_summary
ORDER BYsales_rank; -- 按销售排名排序
注释:
- 在这个综合示例中,首先使用 CTE
sales_summary计算每个产品的总销售额。 - 然后在主查询中,使用窗口函数
RANK()计算销售排名,并使用SUM(total_sales) OVER (ORDER BY total_sales DESC)计算累计销售额。 - 最后,结果按销售排名排序,展示每个产品的总销售额、排名和累计销售额。
4. 总结
本文详细介绍了 PostgreSQL 中的公用表表达式(CTE)和窗口函数。通过具体的示例,实操展示了如何使用这些功能进行复杂的数据分析。
希望这篇文章能帮助你掌握 CTE 和窗口函数,可以帮助你编写更清晰、灵活的 SQL 查询,进行深入的数据分析。
相关文章:
【PostgreSQL】提高篇——公用表表达式(CTE)和窗口函数
在这篇文章中,我将详细介绍 PostgreSQL 中的公用表表达式(CTE)和窗口函数,帮助你理解如何使用它们进行复杂的数据分析。我将通过具体的示例来演示这些概念的实际应用,并在每个示例中提供详细的解释和注释。 1. 公用表…...
【min25筛】【CF2020F】Count Leaves
题目 定义 f ( n , 0 ) 1 f(n,0)1 f(n,0)1, f ( n , d ) ∑ k ∣ n f ( k , d − 1 ) f(n,d)\sum_{k|n}f(k,d-1) f(n,d)∑k∣nf(k,d−1) 给出 n , k , d n,k,d n,k,d,你需要求出: ∑ i 1 n f ( i k , d ) m o d ( 1 0 9 7 ) \sum_{i1}^n f(i^k…...
【d57】【sql】1661. 每台机器的进程平均运行时间
思路 一方面考察自连接,另一方面考察group by 这里主要说明 group by 用法: 1.在 SQL 查询中,GROUP BY 子句用于将结果集中的行分组,目的通常就是 对每个组应用聚合函数(如 SUM(), AVG(), MAX(), MIN(), COUNT() 等…...
ArcGIS共享数据的最佳方法(不丢可视化、标注等各类显示信息一样带)
今天我们介绍一下ArcGIS数据共享的几个小妙招 我们时常要把数据发给对方,特别是很多新手朋友要将shp发给对方时只是发送了shp后缀的文件,却把shp的必要组成文件dbf、shx等等给落下了。 还有很多朋友给图层做好了符号化标注,但是数据一发给别…...
小程序this.getOpenerEventChannel()当前页面与navigateTo页面之间数据通信
this.getOpenerEventChannel() 是微信小程序中获取页面打开它的页面事件通道的方法。但是,这个方法只在页面是被wx.navigateTo打开的情况下才能使用。如果页面是通过其他方式打开的,比如wx.redirectTo,那么就无法使用这个方法。 解决方案&…...
调用飞书接口导入供应商bug
1、业务背景 财务这边大部分系统都是供应商项目,由于供应商的研发人员没有飞书项目的权限,涉及到供应商系统需求 财务这边都是通过多维表格进行bug的生命周期管理如图: 但多维表格没有跟飞书项目直接关联,测试组做bug统计的时候无…...
《深度学习》OpenCV 角点检测、特征提取SIFT 原理及案例解析
目录 一、角点检测 1、什么是角点检测 2、检测流程 1)输入图像 2)图像预处理 3)特征提取 4)角点检测 5)角点定位和标记 6)角点筛选或后处理(可选) 7)输出结果 3、邻域…...
golang grpc初体验
grpc 是一个高性能、开源和通用的 RPC 框架,面向服务端和移动端,基于 HTTP/2 设计。目前支持c、java和go,分别是grpc、grpc-java、grpc-go,目前c版本支持c、c、node.js、ruby、python、objective-c、php和c#。grpc官网 grpc-go P…...
基于小程序+Vue + Spring Boot的进销存库存出库入库统计分析管理系统
目录 一、项目背景及需求分析 1. 项目背景 2. 需求分析 二、系统架构设计 1. 技术选型 2. 模块划分 三、数据库设计数据库表结构 四、前端实现 五、后端实现 1. RESTful API设计 2. 数据库操作 六、安全性和性能优化 1. 安全性 2. 性能优化 七、测试与部署 1. …...
【数据结构与算法】时间复杂度和空间复杂度例题
文章目录 时间复杂度常数阶时间O(1)对数阶时间O(logN)线性阶时间O(n)线性对数阶时间O(nlogN)平方阶时间O(n*n) 空间复杂度常量空间O(1)线性空间O(n)二维空间O(n*n)递归空间 时间复杂度 常数阶时间O(1) 代码在执行的时候,它消耗的时间并不随着某个变量的增长而增长…...
停止模式下USART为什么可以唤醒MCU?
在MCU的停止模式下,USART之类的外设时钟是关闭的,但是USART章节有描述到在停止模式下可以用USART来对MCU进行唤醒: 大家是否会好奇在外设的时钟被关闭的情况下,USART怎么能通过接收中断或者唤醒事件对MCU进行唤醒的呢࿱…...
Web安全 - 路径穿越(Path Traversal)
文章目录 OWASP 2023 TOP 10导图定义路径穿越的原理常见攻击目标防御措施输入验证和清理避免直接拼接用户输入最小化权限日志监控 ExampleCode漏洞代码:路径穿越攻击案例漏洞说明修复后的安全代码代码分析 其他不同文件系统下的路径穿越特性Windows系统类Unix系统&a…...
JSR303微服务校验
一.创建idea 二.向pom.xml添加依赖 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>2.0.7.RELEASE</version></parent><properties><java.vers…...
56. QTreeWidget的基本使用
1. 说明 在软件开发中会遇到将数据信息制作成一种树目录的形式进行展示,那么此时就可以借助QT提供的QTreeWidget控件来实现这种需求,本篇博客会做一个案例简要说明这个控件的基本使用方法,博客中代码能够实现的功能是将此项目代码所在文件夹中的内容展示出来,如下图所示:…...
领域偏移:协变量移位下的域自适应
现在我们将焦点转移到一种叫做协变量转移的扰动上。我们在一个分类或回归设置中工作,我们希望从x预测y,并假设p≈(y | x)和p∗(y | x)是相同的(标记函数在训练和测试之间不会改变) 假设 (Covariate Shift)。对于列车分布p~和检验分布p∗,我们…...
前端开发技术框架选型
一、引言 在前端开发领域,技术框架的选择对于项目的成功至关重要。一个优秀的前端框架不仅可以提高开发效率,还能确保项目的稳定性和可扩展性。而不同的框架具有不同的特点和优势,能够满足不同项目的需求。下面将对目前主流的前端开发技术框…...
/etc/init.d/mysql
Since you’ve installed MySQL from source, you’ll need to create a custom init script to manage the MySQL server (start, stop, status) similarly to a service. Here’s a simple init.d script template for MySQL that you can use. This script assumes MySQL is…...
Qt_线程介绍与使用
目录 1、QThread常用API 2、Qt线程安全 3、使用线程QThread 4、connect函数的第五个参数 5、Qt互斥锁 5.1 QMutexLocker 6、条件变量 7、信号量 结语 前言: 线程是应用程序开发非常重要的概念,在Qt中,用QThread类来实现多线程&a…...
通讯方面的数据,人工智能 机器学习的时候,因为数字都接近于一,数据归一化的一种方法,做了一个简化版本的Z-score标准化
这个表达式实现了一种形式的数据归一化,它将张量x中的每个元素除以x的标准差的估计值。这种处理方式可以使得变换后的数据具有单位标准差(假设数据已经是零均值或者在计算过程中考虑了均值)。具体来说,它是基于以下步骤进行的&…...
python itertools模块介绍
itertools 是 Python 内建的一个高效处理迭代器的模块,提供了创建复杂迭代器的函数工具。它包含一系列用于迭代、组合、排列、过滤等功能的迭代器构建工具,常用于数据处理和算法设计。下面是 itertools 模块中一些常见的函数介绍: 1. 无限迭…...
谷歌浏览器插件
项目中有时候会用到插件 sync-cookie-extension1.0.0:开发环境同步测试 cookie 至 localhost,便于本地请求服务携带 cookie 参考地址:https://juejin.cn/post/7139354571712757767 里面有源码下载下来,加在到扩展即可使用FeHelp…...
模型参数、模型存储精度、参数与显存
模型参数量衡量单位 M:百万(Million) B:十亿(Billion) 1 B 1000 M 1B 1000M 1B1000M 参数存储精度 模型参数是固定的,但是一个参数所表示多少字节不一定,需要看这个参数以什么…...
Leetcode 3577. Count the Number of Computer Unlocking Permutations
Leetcode 3577. Count the Number of Computer Unlocking Permutations 1. 解题思路2. 代码实现 题目链接:3577. Count the Number of Computer Unlocking Permutations 1. 解题思路 这一题其实就是一个脑筋急转弯,要想要能够将所有的电脑解锁&#x…...
MMaDA: Multimodal Large Diffusion Language Models
CODE : https://github.com/Gen-Verse/MMaDA Abstract 我们介绍了一种新型的多模态扩散基础模型MMaDA,它被设计用于在文本推理、多模态理解和文本到图像生成等不同领域实现卓越的性能。该方法的特点是三个关键创新:(i) MMaDA采用统一的扩散架构…...
工程地质软件市场:发展现状、趋势与策略建议
一、引言 在工程建设领域,准确把握地质条件是确保项目顺利推进和安全运营的关键。工程地质软件作为处理、分析、模拟和展示工程地质数据的重要工具,正发挥着日益重要的作用。它凭借强大的数据处理能力、三维建模功能、空间分析工具和可视化展示手段&…...
【项目实战】通过多模态+LangGraph实现PPT生成助手
PPT自动生成系统 基于LangGraph的PPT自动生成系统,可以将Markdown文档自动转换为PPT演示文稿。 功能特点 Markdown解析:自动解析Markdown文档结构PPT模板分析:分析PPT模板的布局和风格智能布局决策:匹配内容与合适的PPT布局自动…...
srs linux
下载编译运行 git clone https:///ossrs/srs.git ./configure --h265on make 编译完成后即可启动SRS # 启动 ./objs/srs -c conf/srs.conf # 查看日志 tail -n 30 -f ./objs/srs.log 开放端口 默认RTMP接收推流端口是1935,SRS管理页面端口是8080,可…...
Java编程之桥接模式
定义 桥接模式(Bridge Pattern)属于结构型设计模式,它的核心意图是将抽象部分与实现部分分离,使它们可以独立地变化。这种模式通过组合关系来替代继承关系,从而降低了抽象和实现这两个可变维度之间的耦合度。 用例子…...
Netty从入门到进阶(二)
二、Netty入门 1. 概述 1.1 Netty是什么 Netty is an asynchronous event-driven network application framework for rapid development of maintainable high performance protocol servers & clients. Netty是一个异步的、基于事件驱动的网络应用框架,用于…...
【从零学习JVM|第三篇】类的生命周期(高频面试题)
前言: 在Java编程中,类的生命周期是指类从被加载到内存中开始,到被卸载出内存为止的整个过程。了解类的生命周期对于理解Java程序的运行机制以及性能优化非常重要。本文会深入探寻类的生命周期,让读者对此有深刻印象。 目录 …...
