flink 分组窗口聚合 与 窗口表值函数聚合 的区别
警告:分组窗口聚合已经过时。推荐使用更加强大和有效的窗口表值函数聚合。
参考官方文档

在 Apache Flink 中,分组窗口聚合(Group Window Aggregation) 和 窗口表值函数聚合(Windowing TVF Aggregation) 是两种不同的窗口处理方式,主要区别体现在语法结构、灵活性和适用场景上。以下是两者的详细对比:
1. 分组窗口聚合(Group Window Aggregation)
定义
- 语法:将窗口函数(如
TUMBLE、HOP、SESSION)直接嵌入GROUP BY子句,作为分组条件的一部分。 - 特点:
- 语法简洁,适合快速定义简单窗口。
- 旧版本(Flink <1.13)中常用,但逐渐被窗口表值函数替代。
- 功能受限,无法直接访问窗口元信息(如窗口开始/结束时间)。
示例
SELECT user,TUMBLE_START(rowtime, INTERVAL '1' HOUR) AS window_start,COUNT(*) AS cnt
FROM Orders
GROUP BY user, TUMBLE(rowtime, INTERVAL '1' HOUR) -- 窗口作为分组条件
缺点
- 无法扩展窗口元数据:无法在
SELECT子句中直接获取window_end或窗口属性。 - 功能局限:不支持复杂窗口操作(如窗口连接、窗口级自定义函数)。
2. 窗口表值函数聚合(Windowing TVF Aggregation)
定义
- 语法:使用窗口函数(如
TUMBLE、HOP)作为表值函数(TVF),生成一个包含窗口元数据(window_start、window_end)的虚拟表,再通过标准GROUP BY聚合。 - 特点:
- 语法符合标准 SQL,更灵活。
- 支持访问窗口元信息(如
window_start、window_end)。 - 支持复杂操作(如多窗口叠加、窗口连接、自定义窗口逻辑)。
- Flink 1.13+ 推荐方式,代表未来发展方向。
示例
SELECT user,window_start,window_end,COUNT(*) AS cnt
FROM TABLE(TUMBLE( -- 窗口作为表值函数TABLE Orders, DESCRIPTOR(rowtime), INTERVAL '1' HOUR)
)
GROUP BY user, window_start, window_end -- 标准分组
优点
- 元数据可见:可直接在结果中输出
window_start、window_end等字段。 - 灵活性高:支持与其他表函数(如
JOIN、CROSS APPLY)结合使用。 - 统一语法:与标准 SQL 兼容,便于扩展复杂逻辑(如窗口内 TopN)。
核心区别对比
| 特性 | 分组窗口聚合 | 窗口表值函数聚合 |
|---|---|---|
| 语法结构 | 窗口函数嵌入 GROUP BY | 窗口函数作为表值函数,生成虚拟表 |
| 窗口元数据访问 | 仅能通过 TUMBLE_START 等函数获取 | 直接输出 window_start、window_end |
| 扩展性 | 功能受限,不支持复杂操作 | 支持窗口连接、嵌套聚合、自定义逻辑 |
| SQL 标准兼容性 | Flink 特有语法 | 符合 ANSI SQL 标准 |
| Flink 版本兼容性 | 旧版本(Flink <1.13)常用 | 新版本(Flink ≥1.13)推荐 |
| 适用场景 | 简单窗口统计(如固定时间聚合) | 复杂窗口逻辑(如多窗口叠加、窗口连接) |
选择建议
- 简单场景:若只需快速实现固定窗口(如每小时统计一次),分组窗口聚合语法更简洁。
- 复杂场景:若需灵活操作窗口元数据、多窗口叠加或与其他表函数结合,选择窗口表值函数。
- 未来兼容性:新项目建议直接使用窗口表值函数,避免未来版本迭代的兼容性问题。
进阶示例:窗口表值函数的灵活性
多窗口叠加
-- 同时统计1小时和5分钟的窗口
SELECT click,window_start,window_end,COUNT(*) AS cnt
FROM TABLE(TUMBLE(TABLE test_source, DESCRIPTOR(event_time), INTERVAL '1' MINUTE)
)
GROUP BY click, window_start, window_end
union
SELECT click,window_start,window_end,COUNT(*) AS cnt
FROM TABLE(TUMBLE(TABLE test_source, DESCRIPTOR(event_time), INTERVAL '5' MINUTE)
)
GROUP BY click, window_start, window_end;
窗口连接
-- 窗口连接不同表
SELECT o.window_start,o.user,o.cnt AS order_count,p.cnt AS payment_count
FROM (SELECT window_start, user, COUNT(*) AS cntFROM TABLE(TUMBLE(TABLE Orders, DESCRIPTOR(rowtime), INTERVAL '1' HOUR))GROUP BY window_start, user
) o
JOIN (SELECT window_start, user, COUNT(*) AS cntFROM TABLE(TUMBLE(TABLE Payments, DESCRIPTOR(pay_time), INTERVAL '1' HOUR))GROUP BY window_start, user
) p ON o.window_start = p.window_start AND o.user = p.user;
总结
- 分组窗口聚合:适合快速实现简单窗口逻辑,语法简洁但功能受限。
- 窗口表值函数:提供更强大的扩展性和标准化语法,是 Flink 未来窗口处理的核心方向。
根据业务需求和 Flink 版本选择合适的方案,复杂场景优先使用窗口表值函数。
相关文章:
flink 分组窗口聚合 与 窗口表值函数聚合 的区别
警告:分组窗口聚合已经过时。推荐使用更加强大和有效的窗口表值函数聚合。 参考官方文档 在 Apache Flink 中,分组窗口聚合(Group Window Aggregation) 和 窗口表值函数聚合(Windowing TVF Aggregation)…...
阿里云Tair KVCache:打造以缓存为中心的大模型Token超级工厂
一、Tair KVCache 简介 Tair KVCache 是阿里云瑶池旗下云数据库 Tair 面向大语言模型推理场景推出的 KVCache 缓存加速服务。 随着互联网技术的演进与流量规模的激增,缓存技术逐渐成为系统架构的核心组件。该阶段催生了 Redis 等开源缓存数据库,阿里巴巴…...
通过TIM+DMA Burst 实现STM32输出变频且不同脉冲数量的PWM波形
Burst介绍: DMA控制器可以生成单次传输或增量突发传输,传输的节拍数为4、8或16。 为了确保数据一致性,构成突发传输的每组传输都是不可分割的:AHB传输被锁定,AHB总线矩阵的仲裁器在突发传输序列期间不会撤销DMA主设备…...
【JAVA】【疑难杂症解决!】org.springframework.transaction.UnexpectedRollbackException:
程序莫名其妙出现这个事务回滚错误,不显示具体错误信息!! 问题:前几天遇到一个问题,代码没有抛出我想要的带自定义提示消息的异常,却报了个这个,去搜了一下,大概原因如下: 因为我在方法上写了@Transactional注解,里边调用的service的方法上也写了@Transactional注解…...
[Effective C++]条款26:尽可能延后变量定义的出现时间
. 在C中,尽可能延后变量定义的出现时间,主要原因是为了提供代码的可读性,减少不必要的开销以及避免潜在的错误。 1、代码执行过程中抛出异常 如果在代码开头定义了变量,但在后续代码中抛出了异常,可能导致变量在未被使…...
如何在k8s中对接s3存储
github地址: https://github.com/majst01/csi-driver-s3 1.CSI for S3 这是用于 S3(或兼容 S3)存储的容器存储接口 (CSI)。它可以动态分配存储桶并通过Fuse mount将它们安装到任何容器中 2.状态 这仍处于试验阶段,不应在任何…...
基于TradingView和CTPBee的自动化期货交易系统实现
引言 在量化交易领域,TradingView因其强大的技术分析工具和丰富的指标库而广受欢迎,但是其不支持国内期货自动化交易,CTPBee则是一个优秀的国产Python期货交易接口。本文将介绍如何将两者结合,实现一个完整的自动化交易系统。 本…...
FPGA实现LED流水灯
一、在VsCode中写代码 1、建立工程项目文件water_led.v文件 2、打开项目文件,创建三个目录 3、打开文件trl,创建water_led.v文件 4、打开文件tb,创建water_led_tb.v文件 5、用VsCode打开water_led.v文件,编写源代码 module water…...
电商场景下高稳定性数据接口的选型与实践
在电商系统开发中,API接口需要应对高并发请求、动态数据更新和复杂业务场景。我将重点解析电商场景对数据接口的特殊需求及选型方案。 一、电商API必备的四大核心能力 千万级商品数据实时同步 支持SKU基础信息/价格/库存多维度更新每日增量数据抓取与历史版本对比…...
4199. 公约数-公约数模版题
给定两个正整数 a 和 b。 你需要回答 q个询问。 每个询问给定两个整数 l,r,你需要找到最大的整数 x,满足: x 是 a 和 b 的公约数。l≤x≤r。 输入格式 第一行包含两个整数 a,b。 第二行包含一个整数 q。 接下来 q 行,每行包…...
百度文库免费下载器
01 引言 在国内的环境下,Greasy Fork网站是彻底打不开了,导致好多小伙伴想要用脚本都没办法。 特别是需要某Wen库下载的小伙伴,之前还说实在没办法,去Greasy Fork网站上安个脚本就可下载,但是现在网站被墙了…...
[NCTF2019]True XML cookbook[XXE] [内网探测] [网络ip相关知识]
一模一样的登录界面 我直接故伎重演但是并卵 (话说XXE注入之前好像其他博客都加上了<?xml version"1.0" encoding"utf-8"?>,但是不加好像也没有什么问题🤔) <?php /** * autor: c0ny1 * date: …...
Qt | 电脑音频采集曲线Charts
01 audio.pro # 项目使用了charts(图表)模块和multimedia(多媒体)模块。QT += charts multimedia# 调试打印QT += coreHEADERS += \ widget.h \ xyseriesiodevice.hSOURCES += \ main.cpp\ widget.cpp \ xyseriesiodevice.cpptarget.path = $$[QT_INSTAL…...
Linux驱动的基本概念
一 交叉开发编译 概念:交叉开发编译(Cross Compilation)是指在一个平台上生成能在另一个不同平台上执行的代码的编译过程。这是嵌入式系统开发和跨平台软件开发中的常见技术。 二 系统启动流程 在Linux源码下,通过网口利用tftp协议把u-bantu下的uImage…...
win server2022 限制共享文件夹d
点击配额管理中的配额 然后创建配额 导入要配额的文件即可 然后确定即可...
Ansible(3)——主机清单与配置文件
目录 一、创建 Ansible 清单: 1、清单定义: 2、使用静态清单指定受管主机: (1)主机名称指定: (2)IP 地址指定: 3、验证清单: (1࿰…...
C语言 【初始指针】【指针一】
引言 思绪很久,还是决定写一写指针,指针这块内容很多,也不是那么容易说清楚,这里尽可能写地详细,让大家理解指针。(未完序) 一、内存和地址 在讲指针前,需要有一个对内存和地址的认…...
装饰器模式详解
以下是一个结合装饰器模式解决实际开发问题的Java实现案例,涵盖动态扩展功能、多层装饰顺序控制、性能优化等场景需求,附带逐行中文注释: 场景描述 开发一个数据加密传输系统,需满足: 基础功能:原始数据传…...
IP 地址规划中的子网划分:/18 网络容纳 64 个 C 段(/24)的原理与应用解析
整体表格说明 这是某市教育城域网中某县教育相关机构的IP地址规划表,明确了某县一中和某县教育局的IP地址范围,包括终端使用地址段、业务互访地址段。 概念解析 64个C段终端及互联地址 C段地址:一个C段是IP地址中的一个/24网络(…...
linux下Tomcat配置提示权限不够解决办法
文章目录 前言解决方案 前言 往linux服务器上部署Java后端,但是在服务器上安装好的tomcat,却因为权限不够无法进入 这就导致后端war包项目及前端页面无法部署 解决方案 sudo chmod -R 777 /opt/tomcat/webapps修改tomcat目录下的权限即可,对…...
您使用的开源软件许可证是否存在冲突呢?
开源软件代码使用现状 根据最新发布的《第三次自由和开源软件普查报告》,96%的代码库中使用了开源组件,这表明开源技术在现代软件开发中占据了核心地位。在国内企业软件项目中,开源软件的使用率达到了100%,平均每个项目使用了166…...
leetcode刷题日记——接雨水
[ 题目描述 ]: [ 思路 ]: 题目要求求凹进去的部分能接多少雨水,即有多少个格子可以从第一个高度快出发去寻找下一个高于或者等于他的格子,然后计算其中的差值 有高于或等于他的格子,计算他俩中间能装的雨水当后续没有…...
阿里巴巴暑期实习Java面经,灵犀互娱一面
哈希表熟悉吗,可以如何实现? 开散列版本什么时候需要扩容 高并发服务器内的主从reactor模型是如何实现的? 进程 线程 协程 的区别? 如何保证线程安全 ? 了解读写锁吗? 单例模式有了解吗? 可以怎…...
AI知识补全(十四):零样本学习与少样本学习是什么?
名人说:一笑出门去,千里落花风。——辛弃疾《水调歌头我饮不须劝》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 上一篇:AI知识补全(十三):注意力…...
如何用Postman实现自动化测试?
🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 这里简单演示在postman中怎样实现自动化测试(不涉及到用户登录的token认证) 导入测试用例文件,测试web接口 postman使用流程…...
LeetCode Hot100 刷题笔记(9)—— 二分查找、技巧
目录 前言 一、二分查找 1. 搜索插入位置 2. 搜索二维矩阵 3. 在排序数组中查找元素的第一个和最后一个位置 4. 搜索旋转排序数组 5. 寻找旋转排序数组中的最小值 6. 寻找两个正序数组的中位数 二、技巧 1. 只出现一次的数字 2. 多数元素 3. 颜色分类 4. 下一个排列 5. 寻找重复…...
Ubuntu 系统上完全卸载 Docker
以下是在 Ubuntu 系统上完全卸载 Docker 的分步指南 一.卸载验证 二.卸载步骤 1.停止 Docker 服务 sudo systemctl stop docker.socket sudo systemctl stop docker.service2.卸载 Docker 软件包 # 移除 Docker 核心组件 sudo apt-get purge -y \docker-ce \docker-ce-cli …...
1017 Queueing at Bank
1017 Queueing at Bank 分数 25 全屏浏览 切换布局 作者 CHEN, Yue 单位 浙江大学 Suppose a bank has K windows open for service. There is a yellow line in front of the windows which devides the waiting area into two parts. All the customers have to wait in li…...
二分答案 + P8800 [蓝桥杯 2022 国 B] 卡牌 - 题解
题解:卡牌问题 题目传送门:P8800 [蓝桥杯 2022 国 B] 卡牌 一、题目描述 小明有n种卡牌,每种卡牌有a_i张。他可以用m张空白牌制作任意卡牌,但第i种卡牌最多只能制作b_i张。问最多能凑出多少套"完整卡牌"(…...
Python----计算机视觉处理(Opencv:道路检测之道路透视变换)
一、透视变换 对于道路检测来说,为了方便车辆进行行驶,道路上都有车道线,为了更加方便对道路线进行检测,首先我们要把到路线平视图转变为俯视图,以便后期处理更加方便,如下图所示,该为虚拟场景的…...
