当前位置: 首页 > news >正文

Flink之水印(watermark)的补充理解

水印(Watermark)‌:用于事件时间处理,标记数据流的进度,解决乱序和延迟问题,触发窗口计算‌

一、Flink 水印的作用

  • 处理乱序事件‌
    水印(Watermark)是 Flink 用于处理事件时间(Event Time)乱序数据的核心机制。水印表示“在该时间戳之前的数据已全部到达”,允许系统在不确定数据顺序的情况下推进计算进度‌。‌
  • 触发窗口计算‌
    当水印时间超过窗口的结束时间时,触发窗口计算并关闭窗口,确保窗口内的数据完整性‌。
  • 容忍数据延迟‌
    通过设置允许延迟时间(如 BoundedOutOfOrderness),水印可等待一定范围内的迟到数据,避免因短暂乱序导致数据丢失‌。

二、水印判定数据迟到的逻辑

水印通过以下机制判定迟到数据:

  • 基准定义‌
    • 水印时间T表示事件时间≤T的数据应已到达系统‌。
    • 任何事件时间≤T但晚于水印到达的数据视为迟到‌。
  • 窗口触发与迟到处理‌
    • 窗口触发条件:水印时间 ≥ 窗口结束时间‌。
    • 窗口关闭后,事件时间属于该窗口的数据将被丢弃或通过侧输出(Side Output)处理‌。
    • 允许延迟(Allowed Lateness):窗口可额外等待一段时间(如3秒),延迟期内到达的数据仍可被处理‌。

‌策略选择原则‌:根据数据乱序程度选择固定延迟或单调递增策略,极端乱序场景需结合侧输出(Side Output)处理异常事件‌。
高乱序场景优先采用事件时间窗口+水印机制。

三、水印的初次生成原理

‌1. 初始触发条件‌
水印的初次生成依赖于第一条到达的事件数据。系统提取其事件时间戳,结合允许延迟时间计算初始水印‌。

  • 公式‌:初始水印时间 = 第一条数据的事件时间 - 允许延迟时间
  • 示例:若第一条数据的事件时间为 10:00,允许延迟为 5分钟,则初始水印为09:55‌

2‌. 动态更新机制‌
后续水印根据新到达数据的事件时间动态更新,始终以当前最大事件时间为基准‌。

四、水印的生成策略‌

  1. 固定延迟策略‌(BoundedOutOfOrderness)
    显式指定允许的最大延迟时间,适用于数据存在可控乱序的场景。
WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofMinutes(5))

该策略生成的水印时间 = 当前最大事件时间 - 允许延迟时间‌。

  1. 单调递增策略‌(forMonotonousTimestamps)
    假设数据严格有序,允许延迟时间设为 0,水印时间等于当前最大事件时间。适用于数据源本身有序的场景‌。
  2. 自定义生成策略‌
    通过实现 WatermarkGenerator 接口,根据业务逻辑动态调整水印生成规则(如根据事件特征或外部系统状态)‌。

五、数据乱序时事件时间窗口 vs. 处理时间窗口

‌对比维度基于事件时间的窗口‌基于处理时间的窗口
‌时间基准数据自带的事件时间戳‌系统处理时间(无需水印)‌
‌水印作用解决乱序问题,动态控制窗口关闭时机‌无关联,窗口直接按系统时间划分‌
乱序处理能力通过水印延迟窗口关闭,允许迟到数据进入窗口‌无法处理乱序,窗口按固定时间触发‌
典型配置需指定 TimestampAssigner 和 WatermarkStrategy‌仅需定义窗口大小和滑动间隔‌

核心差异说明

  • 事件时间窗口‌:依赖水印动态调整窗口关闭时间,水印生成与数据事件时间强相关。例如,若数据时间戳跳跃式增长,水印会快速推进,可能导致中间窗口提前关闭‌。
  • 处理时间窗口‌:完全基于系统时钟,窗口触发与数据实际到达顺序无关,无法感知事件时间的乱序问题‌。

六、风险对系统的影响及应对策略

1‌. 潜在风险‌

  • 窗口提前关闭‌:若事件时间突然大幅推进(如从10:00跳跃到12:00),可能导致中间窗口(如10:00-11:00)因水印跨越而提前关闭,后续数据无法进入这些窗口‌。
  • 数据倾斜‌:时间戳异常事件可能导致水印频繁推进,增加窗口计算频率和资源消耗‌。

2‌. 优化配置‌

  • 限制水印推进速度‌:通过BoundedOutOfOrderness策略设置最大允许延迟时间,避免因偶发大时间戳事件导致水印异常推进‌。
    示例代码:
WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofMinutes(5))
  • 侧输出异常事件‌:对时间戳显著偏离当前窗口范围的事件,通过侧输出(Side Output)单独处理‌
    示例:
OutputTag<Event> anomalousTag = new OutputTag<>("anomalous"){};
stream.process(new ProcessFunction<Event, Event>() {@Overridepublic void processElement(Event event, Context ctx, Collector<Event> out) {if (event.getTimestamp() > ctx.timerService().currentWatermark() + MAX_SKEW) {ctx.output(anomalousTag, event);} else {out.collect(event);}}
});

七、典型场景示例

假如第一个事件事件是10:00,基于事件时间滚动窗口为5分钟,
那么第一个窗口范围是多少?
如果允许迟到2分钟,第一个水印时间是多少?
触动第一个窗口关闭的水印时间是多少?
那么10:06的事件会被分到第几个窗口呢?

第一个窗口范围

当第一个事件的事件时间为 10:00,基于事件时间的滚动窗口为5分钟时,‌第一个窗口的范围是 [10:00, 10:05)‌,第二个窗口:[10:05, 10:10),以此类推。

滚动窗口将事件时间划分为固定长度且不重叠的区间,每个窗口的起始时间为事件时间的整数倍‌12。例如,事件时间 10:00 会被分配到 10:00-10:05 的窗口‌。

允许迟到2分钟时的第一个水印时间

若允许迟到时间为2分钟,‌第一个水印时间为 9:58‌。

水印时间计算公式为:水印时间 = 当前最大事件时间 - 允许延迟时间‌。
当第一个事件到达时,当前最大事件时间为 10:00,允许延迟为2分钟,因此水印初始值为 10:00 - 2分钟 = 9:58‌。

触发第一个窗口关闭的水印时间

‌触发第一个窗口关闭的水印时间为 10:07‌。

窗口关闭条件:当水印时间超过窗口结束时间(10:05)时,窗口关闭并触发计算‌。
允许迟到2分钟时,窗口会在原结束时间基础上额外等待2分钟。因此,实际触发关闭的水印时间为 10:05 + 2分钟 = 10:07‌。

事件时间 10:06 的窗口分配

  • 当事件时间为 10:06 时,基于事件时间的滚动窗口(窗口大小5分钟),事件时间 10:06 落在 10:05 ≤ 时间戳 < 10:10 区间内,因此会将其分配到 ‌第二个窗口‌,即窗口范围为 [10:05, 10:10)‌。
  • 允许迟到时间(如2分钟)仅影响窗口关闭的触发时机(窗口会在原结束时间后等待2分钟),‌不改变事件所属窗口的分配逻辑‌。例如:
    • 窗口 [10:00, 10:05) 的关闭水印时间为 10:07(原结束时间 10:05 + 允许迟到2分钟)‌。
    • 事件时间 10:06 即使迟到,仍属于窗口 [10:05, 10:10),与允许迟到时间无关‌。

相关文章:

Flink之水印(watermark)的补充理解

水印&#xff08;Watermark&#xff09;‌&#xff1a;用于事件时间处理&#xff0c;标记数据流的进度&#xff0c;解决乱序和延迟问题&#xff0c;触发窗口计算‌ 一、Flink 水印的作用 处理乱序事件‌ 水印&#xff08;Watermark&#xff09;是 Flink 用于处理事件时间&…...

数据结构全解析:从线性到非线性,优缺点与应用场景深度剖析

1. 线性数据结构 &#xff08;1&#xff09;数组&#xff08;Array&#xff09;&#xff08;适合静态数据&#xff09; 优点&#xff1a; 随机访问高效&#xff1a;通过索引可以直接访问元素&#xff0c;时间复杂度为 O(1)。 内存连续&#xff1a;数组在内存中是连续存储的&…...

《使用 Python Flask + MySQL + ECharts 构建销售数据看板》实战案例笔记

《使用 Python Flask + MySQL + ECharts 构建销售数据看板》实战案例笔记 技术栈说明 后端:Python 3.10 + Flask 框架数据库:MySQL前端:ECharts 5.4 + HTML/CSS数据可视化:柱状图 / 折线图 / 饼图 / 雷达图项目结构 project/ ├── server.py # 后端服务 └──…...

StringBuilder和StringJoiner的运用

package test12; import java.util.Scanner; import java.util.StringJoiner;public class Test { public static void main(String[] args) {/* String str "你玩的真好&#xff0c;下次别玩了&#xff0c;TMD&#xff0c;CNM";String[] arr {"TMD", &…...

科技创新:改变生活的力量与未来趋势

人工智能在智能客服中的应用越来越普遍。它改变了传统的客服模式。AI可以快速回答用户的问题&#xff0c;提高了客服效率和服务质量。 首先&#xff0c;人工智能能够处理大量信息。智能客服可以在几秒钟内回应客户的请求。这比人工客服快得多。客户不需要等待很久就能得到答案…...

Maven指定JDK

在使用 Maven 管理 Java 项目时&#xff0c;有时需要指定使用特定的 JDK 版本。这通常是因为项目需要与特定版本的 JDK 兼容&#xff0c;或者在不同的开发环境中需要确保使用正确的 JDK 版本。通常来说在IDEA工具中设置了正确的JDK版本&#xff0c;使用IDEA编译也不会有任何异常…...

Jenkins持续集成与Web前端、SpringBoot项目的部署

Jenkins是一个开源的持续集成&#xff08;Continuous Integration, CI&#xff09;和持续交付&#xff08;Continuous Delivery, CD&#xff09;工具&#xff0c;广泛应用于软件开发过程中。‌它基于Java开发&#xff0c;旨在提供一个开放易用的软件平台&#xff0c;帮助软件项…...

如何使用Opentelemetry+jaeger对Go与Java项目实现分布式链路追踪

本文介绍![如何使用Opentelemetryjaeger实现分布式链路追踪] 关于opentelemetry的介绍可以看下面的文章 https://blog.csdn.net/qq_62368250/article/details/143516314本文中相关图片以及源代码地址 https://github.com/wuchenyanghaoshuai/others/blob/main/step39/README.…...

LabVIEW闭环控制系统硬件选型与实时性能

在LabVIEW闭环控制系统的开发中&#xff0c;硬件选型直接影响系统的实时性、精度与稳定性。需综合考虑数据采集速度&#xff08;采样率、接口带宽&#xff09;、计算延迟&#xff08;算法复杂度、处理器性能&#xff09;、输出响应时间&#xff08;执行器延迟、控制周期&#x…...

Html5学习教程,从入门到精通, HTML5超链接应用的详细语法知识点和案例代码(18)

HTML5超链接应用的详细语法知识点和案例代码 超链接&#xff08;Hyperlink&#xff09;&#xff0c;也称为跃点链接&#xff0c;是互联网和文档编辑中的一种重要概念。 超链接的定义 超链接是指从一个网页指向一个目标的连接关系&#xff0c;这个目标可以是另一个网页&#…...

STM32 HAL库 CAN过滤器配置

之前在STM32 f407 CAN收发 基于HAL库和Cubemx配置_stm32f407can收发程序-CSDN博客这篇博文里写了一下配置CAN收发的方法&#xff0c;当时由于并没有使用过滤器的现实需求&#xff0c;所以就也没仔细研究。现在工作中确实需要用到过滤器了&#xff0c;有些项目中控制器和发动机E…...

【前端面试题】Vu3常见的面试题

1.Vue3与 Vue2的核心区别有哪些&#xff1f; ‌ 响应式系统 ‌&#xff1a; ‌ Vue2&#xff1a;通过Object.defineProperty 实现响应式。这种方式在处理对象属性的添加和删除时存在局限性&#xff0c;且无法直接监控数组的变化 ‌;‌Vue3&#xff1a;采用Proxy 实现响应式&…...

【数据分享】2001-2024年我国逐年植被净初级生产力(NPP)数据

植被净初级生产力&#xff08;Net Primary Productivity&#xff0c;NPP&#xff09;是生态学中的一个重要概念&#xff0c;表示单位面积植被在特定时间内吸收的净光合有机物&#xff0c;是衡量生态系统中植物通过光合作用所产生的有机物质减去植物呼吸作用消耗的有机物质的量&…...

java-正则表达式

一、正则表达式能干什么&#xff1f; ✅ 验证格式&#xff1a;手机号、邮箱、日期✅ 提取数据&#xff1a;从日志/文本中抓取关键信息✅ 替换文本&#xff1a;批量修改字符串内容 二、Java正则核心API Java中用 java.util.regex 包的两个类&#xff1a; Pattern&#xff1a;…...

正则表达式(复习)

文章目录 一、[]: 一个字符集合二、{}: 重复次数三、特殊符号四、(): 分组五、python代码示例六、注意 正则表达式(regular expression)描述了一种字符串匹配的模式&#xff08;pattern&#xff09;&#xff0c;可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个…...

sonarqube+SonarScanner+postpresql+jenkins

本地执行参考这篇 sonarqubeSonarScannerPostgreSQL实现代码质量扫描&#xff08;windows&#xff09;_sonarqube 10.7部署-CSDN博客 集成到Jenkins中操作如下 在 Jenkins 中安装 SonarQube Scanner 和配置 Job 1、安装 SonarQube Scanner 插件&#xff1a; 在 Jenkins 的管理…...

牛客周赛Round 84

本场比赛难度不大&#xff0c;也是本人第一次AK&#xff0c;最后一题用组合数学推公式&#xff0c;本篇博客主要讲解最后一题的思路 G-小红的陡峭值&#xff08;五&#xff09;&#xff08;hard&#xff09;_牛客周赛 Round 84 思路&#xff1a;本题要我们求p/q mod M ,即p*&am…...

TDengine 配置 ODBC 数据源

简介 TDengine ODBC 是为 TDengine 实现的 ODBC 驱动程序&#xff0c;支持 Windows 系统的应用&#xff08;如 PowerBI 等&#xff09;以及用户自定义开发的应用程序&#xff0c;通过 ODBC 标准接口访问本地、远程和云服务的 TDengine 数据库。 TDengine ODBC 提供基于 WebSo…...

numpy常用函数详解

在深度神经网络代码中经常用到numpy库的一些函数&#xff0c;很多看过之后很容易忘记&#xff0c;本文对经常使用的函数进行归纳总结。 np.arange arange是numpy一个常用的函数&#xff0c;该函数主要用于创建等差数列。它的使用方法如下所示&#xff1a; numpy.arange([star…...

deepseek 3FS编译

3FS在ubuntu22.04下的编译&#xff08;记录下编译过程&#xff0c;方便后续使用&#xff09; 环境信息 OS ubuntu 22.04内核版本 6.8.0-52-genericlibfuse 3.16.1rust 1.75.0FoundationDB 7.1.66meson 1.0.0ninja 1.10.1 libfuse编译 以下建议均在root下执行 pip3 install…...

浅谈 React Hooks

React Hooks 是 React 16.8 引入的一组 API&#xff0c;用于在函数组件中使用 state 和其他 React 特性&#xff08;例如生命周期方法、context 等&#xff09;。Hooks 通过简洁的函数接口&#xff0c;解决了状态与 UI 的高度解耦&#xff0c;通过函数式编程范式实现更灵活 Rea…...

【网络】每天掌握一个Linux命令 - iftop

在Linux系统中&#xff0c;iftop是网络管理的得力助手&#xff0c;能实时监控网络流量、连接情况等&#xff0c;帮助排查网络异常。接下来从多方面详细介绍它。 目录 【网络】每天掌握一个Linux命令 - iftop工具概述安装方式核心功能基础用法进阶操作实战案例面试题场景生产场景…...

Linux链表操作全解析

Linux C语言链表深度解析与实战技巧 一、链表基础概念与内核链表优势1.1 为什么使用链表&#xff1f;1.2 Linux 内核链表与用户态链表的区别 二、内核链表结构与宏解析常用宏/函数 三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势5.1 插入效率5.2 安全…...

VB.net复制Ntag213卡写入UID

本示例使用的发卡器&#xff1a;https://item.taobao.com/item.htm?ftt&id615391857885 一、读取旧Ntag卡的UID和数据 Private Sub Button15_Click(sender As Object, e As EventArgs) Handles Button15.Click轻松读卡技术支持:网站:Dim i, j As IntegerDim cardidhex, …...

三维GIS开发cesium智慧地铁教程(5)Cesium相机控制

一、环境搭建 <script src"../cesium1.99/Build/Cesium/Cesium.js"></script> <link rel"stylesheet" href"../cesium1.99/Build/Cesium/Widgets/widgets.css"> 关键配置点&#xff1a; 路径验证&#xff1a;确保相对路径.…...

NLP学习路线图(二十三):长短期记忆网络(LSTM)

在自然语言处理(NLP)领域,我们时刻面临着处理序列数据的核心挑战。无论是理解句子的结构、分析文本的情感,还是实现语言的翻译,都需要模型能够捕捉词语之间依时序产生的复杂依赖关系。传统的神经网络结构在处理这种序列依赖时显得力不从心,而循环神经网络(RNN) 曾被视为…...

在鸿蒙HarmonyOS 5中使用DevEco Studio实现录音机应用

1. 项目配置与权限设置 1.1 配置module.json5 {"module": {"requestPermissions": [{"name": "ohos.permission.MICROPHONE","reason": "录音需要麦克风权限"},{"name": "ohos.permission.WRITE…...

Maven 概述、安装、配置、仓库、私服详解

目录 1、Maven 概述 1.1 Maven 的定义 1.2 Maven 解决的问题 1.3 Maven 的核心特性与优势 2、Maven 安装 2.1 下载 Maven 2.2 安装配置 Maven 2.3 测试安装 2.4 修改 Maven 本地仓库的默认路径 3、Maven 配置 3.1 配置本地仓库 3.2 配置 JDK 3.3 IDEA 配置本地 Ma…...

智能AI电话机器人系统的识别能力现状与发展水平

一、引言 随着人工智能技术的飞速发展&#xff0c;AI电话机器人系统已经从简单的自动应答工具演变为具备复杂交互能力的智能助手。这类系统结合了语音识别、自然语言处理、情感计算和机器学习等多项前沿技术&#xff0c;在客户服务、营销推广、信息查询等领域发挥着越来越重要…...

【Go语言基础【13】】函数、闭包、方法

文章目录 零、概述一、函数基础1、函数基础概念2、参数传递机制3、返回值特性3.1. 多返回值3.2. 命名返回值3.3. 错误处理 二、函数类型与高阶函数1. 函数类型定义2. 高阶函数&#xff08;函数作为参数、返回值&#xff09; 三、匿名函数与闭包1. 匿名函数&#xff08;Lambda函…...