当前位置: 首页 > article >正文

Flink:Keyed State vs Operator State 原理与实践

一、引言在 Flink 实时计算的世界里流处理的本质可以概括为公式实时流处理 业务逻辑 状态State。无论是窗口聚合、双流 Join 还是复杂的 CEP 模式匹配都离不开状态管理。Flink 提供了两种基本的状态类型Keyed State键控状态 和 Operator State算子状态本文将深入浅出地剖析这两者的底层机制、重分配策略并给出实战中的最佳实践。二、Keyed State键控状态基于 Key 的数据记忆Keyed State 是与特定 Key 绑定的状态只能在KeyedStream上下文中使用即keyBy()之后。每个 Key 拥有独立的状态实例不同 Key 之间状态完全隔离。Keyed State支持以下数据结构状态类型存储结构典型场景访问方式ValueStateV单值最新状态跟踪、上次事件记录value() / update(v)ListStateT列表事件序列收集、窗口缓存add(v) / get() / clear()MapStateUK, UVMap多维度指标统计、分组计数put(k,v) / get(k) / entries()ReducingStateT单值自动聚合持续求和、求最值add(v) → 自动 reduceAggregatingStateIN,OUT单值自动聚合求平均值等复杂聚合add(v) → 自动 aggregateKeyed State 通过State Descriptor声明在open()方法中通过RuntimeContext获取示例如下public class WordCountFunction extends KeyedProcessFunctionString, String, Tuple2String, Long { // 声明状态句柄 private transient ValueStateLong countState; Override public void open(OpenContext openContext) throws Exception { // 通过 StateDescriptor 注册状态 ValueStateDescriptorLong descriptor new ValueStateDescriptor(word-count, Long.class, 0L); // ① 可选配置 State TTL状态过期清理 StateTtlConfig ttlConfig StateTtlConfig .newBuilder(Duration.ofHours(1)) .setUpdateType(StateTtlConfig.UpdateType.OnCreateAndWrite) .setStateVisibility( StateTtlConfig.StateVisibility.NeverReturnExpired) .build(); descriptor.enableTimeToLive(ttlConfig); // ② 通过 RuntimeContext 获取状态实例 countState getRuntimeContext().getState(descriptor); } Override public void processElement(String value, Context ctx, CollectorTuple2String, Long out) throws Exception { Long currentCount countState.value(); // 读取当前 Key 的状态 currentCount 1; countState.update(currentCount); // 更新当前 Key 的状态 out.collect(Tuple2.of(value, currentCount)); } }在底层Flink 并不会为每一个单独的 Key 维护一个独立的状态结构那样元数据开销太大了而是引入了 Key Group键组 的概念。Key Group 是 Flink 分发 Keyed State 的最小单元。当作业的并发度发生改变扩容或缩容时Keyed State 的重新分配是基于 Key Group 进行的。分配公式KeyGroupId MathUtils.murmurHash(key.hashCode()) % maxParallelism。在扩缩容时Flink 会将一个个完整的 Key Group 重新均匀分配给新的 Task 实例。三、Operator State算子状态基于 Task 实例的全局记忆Operator State也称 Non-Keyed State与算子的并行实例绑定每个并行子任务subtask维护一份独立的状态与数据的 Key 无关。一个 Task 实例处理的所有数据共享同一个 Operator State。Operator State支持以下数据结构状态类型重分配模式典型场景ListStateTEven-split均匀拆分Kafka offset 管理、缓冲区UnionListStateTUnion联合广播需要全量恢复的元数据BroadcastStateK,VBroadcast广播动态规则、配置下发Operator State 通过实现CheckpointedFunction接口来使用在日常Flink应用开发中基本很少使用。由于没有 Key 的概念扩缩容时 Operator State 的分配策略分为以下几种Even-split (ListState)轮询平均分配。例如缩容前 Task A 有状态 [1,2]Task B 有状态 [3,4]。扩容到 4 个并发后状态会被打散变成新 Task 1 拿 [1]Task 2 拿 [2]以此类推。Union (UnionListState)全量广播。扩缩容后每一个新 Task 都会获得所有老 Task 状态的完整集合。然后由用户自己的逻辑去决定哪些数据归新 Task 处理哪些丢弃。BroadcastState每一个 Task 都保持相同的状态扩容时新 Task 直接从旧 Task 拷贝一份全量状态即可。四、Keyed State vs Operator State 核心对比对比维度Keyed StateOperator State作用域每个 Key 一个状态实例每个算子并行实例一个状态前提条件必须在 keyBy() 之后使用任意算子均可使用访问方式通过 RuntimeContext 在 open() 中获取实现 CheckpointedFunction 接口State Descriptor 注册位置open() 方法initializeState() 方法支持类型Value / List / Map / Reducing / AggregatingList / UnionList / BroadcastState TTL✅ 支持❌ 不支持State Backend 影响受 StateBackend 选择影响堆内/RocksDB始终存储在堆内存Java Heap重分配策略基于 Key Group 自动重分配Even-split / Union / Broadcast典型使用者业务开发者常用Connector/Source/Sink 开发者五、最佳实践与避坑指南1.合理设置 maxParallelismenv.setMaxParallelism(128); // 默认值即可满足多数场景 // 或在算子级别设置 stream.keyBy(...).process(...).setMaxParallelism(256);maxParallelism 一旦设定后不可更改否则无法从 Savepoint 恢复建议设为 2 的幂次方如 128、256有利于 Key Group 均匀分布parallelism 不能超过 maxParallelism2.为 Keyed State 配置 State TTL对于无限增长的 Key 空间如 userId必须配置 TTL 防止状态膨胀StateTtlConfig ttlConfig StateTtlConfig .newBuilder(Duration.ofDays(1)) .setUpdateType(StateTtlConfig.UpdateType.OnCreateAndWrite) .setStateVisibility(StateTtlConfig.StateVisibility.NeverReturnExpired) .cleanupFullSnapshot() // 全量 snapshot 时清理 .cleanupIncrementally(10, true) // 增量清理RocksDB 推荐 .cleanupInRocksdbCompactFilter(1000) // RocksDB Compaction 时清理 .build();3.大状态场景选择 RocksDB// flink-conf.yaml 或代码中配置 env.setStateBackend(new EmbeddedRocksDBStateBackend(true)); // true 增量 Checkpoint4.Operator State 保持轻量Operator State 存储在 Java 堆内存中过大会导致 OOM避免在 Operator State 中存储大量数据如果需要大状态管理考虑改用keyBy() Keyed State5.慎用 UnionListState除非你非常明确扩缩容后需要所有 Task 拿到全局状态做重新路由像 Kafka Source 那样否则在普通业务逻辑中请使用ListState。UnionListState在高并发、大状态下扩容会导致极其恐怖的内存暴涨。6.为算子设置唯一 UIDstream .keyBy(...) .process(new MyProcessFunction()) .uid(my-process-function) // ← 必须设置 .name(My Process Function);uid()是 Savepoint 恢复时匹配状态的唯一标识不设置时 Flink 会自动生成但拓扑变更后可能无法匹配建议制定 UID 命名规范

相关文章:

Flink:Keyed State vs Operator State 原理与实践

一、引言在 Flink 实时计算的世界里,流处理的本质可以概括为公式:实时流处理 业务逻辑 状态(State)。无论是窗口聚合、双流 Join 还是复杂的 CEP 模式匹配,都离不开状态管理。Flink 提供了两种基本的状态类型&#x…...

STM32F103 IAP实战:从Bootloader设计到远程固件更新

1. 为什么你的STM32需要IAP升级? 第一次接触IAP(In-Application Programming)这个概念时,我正蹲在工厂车间的设备旁边,手里拿着需要升级的STM32板子发愁。产线上30台设备需要更新程序,而每台设备都要拆外壳…...

基于ESP8266与ADC同步解调实现远距离反射式光电检测:ITR8307实战

1. 反射式光电检测的必要性 在智能车竞赛中,节能信标组的设计一直面临一个棘手问题:传统磁铁触发方式容易导致对抗比赛中车模相互吸附。我亲眼见过两辆精心调校的车模因为磁铁吸引力"难舍难分"的尴尬场景,这直接影响了比赛公平性和…...

收藏!AI时代程序员转型指南:从纯编码到人机协同高手

本文揭示了AI对程序员行业的深刻变革:初级编码岗需求锐减,而AI协作、架构师等高端岗位需求激增。文章提出两个阶段提升竞争力:第一阶段掌握AI工具栈(编码助手、调试工具等)并遵循人机协同法则;第二阶段构建…...

ARM CoreSight TRBPIDR寄存器详解与调试技巧

1. ARM CoreSight TRBPIDR寄存器概述在嵌入式系统调试领域,ARM CoreSight架构提供了一套完整的调试和追踪解决方案。其中TRBPIDR(Trace Buffer Peripheral Identification Register)系列寄存器是识别和配置追踪缓冲区的关键组件。这些寄存器遵…...

构建离线文档ETL管道:用Python实现PDF/Word智能转Markdown优化LLM输入

1. 项目概述:为什么我们需要一个离线的文档转换工具?如果你和我一样,经常需要把一堆PDF、Word文档甚至扫描件喂给本地的大语言模型(比如Ollama、LM Studio),那你肯定遇到过这个痛点:模型宝贵的上…...

软考高项备考重点考点18:项目绩效域

一、历年真题分布 2023年5月 选择题3分 2023年11月 选择题3分 案例5分第1批,15分第3批,5分第4批 论文 75分 第2批 2024年5月 选择题3分 案例10分 第2批 2025年5月 选择题2分 论文 75分 第1批、第2批 二、备考重点…...

基于RAG与向量数据库的本地化个人知识库构建实践

1. 项目概述:一个为个人量身定制的知识库构建引擎 如果你和我一样,每天在浏览器、笔记软件、PDF文档和各种聊天记录之间疲于奔命,试图抓住那些一闪而过的灵感和零散的知识点,那么你肯定理解“知识碎片化”的痛苦。我们收藏了无数…...

HFSS主从边界条件实战:用周期性边界快速搞定天线阵列仿真(附微带贴片案例)

HFSS主从边界条件实战:周期性边界在天线阵列仿真中的高效应用 在射频工程领域,天线阵列的仿真往往面临计算资源消耗大、耗时长的问题。传统全阵列建模方式对硬件性能要求极高,尤其当单元数量超过数十个时,仿真时间可能呈指数级增长…...

2018自动化测试核心价值与行业挑战解析

1. 2018自动化测试的核心价值与行业挑战在2018年这个技术转折点上,自动化测试已经从可选方案变成了工程团队的生存必需。作为经历过这个阶段的测试架构师,我亲眼见证了当时几个关键行业变化:5G标准竞赛进入白热化阶段、自动驾驶汽车传感器技术…...

ISSCC传感器设计启示:从高精度温度测量到低功耗系统优化

1. 从ISSCC看传感器设计的巅峰与启示每年二月的国际固态电路会议,对于像我这样泡在实验室和产线里的硬件工程师来说,就像一场技术界的“春晚”。它不发布概念,不空谈趋势,只展示过去一年里,全球顶尖研究团队在硅片上实…...

【PyTorch实战】从零构建CNN模型:MNIST手写数字识别全流程解析

1. 环境准备与数据加载 第一次接触PyTorch时,我对着官方文档折腾了半天环境配置。后来发现用Anaconda管理Python环境真是省心,这里分享我的配置经验。建议先安装Anaconda最新版,然后创建专属环境: conda create -n pytorch_env py…...

从机械奇观到数字逻辑:FPGA设计中的状态机与系统思维

1. 项目概述:当鲁布戈德堡机械遇见数字逻辑的灵魂我的一位老朋友杰伊道林最近给我分享了两段视频,看完之后,我的第一反应是“袜子都要被震飞了”——这让我认真考虑,是不是该换双带松紧带的袜子。这两段视频,一段是森林…...

Llama.cpp Docker镜像部署指南:快速搭建本地大模型运行环境

1. 项目概述:为什么需要为Llama.cpp准备Docker镜像? 在本地部署和运行大型语言模型(LLM)这件事上,Llama.cpp 几乎成了开源社区的“标准答案”。它用纯C/C编写,通过高效的量化技术,让我们能在消费…...

032随机链表的复制

随机链表的复制 题目链接:https://leetcode.cn/problems/copy-list-with-random-pointer/description/?envTypestudy-plan-v2&envIdtop-100-liked 我的解答: public Node copyRandomList(Node head) {Node dummy new Node(-1);Node curhead, newCu…...

基于MCP协议构建AI代码安全沙盒:原理、实现与工程实践

1. 项目概述:一个为AI模型安全执行代码的“沙盒”工具最近在折腾AI应用开发,特别是那些能调用外部工具、执行代码的智能体(Agent)时,一个绕不开的核心问题就是:如何让AI安全地运行它生成的代码?…...

从GPS周内秒到日常时间:原理、转换与编程实践

1. GPS时间系统的基本概念 第一次接触GPS时间数据时,我也被"周内秒"这个概念搞懵了。这和我们平时用的年月日时分秒完全不同,更像是一种程序员喜欢的计数方式。GPS时间系统(GPST)本质上是个超级精准的原子钟&#xff0c…...

从零开始使用 Node js 调用 Taotoken 多模型 API 的实践感受

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 从零开始使用 Node.js 调用 Taotoken 多模型 API 的实践感受 作为一名 Node.js 后端开发者,我最近在项目中接入了 Taot…...

阴阳师百鬼夜行AI自动化:3分钟配置实现全智能碎片收集

阴阳师百鬼夜行AI自动化:3分钟配置实现全智能碎片收集 【免费下载链接】OnmyojiAutoScript Onmyoji Auto Script | 阴阳师脚本 项目地址: https://gitcode.com/gh_mirrors/on/OnmyojiAutoScript 还在为手动刷百鬼夜行而烦恼吗?每天重复点击、熬夜…...

微信灰度测试状态浏览功能引热议,“已读”“访客”功能为何“焊死”不开发?

微信状态灰度测试功能揭秘5月12日,微信员工“客村小蒋”和腾讯公关总监张军先后就微信状态灰测访客功能表态。原来,此次小范围测试包含两个功能,一是状态浏览人数展示,发布状态后,在有效期内可在右下角看到浏览人数&am…...

Redis_7_Streams与高可用集群实战

Redis 7.0 Streams与高可用集群部署实战 从消息队列到分布式架构,全面掌握Redis核心能力 前言 Redis不只是一个缓存数据库。Redis 5.0引入的Streams让它具备了消息队列的能力,Redis 7.0进一步增强了Streams的稳定性和性能。很多团队在用Kafka/RabbitMQ处理消息队列时,其实R…...

WordPress AI内容创作栈:基于Claude API的自动化写作与运维实践

1. 项目概述:一个为WordPress量身定制的AI内容创作栈最近在折腾一个内容站,发现内容创作和日常运维的重复性工作实在太多了。从构思文章大纲、撰写初稿,到批量处理图片、优化SEO元数据,再到回复评论、生成周报,这些工作…...

NExT-GPT:从多模态对齐到任意模态生成的架构与实战

1. 项目概述:从“多模态”到“任意模态”的进化 如果你在过去一年里关注过AI领域,一定对“多模态大模型”这个词不陌生。从GPT-4V到Gemini,主流模型都在努力让AI能同时理解文本和图像。但不知道你有没有想过一个问题:为什么我们和…...

VMDE终极指南:如何快速检测虚拟机环境的完整教程

VMDE终极指南:如何快速检测虚拟机环境的完整教程 【免费下载链接】VMDE Source from VMDE paper, adapted to 2015 项目地址: https://gitcode.com/gh_mirrors/vm/VMDE VMDE(Virtual Machine Detection Enhanced)是一款强大的开源虚拟…...

C盘空间管理完全指南:从清理到预防,根治飘红

你的C盘是否在不知不觉中已经飘红?在清理文件的路上,你是否曾因误删系统文件而追悔莫及? C盘告急的普遍困境 每当Windows系统运行缓慢,或安装新软件时弹出磁盘空间不足的提示,用户的第一反应往往是查看C盘使用情况。…...

Intel Quark SoC X1000:物联网边缘计算的核心技术解析

1. Intel Quark SoC X1000:物联网边缘计算的小型化革命在工业自动化现场,一台装备了温度传感器的风机正在持续监测轴承状态。传统方案需要将每秒数百个采样点全部上传云端,不仅占用带宽,延迟更是达到秒级。而采用Intel Quark SoC …...

电光非线性计算加速Transformer注意力机制

1. 电光非线性计算加速Transformer注意力机制的技术背景Transformer架构已经成为当前自然语言处理和计算机视觉领域的主导性神经网络结构,其核心组件——注意力机制依赖于Softmax等非线性运算。虽然这些非线性操作仅占模型总计算量的不到1%,但由于现代GP…...

终极指南:如何在Windows上使用智能PPT计时器掌控演示时间

终极指南:如何在Windows上使用智能PPT计时器掌控演示时间 【免费下载链接】ppttimer 一个简易的 PPT 计时器 项目地址: https://gitcode.com/gh_mirrors/pp/ppttimer 您是否曾在重要演讲中因为超时而尴尬收场?是否在商务汇报中因为时间把控不准而…...

任务历史面板:浏览 Claude Code 的完整任务对话、复制提示词、一键切换继续工作

在技术领域,我们常常被那些闪耀的、可见的成果所吸引。今天,这个焦点无疑是大语言模型技术。它们的流畅对话、惊人的创造力,让我们得以一窥未来的轮廓。然而,作为在企业一线构建、部署和维护复杂系统的实践者,我们深知…...

基于Godot引擎的经典游戏重制:OpenClaw项目架构与实现深度解析

1. 项目概述与核心价值最近在独立游戏开发圈里,一个名为“OpenClaw”的开源项目热度不低。它的全称是“GambitGamesLLC/openclaw-godot”,简单说,这是一个基于Godot引擎,对经典DOS平台动作冒险游戏《The Claw》进行的开源重制版。…...