flink jobgraph详细介绍
一、Flink JobGraph 的核心概念
JobGraph 是 Flink 作业的核心执行计划,它描述了作业的任务拓扑结构和数据流关系。JobGraph 由以下几部分组成:
-
顶点(Vertex)
- 每个顶点代表一个任务(Task),例如
Source、Sink、Map、Filter、Aggregate等。 - 顶点之间通过边(Edge)连接,表示数据流的方向。
- 每个顶点代表一个任务(Task),例如
-
边(Edge)
- 表示两个顶点之间的数据流关系。
- 边有两种类型:Forward 和 Shuffle。
- Forward:数据直接从前一个任务传递到下一个任务。
- Shuffle:数据需要重新分区(Re-partitioning),例如根据键(Key)进行分区。
-
输入和输出(Input and Output)
- 输入:表示任务的输入数据来源。
- 输出:表示任务的输出数据去向。
-
配置信息(Configuration)
- 包括作业的并行度、资源需求(如内存、CPU 等)、优化策略等。
二、Flink JobGraph 的生成过程
Flink 的作业从用户编写的程序开始,经过一系列的转换步骤,最终生成 JobGraph。以下是详细的生成过程:
-
StreamGraph
- 用户编写的 Flink 程序(如DataStream API 或 DataSet API)会被转换为
StreamGraph,这是一个高层次的逻辑表示。 StreamGraph描述了作业的逻辑结构,但尚未进行优化。
- 用户编写的 Flink 程序(如DataStream API 或 DataSet API)会被转换为
-
Optimized Plan
StreamGraph会被 Flink 的优化器(Optimizer)进行优化,生成一个优化后的执行计划。- 优化器会根据数据流的特点(如分区方式、并行度等)调整任务的拓扑结构,以提高性能。
-
JobGraph
- 优化后的执行计划会被转换为
JobGraph,这是提交给 Flink 运行时的最终形式。 JobGraph包含了任务的拓扑结构、数据流关系以及配置信息。
- 优化后的执行计划会被转换为
三、Flink 架构中的 JobGraph 流转与应用
在 Flink 的整体架构中,JobGraph 的流转和应用贯穿了整个作业的生命周期。以下是 JobGraph 在 Flink 架构中的关键作用:
1. 提交到 JobManager
- 当用户提交一个 Flink 作业时,
JobGraph会被提交到 Flink 集群的JobManager。 JobManager是 Flink 集群的控制中心,负责协调作业的执行。
2. 生成 ExecutionGraph
JobManager会根据JobGraph生成ExecutionGraph。ExecutionGraph是JobGraph的物理实现,它描述了作业在集群中的实际执行方式。ExecutionGraph将JobGraph中的逻辑任务(Vertex)映射到物理节点(TaskManager)上的线程(Task Slot)。
3. 任务调度与执行
JobManager根据ExecutionGraph进行任务调度,将任务分配到不同的TaskManager上。TaskManager负责执行具体的任务(Task),并与JobManager通信以汇报任务的进度和状态。
4. 容错与恢复
JobGraph中包含了作业的容错和恢复策略(如 Checkpoint 和 Savepoint 的配置)。- 如果作业失败或中断,Flink 可以根据
JobGraph和存储的 Checkpoint 数据进行恢复。
四、Flink JobGraph 的应用场景
1. 流处理(Streaming)
- 在流处理场景中,
JobGraph描述了数据流的拓扑结构。 - 例如,一个实时数据处理作业可能包含多个
Source(如 Kafka、File)、中间处理任务(如Map、Filter、Aggregate)和Sink(如 HDFS、数据库)。 JobGraph确保数据流在不同任务之间的高效传输和处理。
2. 批处理(Batch)
- 在批处理场景中,
JobGraph同样适用。 - 批处理作业通常包含数据源(如文件)、数据转换(如
Map、Reduce)和数据 sink(如文件输出)。 JobGraph确保批处理任务的顺序执行和资源分配。
3. 复杂事件处理(CEP)
- 在复杂事件处理场景中,
JobGraph可以描述复杂的事件匹配逻辑。 - 例如,一个 CEP 作业可能包含事件序列匹配、模式识别等任务。
JobGraph确保这些复杂逻辑的高效执行。
五、Flink JobGraph 的优化与容错
1. 优化
- Flink 的优化器会根据
JobGraph进行多种优化,例如:- 并行度调整:根据硬件资源和数据流量调整任务的并行度。
- 分区优化:优化数据分区方式(如 Key-By 分区、Hash 分区)以减少数据在网络中的传输开销。
- 资源分配:根据任务的需求分配 CPU、内存等资源。
2. 容错
- Flink 的容错机制基于
Checkpoint和Savepoint。 JobGraph中包含了 Checkpoint 的配置信息(如 Checkpoint 的间隔时间、存储位置等)。- 如果作业失败,Flink 可以根据最新的 Checkpoint 或 Savepoint 恢复作业,并重新执行失败的任务。
六、总结
Flink JobGraph 是 Flink 作业的核心执行计划,它描述了作业的任务拓扑结构和数据流关系。在 Flink 架构中,JobGraph 从用户程序生成到提交执行的过程中扮演了关键角色。它不仅决定了作业的执行方式,还影响了作业的性能和可靠性。通过深入理解 JobGraph 的生成过程和应用方式,用户可以更好地优化 Flink 作业,提高其性能和稳定性。
相关文章:
flink jobgraph详细介绍
一、Flink JobGraph 的核心概念 JobGraph 是 Flink 作业的核心执行计划,它描述了作业的任务拓扑结构和数据流关系。JobGraph 由以下几部分组成: 顶点(Vertex) 每个顶点代表一个任务(Task),例如…...
使用nginx+rtmp+ffmpeg实现桌面直播
使用nginxrtmpffmpeg实现桌面直播 流媒体服务器搭建 docker run docker镜像基于添加了rtmp模块的nginx,和ffmpeg docker pull alfg/nginx-rtmp docker run -d -p 1935:1935 -p 8080:80 --namenginx-rtmp alfg/nginx-rtmprtmp模块说明 进入容器内部查看 docker…...
每日一题——将数字字符串转化为IP地址
将数字字符串转化为IP地址 题目描述解题思路回溯法步骤分解 代码实现全局变量有效性验证函数回溯函数主函数完整代码 复杂度分析关键点说明总结 这题难度还挺大的,整体上实现并不容易。建议参考视频 和https://programmercarl.com/0093.%E5%A4%8D%E5%8E%9FIP%E5%9C%…...
机器学习数学基础:25.随机变量分布详解
一、随机变量与分布函数的基本概念 (一)什么是随机变量? 在概率论领域,随机变量是将随机试验的结果进行数值化的关键概念。它就像一座桥梁,把抽象的随机事件和具体的数学分析连接起来。 举例来说,在一个…...
香港电讯与Zenlayer达成战略合作,拓展全球互联生态圈
作为主要国际金融与贸易中心,香港一直是连系中国内地及全球市场的重要门户。香港电讯作为本地领先的综合电讯服务提供商,拥有广泛的网络资源和深厚的技术专长,一直支持国内企业“走出去”和外资企业“走进来”。而旗下由PCCW Global营运的Con…...
MySQL-事务隔离级别
事务有四大特性(ACID):原子性,一致性,隔离性和持久性。隔离性一般在事务并发的时候需要保证事务的隔离性,事务并发会出现很多问题,包括脏写,脏读,不可重复读,…...
【Python学习 / 6】面向对象编程(OOP)
文章目录 ⭐前言⭐一、类和对象:面向对象编程基础1. 类(Class)类的组成:例子:定义一个简单的 Dog 类代码解析: 2. 对象(Object)对象的创建: 3. 三大特性:封装…...
Ollama DeepSeek + AnythingLLM 实现本地私有AI知识库
Ollama DeepSeek AnythingLLM 实现本地私有AI知识库 本地部署DeepSeek-r1下载安装AnythingLLMAnythingLLM 配置LLM首选项Embedder首选项向量数据库工作区其他配置 AnythingLLM Workspace使用上传知识词嵌入知识检索 本文主要介绍了如何使用AnythingLLM结合Ollama部署的DeepSee…...
个人博客测试报告
一、项目背景 个人博客系统采用前后端分离的方法来实现,同时使用了数据库来存储相关的数据,同时将其部署到云服务器上。前端主要有四个页面构成:登录页、列表页、详情页以及编辑页,以上模拟实现了最简单的个人博客系统。其结合后…...
嵌入式八股文(四)计算机网络篇
第一章 基础概念 1. 服务 指网络中各层为紧邻的上层提供的功能调用,是垂直的。包括面向连接服务、无连接服务、可靠服务、不可靠服务。 2. 协议 是计算机⽹络相互通信的对等层实体之间交换信息时必须遵守的规则或约定的集合。⽹络协议的三个基本要素:语法、…...
基于Electron+Vue3创建桌面应用
Electron 是一个开源框架,基于 Chromium 和 Node.js,用于开发跨平台桌面应用程序。它允许开发者使用 HTML、CSS 和 JavaScript 等 Web 技术构建原生桌面应用,支持 Windows、macOS 和 Linux。Electron 以其开发便捷性、强大的功能和丰富的生态系统而广泛应用于工具类应用、媒…...
建立稳定分析模式的模式语言01
Haitham Hamza 等 著,wnb 译 摘要 一般认为,软件分析模式在减少开销和缩短软件产品生命周期等方面会起到重要的作用。然而,分析模式的巨大潜能还未被充分发掘。缺乏稳定性是当前分析模式存在的主要问题。多数情况下,为特定问题建…...
【C++游戏开发-五子棋】
使用C开发五子棋游戏的详细实现方案,涵盖核心逻辑、界面设计和AI对战功能: 1. 项目结构 FiveChess/ ├── include/ │ ├── Board.h // 棋盘类 │ ├── Player.h // 玩家类 │ ├── AI.h // AI类 │ └── Game.h // 游戏主逻辑 ├── src/ …...
ubuntu20动态修改ip,springboot中yaml的内容的读取,修改,写入
文章目录 前言引入包yaml原始内容操作目标具体代码执行查看结果总结: 前言 之前有个需求,动态修改ubuntu20的ip,看了下: 本质上是修改01-netcfg.yaml文件,然后执行netplan apply就可以了。 所以,需求就变成了 如何对ya…...
tailwindcss学习02
vue中接入tailwindcss 使用cmd不要使用powershell npm create vitelatest stu02 -- --template vue cd stu02npm install --registry http://registry.npm.taobao.org npm install -D tailwindcss3.4.17 postcss autoprefixer --registry http://registry.npm.taobao.org npx t…...
千峰React:脚手架准备+JSX基础
组件化->封装性 React提供函数组件实现组件化 React和传统JS的区别就是JS需要手动管理DOM操作,React: 采用组件化开发,通过虚拟DOM提升性能。 MVC 是一种软件设计模式,全称为 Model-View-Controller(模型-视图-控制器&#x…...
【算法】快排
题目 快排 思路 如果输入为0或1直接返回;否则取一个基准值,可以取中间位置,如果输入是有序的可以避免时间过长,然后移动指针,先让i指针右移,如果小于基准值就继续右移,j指针左移同理。如果指…...
开放签电子签章工具版 2.0 正式发布,构建全场景电子签约能力、满足复杂的签章管理场景
根据近半年开源用户和市场需求反馈,开放签团队推出电子签章工具版2.0版本,主要解决复杂的签约流程集成和电子印章授权管理场景。以API接口对外提供服务和配置一套可视化后台管理系统,可与业务系统无缝集成,用户使用起来毫无“违和…...
python和pycharm 和Anaconda的关系
好的,下面我会详细说明 Python、PyCharm 和 Anaconda 三者的关系,并逐一解释它们的功能和作用。 1. Python(编程语言) 定义:Python 是一种高级编程语言,设计简洁,易于学习,且功能强…...
DeepSeek V3和R1
DeepSeek V3 和 R1 是深度求索(DeepSeek)推出的两款大模型,基于混合专家架构(MoE),但在设计目标、训练方法和应用场景上存在显著差异。以下是两者的详细对比与补充内容: DeepSeek V3和R1 一、模…...
【JavaEE】-- HTTP
1. HTTP是什么? HTTP(全称为"超文本传输协议")是一种应用非常广泛的应用层协议,HTTP是基于TCP协议的一种应用层协议。 应用层协议:是计算机网络协议栈中最高层的协议,它定义了运行在不同主机上…...
Day131 | 灵神 | 回溯算法 | 子集型 子集
Day131 | 灵神 | 回溯算法 | 子集型 子集 78.子集 78. 子集 - 力扣(LeetCode) 思路: 笔者写过很多次这道题了,不想写题解了,大家看灵神讲解吧 回溯算法套路①子集型回溯【基础算法精讲 14】_哔哩哔哩_bilibili 完…...
渗透实战PortSwigger靶场-XSS Lab 14:大多数标签和属性被阻止
<script>标签被拦截 我们需要把全部可用的 tag 和 event 进行暴力破解 XSS cheat sheet: https://portswigger.net/web-security/cross-site-scripting/cheat-sheet 通过爆破发现body可以用 再把全部 events 放进去爆破 这些 event 全部可用 <body onres…...
OkHttp 中实现断点续传 demo
在 OkHttp 中实现断点续传主要通过以下步骤完成,核心是利用 HTTP 协议的 Range 请求头指定下载范围: 实现原理 Range 请求头:向服务器请求文件的特定字节范围(如 Range: bytes1024-) 本地文件记录:保存已…...
USB Over IP专用硬件的5个特点
USB over IP技术通过将USB协议数据封装在标准TCP/IP网络数据包中,从根本上改变了USB连接。这允许客户端通过局域网或广域网远程访问和控制物理连接到服务器的USB设备(如专用硬件设备),从而消除了直接物理连接的需要。USB over IP的…...
搭建DNS域名解析服务器(正向解析资源文件)
正向解析资源文件 1)准备工作 服务端及客户端都关闭安全软件 [rootlocalhost ~]# systemctl stop firewalld [rootlocalhost ~]# setenforce 0 2)服务端安装软件:bind 1.配置yum源 [rootlocalhost ~]# cat /etc/yum.repos.d/base.repo [Base…...
【LeetCode】3309. 连接二进制表示可形成的最大数值(递归|回溯|位运算)
LeetCode 3309. 连接二进制表示可形成的最大数值(中等) 题目描述解题思路Java代码 题目描述 题目链接:LeetCode 3309. 连接二进制表示可形成的最大数值(中等) 给你一个长度为 3 的整数数组 nums。 现以某种顺序 连接…...
从面试角度回答Android中ContentProvider启动原理
Android中ContentProvider原理的面试角度解析,分为已启动和未启动两种场景: 一、ContentProvider已启动的情况 1. 核心流程 触发条件:当其他组件(如Activity、Service)通过ContentR…...
云原生时代的系统设计:架构转型的战略支点
📝个人主页🌹:一ge科研小菜鸡-CSDN博客 🌹🌹期待您的关注 🌹🌹 一、云原生的崛起:技术趋势与现实需求的交汇 随着企业业务的互联网化、全球化、智能化持续加深,传统的 I…...
宠物车载安全座椅市场报告:解读行业趋势与投资前景
一、什么是宠物车载安全座椅? 宠物车载安全座椅是一种专为宠物设计的车内固定装置,旨在保障宠物在乘车过程中的安全性与舒适性。它通常由高强度材料制成,具备良好的缓冲性能,并可通过安全带或ISOFIX接口固定于车内。 近年来&…...
