当前位置: 首页 > news >正文

短分享-Flink图构建

一、背景

通过简单的书写map、union、keyby等代码,Flink便能构建起一个庞大的分布式计算任务,Flink如何实现的这个酷炫功能呢?我们本次分享Flink做的第一步,将代码解析构建成图

源码基于Flink 2.10,书籍参考《Flink核心技术源码剖析与特性开发》第四章

我这次会用一个简单的代码来举例图的构建过程

二、例子代码

以上代码转换关系如下图:

三、代码转StreamGraph

3.1 路由关系的搭建

Flink中每一次转换(如map)用Transformation表示,每次转换都会有一条类似的边被保存(Transformation1-> Transformation2) ,而所有的关联关系存储在Environment的transformations中

3.2 路由关系转StreamGraph

有了所有的边,就可以将边构成图了,图主要通过递归关系构建,不同Transformation有不同处理策略,对于map会把该结点和它之前的结点构成边,对于union会把它的前后结点连接起来,对于keyby会变成边的策略

转换之后图如下所示,可以看到union和keyby都消失了

我们debug中间过程,可以看到确实是7个结点

且keyby变成了边的策略

四、StreamGraph转JobGraph

在这一步会做很做很多重要操作,比如结点链接,配置检查点,设置分布式缓存文件等,我们本次主要聚焦于结点的链接,满足如下条件的会被链接

StreamGraph转JobGraph同样通过递归进行,链接完后的图如下图所示,map1和map2被链接,map4和slink被链接:

可以debug中间过程,可以看到确实是只剩了5个结点:

如果我们再加上实际的对象,实际如下图所示,每个结点是一个JobVertex,IntermediateDataSet 对象就是数据写入的地方,JobEdge是连接关系

其中ID是IntermediateDataSet,为后面数据分区做准备

JE是JobEdge

五、JobGraph转ExecutionGraph

JobGraph创建好之后,会被提交到JobManager,在JobManager中会根据JobGraph图做拓扑排序,然后完成JobGraph到ExecutionGraph的转化,其中:

JobVertex一比一转换ExecutionJobVertex,ExecutionJobVertex会根据并发度拆分成ExecutionVertex,比如map1->Map2,就会变成两个ExecutionVertex

IntermediateDataSet会转成IntermediateResult,并根据生产结点个数,拆成不同的数据分区IntermediateResultPartition,比如map1->Map2,就会变成两个ExecutionVertex,同时有两个IntermediateResultPartition

转换之后的图为如下所示,其中:

IRP=IntermediateResultPartition 表示一个数据分区,数据分区满了之后会Flink会根据边ExecutionEdge的关联关系,提醒下游获取数据,进行计算

EE=ExecutionEdge表示一条边

EJV=ExecutionJobVertex 表示一个Task任务,由JobVertex一比一转换

EV=ExecutionVertex,由ExecutionJobVertex根据并发度拆出来的

根据debug断点也可以看到确实有五个ExecutionJobVertex,其中map1->map2结点有两个ExecutionVertex,每个ExecutionVertex有一个IntermediateResultPartition

六、后续

Execution是ExecutionVertex的执行抽象,Flink构成图之后,会将Execution结点分发到各个TaskManager进行执行,可以看下面本地debug图,各个Execution刚刚处于创建状态等待执行,具体后续执行流程各位感兴趣可以再继续探究

相关文章:

短分享-Flink图构建

一、背景 通过简单的书写map、union、keyby等代码,Flink便能构建起一个庞大的分布式计算任务,Flink如何实现的这个酷炫功能呢?我们本次分享Flink做的第一步,将代码解析构建成图 源码基于Flink 2.10,书籍参考《Flink核…...

【监督学习】支持向量机步骤及matlab实现

支持向量机 (四)支持向量机1.算法步骤2. MATLAB 实现参考资料 (四)支持向量机 支持向量机(Support Vector Machine, SVM)是一种用于分类、回归分析以及异常检测的监督学习模型。SVM特别擅长处理高维空间的…...

机器学习-随机森林解析

目录 一、.随机森林的思想 二、随机森林构建步骤 1.自助采样 2.特征随机选择 3构建决策树 4.集成预测 三. 随机森林的关键优势 ​**(1) 减少过拟合** ​**(2) 高效并行化** ​**(3) 特征重要性评估** ​**(4) 耐抗噪声** 四. 随机森林的优缺点 ​优点 ​缺点 五.…...

Javaweb后端spring事务管理 事务四大特性ACID

2步操作,只能同时成功,同时失败,要放在一个事务中,最后提交事务或者回滚事务 事务控制 事务管理进阶 事务的注解 这是所有异常都会回滚 事务注解 事务的传播行为 四大特性...

在Spring Boot + MyBatis中优雅处理多表数据清洗:基于XML的配置化方案

问题背景 在实际业务中,我们常会遇到数据冗余问题。例如,一个公司表(sys_company)中存在多条相同公司名的记录,但只有一条有效(del_flag0),其余需要删除。删除前需将关联表&#xf…...

【无标题】四色拓扑模型与宇宙历史重构的猜想框架

### 四色拓扑模型与宇宙历史重构的猜想框架 --- #### **一、理论基础:四色拓扑与时空全息原理的融合** 1. **宇宙背景信息的拓扑编码** - **大尺度结构网络**:将星系团映射为四色顶点,纤维状暗物质结构作为边,构建宇宙尺度…...

[特殊字符] Django 常用命令

🚀 Django 常用命令大全:从开发到部署 Django 提供了许多实用的命令,可以用于 数据库管理、调试、测试、用户管理、运行服务器、部署 等。 本教程将详细介绍 Django 开发中最常用的命令,并提供 示例,帮助你更高…...

mysql中如何保证没有幻读发生

在 MySQL 中,幻读(Phantom Read)是指在一个事务中,两次相同的查询返回了不同的结果集,通常是由于其他事务插入或删除了符合查询条件的数据。为了保证没有幻读,MySQL 主要通过 事务隔离级别 和 锁机制 来实现…...

Golang实践录:go发布版本信息收集

go发布版本信息收集。 背景 本文从官方、网络资料收罗有关go的发布历史概况。主要目的是能快速了解golang不同版本的变更。鉴于官方资料为英文,为方便阅读,使用工具翻译成中文,重要特性参考其它资料补充/修改。由于发布版本内容较多&#xf…...

字节跳动AI原生编程工具Trae和百度“三大开发神器”AgentBuilder、AppBuilder、ModelBuilder的区别是?

字节跳动AI编程工具Trae与百度"三大开发神器"(AgentBuilder、AppBuilder、ModelBuilder)在定位、功能架构和技术路线上存在显著差异,具体区别如下: 一、核心定位差异 Trae:AI原生集成开发环境(AI…...

【UCB CS 61B SP24】Lecture 21: Data Structures 5: Priority Queues and Heaps 学习笔记

本文介绍了优先队列与堆,分析了最小堆的插入与删除过程,并用 Java 实现了一个通用类型的最小堆。 1. 优先队列 1.1 介绍 优先队列是一种抽象数据类型,其元素按照优先级顺序被处理。不同于普通队列的先进先出(FIFO)&…...

mapbox高阶,结合threejs(threebox)添加三维球体

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:mapbox 从入门到精通 文章目录 一、🍀前言1.1 ☘️mapboxgl.Map 地图对象1.2 ☘️mapboxgl.Map style属性1.3 ☘️threebox Sphere静态对象二、🍀使用t…...

QEMU源码全解析 —— 块设备虚拟化(1)

本文内容参考: 《趣谈Linux操作系统》 —— 刘超,极客时间 《QEMU/KVM源码解析与应用》 —— 李强,机械工业出版社 详解全虚拟半虚拟及硬件辅助虚拟化技术-百度开发者中心 特此致谢! 序言 本专栏之前的系列文章,讲了很多QEMU/KVM相关知识,其中一部分内容是设备的虚拟…...

IDEA中Git版本回退终极指南:Reset与Revert双方案详解

目录 前言一、版本回退前置知识二、Reset方案:整体改写历史1、IDEA图形化操作(推荐)1.1、查看提交历史1.2、选择目标版本1.3、选择回退模式1.3.1、Soft(推荐)1.3.2、Mixed1.3.3、Hard(慎用)1.3.…...

Flutter 学习之旅 之 flutter 使用 flutter_screenutil 简单进行屏幕适配

Flutter 学习之旅 之 flutter 使用 flutter_screenutil 简单进行屏幕适配 目录 Flutter 学习之旅 之 flutter 使用 flutter_screenutil 简单进行屏幕适配 一、简单介绍 二、简单介绍 flutter_screenutil 三、安装 carousel_slider 四、简单案例实现 五、关键代码 六、补…...

实验一:在Windows 10/11下配置和管理TCP/IP

目录 1.【实训目标】 2.【实训环境】 3.【实训内容】 4.【实训步骤】 1.【实训目标】 1.了解网络基本配置中包含的协议、服务、客户端。 2.了解Windows支持的网络协议及参数设置方法。 3.掌握TCP/IP协议的配置。 2.【实训环境】 硬件环境:每人一台计算机&a…...

基于hive的电信离线用户的行为分析系统

标题:基于hive的电信离线用户的行为分析系统 内容:1.摘要 随着电信行业的快速发展,用户行为数据呈现出海量、复杂的特点。为了深入了解用户行为模式,提升电信服务质量和精准营销能力,本研究旨在构建基于 Hive 的电信离线用户行为分析系统。通…...

Rust WebAssembly 入门教程

一、开发环境搭建 1. 基础工具安装 # 安装 Rust curl --proto https --tlsv1.2 -sSf https://sh.rustup.rs | sh# 安装 wasm-pack cargo install wasm-pack# 安装开发服务器 cargo install basic-http-server# 安装文件监听工具 cargo install cargo-watch2. VSCode 插件安装…...

部署RabbitMQ集群详细教程

部署RabbitMQ集群详细教程 下面是一份在 Ubuntu 环境下部署 RabbitMQ 集群的详细步骤说明,涉及主机名设置、Erlang & RabbitMQ 安装、管理插件启用、集群通信 Cookie 配置、节点加入集群、镜像队列策略设置以及集群验证等。为了演示方便,以下示例假…...

20250306JIRA添加企业微信邮箱通知

文章目录 一,参考链接如下二,补充内容1,登录企业邮箱2,设置密码3,设置收发信设置 一,参考链接如下 参考链接:https://blog.csdn.net/icett/article/details/142520823 二,补充内容…...

2026年GPT-5.4实战应用完全指南

2026 年 3 月 OpenAI 发布的 GPT-5.4,是 AI 从对话工具转向自动化执行代理的里程碑产品,凭借原生计算机操控、百万 Token 上下文、Excel 深度集成、强推理编程四大核心突破,覆盖企业、专家、讲师、管理者、主播、电商、小白七类人群&#xff…...

AI产品经理崛起:技术人转型的新风口

技术浪潮下的职业新机遇人工智能(AI)技术的爆炸式发展正重塑全球产业格局,催生出一系列新兴职业。其中,AI产品经理(AI PM)作为连接技术与商业的桥梁,已成为当下最炙手可热的岗位。数据显示&…...

BJT与MOSFET高频模型对比指南:5个关键差异点帮你选对晶体管

BJT与MOSFET高频模型对比指南:5个关键差异点帮你选对晶体管 在射频电路设计中,晶体管的高频特性往往决定了整个系统的性能上限。对于刚踏入这一领域的设计师而言,BJT(双极型晶体管)和MOSFET(金属氧化物半导…...

铜钟音乐:告别广告与社交干扰的纯净听歌工具

铜钟音乐:告别广告与社交干扰的纯净听歌工具 【免费下载链接】tonzhon-music 铜钟 (Tonzhon.com): 免费听歌; 没有直播, 社交, 广告, 干扰; 简洁纯粹, 资源丰富, 体验独特!(密码重置功能已回归) 项目地址: https://gitcode.com/GitHub_Trending/to/ton…...

ROG游戏本色彩修复与配置还原完全指南

ROG游戏本色彩修复与配置还原完全指南 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops. Control tool for ROG Zephyrus G14, G15, G16, M16, Flow X13, Flow X16, TUF, Strix, Scar and other models 项目地址: https://gitcode.com/Git…...

KeyPass完全指南:掌握开源离线密码管理器的终极教程

KeyPass完全指南:掌握开源离线密码管理器的终极教程 【免费下载链接】KeyPass KeyPass: Open-source & offline password manager. Store, manage, take control securely. 项目地址: https://gitcode.com/gh_mirrors/ke/KeyPass 在当今数字时代&#xf…...

从Sketchfab下载的glTF模型怎么用?手把手教你用Assimp 5.3.1在Visual Studio 2022里解析《蔚蓝档案》角色数据

从Sketchfab下载的glTF模型实战解析:用Assimp 5.3.1提取《蔚蓝档案》角色数据 当你在Sketchfab上发现一个精美的《蔚蓝档案》角色模型,下载glTF格式文件后,接下来该怎么办?本文将带你从零开始,使用Assimp 5.3.1库在Vi…...

清华团队发布机器人版“GPT时刻”:UniDex让机械手看懂世界,零样本操控万物!

80%成功率,碾压式超越现有方案,灵巧手操控迎来“GPT”时刻这篇论文用一种极其优雅且强大的方式,解决了机器人领域一个长期存在的根本性难题:如何让形态各异、复杂无比的灵巧手,像人类一样,看一眼就能学会使…...

智能家居DIY实战:用海凌科HLK-V20-SUIT语音模块改造你的旧台灯/风扇(STM32核心)

智能家居DIY实战:用海凌科HLK-V20-SUIT语音模块改造旧家电 去年夏天,我在工作室里大汗淋漓地调试电路板时,突然冒出一个想法:如果能用语音控制身边的老式台灯和风扇该多方便?于是开始了这场旧物智能化的改造之旅。本文…...

终极美化指南:3步将你的foobar2000打造成专业音乐工作站

终极美化指南:3步将你的foobar2000打造成专业音乐工作站 【免费下载链接】foobox-cn DUI 配置 for foobar2000 项目地址: https://gitcode.com/GitHub_Trending/fo/foobox-cn 还在忍受foobar2000那单调乏味的默认界面吗?foobox-cn作为一款专为foo…...