当前位置: 首页 > news >正文

【大数据】Flink on YARN,如何确定 TaskManager 数

Flink on YARN,如何确定 TaskManager 数

  • 1.问题
  • 2.并行度(Parallelism)
  • 3.任务槽(Task Slot)
  • 4.确定 TaskManager 数

在这里插入图片描述

1.问题

在 Flink 1.5 Release Notes 中,有这样一段话,直接上截图。

在这里插入图片描述
这说明从 1.5 版本开始,Flink on YARN 时的容器数量,即 TaskManager 数量,将由程序的并行度自动推算,也就是说 flink run 脚本的 -yn / --yarncontainer 参数不起作用了(该参数用于设置 TaskManager 的个数)。那么自动推算的规则是什么呢?要弄清楚它,先来复习 Flink 的 并行度Parallelism)和 任务槽Task Slot)。

2.并行度(Parallelism)

与 Spark 类似地,一个 Flink Job 在生成执行计划时也划分成多个 Task。Task 可以是 Source、Sink、算子或算子链。Task 可以由多线程并发执行,每个线程处理 Task 输入数据的一个子集,而并发的数量就称为 Parallelism,即 并行度

Flink 程序中设定并行度有 4 种级别,从低到高分别为:算子级别执行环境级别ExecutionEnvironment)、客户端(命令行)级别配置文件级别flink-conf.yaml)。实际执行时,优先级则是反过来的,算子级别最高。简单示例如下:

  • 1️⃣ 算子级别
dataStream.flatMap(new SomeFlatMapFunction()).setParallelism(4);
  • 2️⃣ 执行环境级别
streamExecutionEnvironment.setParallelism(4);
  • 3️⃣ 命令行级别
bin/flink -run --parallelism 4 example-0.1.jar
  • 4️⃣ flink-conf.yaml 级别
parallelism.default: 4

3.任务槽(Task Slot)

Flink 运行时由两个组件组成:JobManager 与 TaskManager,与 Spark Standalone 模式下的 Master 与 Worker 是同等概念。

在这里插入图片描述
JobManager 和 TaskManager 本质上都是 JVM 进程。为了提高 Flink 程序的运行效率和资源利用率,Flink 在 TaskManager 中实现了 任务槽Task Slot)。任务槽是 Flink 计算资源的基本单位,每个任务槽可以在同一时间执行一个 Task,而 TaskManager 可以拥有一个或者多个任务槽。

任务槽可以实现 TaskManager 中不同 Task 的资源隔离,不过是逻辑隔离,并且只隔离内存,亦即在调度层面认为每个任务槽 “应该” 得到 taskmanager.heap.size 1 / N 1/N 1/N 大小的内存,CPU 资源不算在内。

TaskManager 的任务槽个数在使用 flink run 脚本提交 on YARN 作业时用 -ys / --yarnslots 参数来指定,另外在 flink-conf.yaml 文件中也有默认值 taskManager.numberOfTaskSlots。一般来讲,我们设定该参数时可以将它理解成一个 TaskManager 可以利用的 CPU 核心数,因此也要根据实际情况(集群的 CPU 资源和作业的计算量)来确定。

4.确定 TaskManager 数

以 Flink 自带示例中简化的 WordCount 程序为例:

// 执行环境并行度设为6
env.setParallelism(6);
// Source并行度为1
DataStream<String> text = env.readTextFile(params.get("input")).setParallelism(1);
DataStream<Tuple2<String, Integer>> counts = text.flatMap(new Tokenizer()).keyBy(0).sum(1);
counts.print();

--yarnslots 3 参数来执行,即每个 TaskManager 分配 3 个任务槽。TaskManager、任务槽和任务的分布将如下图所示,方括号内的数字为并行线程的编号。

在这里插入图片描述
由图中可以看出,由于算子链机制的存在,KeyAggSink 操作链接在了一起,作为一个 Task 来执行。

Flink 允许任务槽共享,即来自同一个 Job 的不同 SubTask(即 算子的并发实例)进入同一个槽位,因此在图中也可以见到任务槽 X 中同时存在 FlatMap[X]KeyAgg[X] + Sink[X]。任务槽共享有两点好处:

  • 能够让每个 SubTask 都均摊到不同的 TaskManager,避免负载倾斜。
  • 不需要再计算 App 一共需要起多少个 Task,因为作业需要的任务槽数量肯定等于 Job 中最大的并行度。

所以,可以得出 Flink on YARN 时,TaskManager 数 = Job 的最大并行度 / 每个TaskManager 分配的任务槽数,结果向上取整。例如,一个最大并行度为 10,每个 TaskManager 有 2 个任务槽的作业,就会启动 5 个 TaskManager,如 Web UI 所示。

在这里插入图片描述

相关文章:

【大数据】Flink on YARN,如何确定 TaskManager 数

Flink on YARN&#xff0c;如何确定 TaskManager 数 1.问题2.并行度&#xff08;Parallelism&#xff09;3.任务槽&#xff08;Task Slot&#xff09;4.确定 TaskManager 数 1.问题 在 Flink 1.5 Release Notes 中&#xff0c;有这样一段话&#xff0c;直接上截图。 这说明从 …...

ES节点故障的容错方案

ES节点故障的容错方案 1. es启动加载逻辑1.1 segment和translg组成和分析1.2 es节点启动流程1.3 es集群的初始化和启动过程 2. master高可用2.1 选主逻辑2.1.1 过滤选主的节点列表2.1.2 Bully算法2.1.2 类Raft协议2.1.3 元数据合并 2.2 HA切换 3. 分片高可用3.1 集群分片汇报3.…...

【Flink】FlinkSQL实现数据从Kafka到MySQL

简介 未来Flink通用化,代码可能就会转换为sql进行执行,大数据开发工程师研发Flink会基于各个公司的大数据平台或者通用的大数据平台,去提交FlinkSQL实现任务,学习Flinksql势在必行。 本博客在sql-client中模拟大数据平台的sql编辑器执行FlinkSQL,使用Flink实现数据从Kafka传…...

Unity GC

本文由 简悦 SimpRead 转码&#xff0c; 原文地址 mp.weixin.qq.com 简略版本 在 Unity 中&#xff0c;垃圾回收&#xff08;Garbage Collection&#xff0c;GC&#xff09;采用的是基于标记-清除&#xff08;Mark and Sweep&#xff09;算法的自动内存管理机制。 基于标记-清…...

Vue源码系列讲解——变化侦测篇【下】(Array的变化侦测)

目录 1. 前言 2. 在哪里收集依赖 3. 使Array型数据可观测 3.1 思路分析 3.2 数组方法拦截器 3.3 使用拦截器 4. 再谈依赖收集 4.1 把依赖收集到哪里 4.2 如何收集依赖 4.3 如何通知依赖 5. 深度侦测 6. 数组新增元素的侦测 7. 不足之处 8. 总结 1. 前言 上一篇文…...

【机器学习笔记】贝叶斯学习

贝叶斯学习 文章目录 贝叶斯学习1 贝叶斯学习背景2 贝叶斯定理3 最大后验假设MAP(Max A Posterior)4 极大似然假设ML(Maximum Likelihood)5 朴素贝叶斯NB6 最小描述长度MDL 1 贝叶斯学习背景 试图发现两件事情的关系&#xff08;因果关系&#xff0c;先决条件&结论&#x…...

ElasticSearch之倒排索引

写在前面 本文看下es的倒排索引相关内容。 1&#xff1a;正排索引和倒排索引 正排索引就是通过文档id找文档内容&#xff0c;而倒排索引就是通过文档内容找文档id&#xff0c;如下图&#xff1a; 2&#xff1a;倒排索引原理 假定我们有如下的数据&#xff1a; 为了建立倒…...

win11安装mysql8.3.0压缩包版 240206

mysql社区版安装包版windows安装包下载地址 在系统环境变量path无点.的情况下 powershell 可以 .\ 或 ./ 开头表示当前文件夹cmd 可以直接命令或.\开头, 不能./开头 所以 .\ 在cmd和powershell中通用 步骤 在解压目录 .\mysqld --initialize-insecure root无密码初始化.\m…...

数据库索引与优化:深入了解索引的种类、使用与优化

数据库索引与优化&#xff1a;深入了解索引的种类、使用与优化 索引的种类 数据库索引是提高查询速度的重要手段之一&#xff0c;主要分为以下几种类型&#xff1a; 主键索引&#xff08;Primary Key Index&#xff09;&#xff1a; 唯一标识表中的每一行数据&#xff0c;保…...

React 错误边界组件 react-error-boundary 源码解析

文章目录 捕获错误 hook创建错误边界组件 Provider定义错误边界组件定义边界组件状态捕捉错误渲染备份组件重置组件通过 useHook 控制边界组件 捕获错误 hook getDerivedStateFromError 返回值会作为组件的 state 用于展示错误时的内容 componentDidCatch 创建错误边界组件 P…...

分享66个相册特效,总有一款适合您

分享66个相册特效&#xff0c;总有一款适合您 66个相册特效下载链接&#xff1a;https://pan.baidu.com/s/1jqctaho4sL_iGSNExhWB6A?pwd8888 提取码&#xff1a;8888 Python采集代码下载链接&#xff1a;采集代码.zip - 蓝奏云 学习知识费力气&#xff0c;收集整理更不…...

chagpt的原理详解

GPT&#xff08;Generative Pre-trained Transformer&#xff09;是一种基于Transformer架构的生成式预训练模型。GPT-3是其中的第三代&#xff0c;由OpenAI开发。下面是GPT的基本原理&#xff1a; Transformer架构&#xff1a; GPT基于Transformer架构&#xff0c;该架构由Att…...

dockerfile 详细讲解

当编写 Dockerfile 时&#xff0c;你需要考虑你的应用程序所需的环境和依赖项&#xff0c;并将其描述为一系列指令。下面是一个简单的示例&#xff0c;演示如何编写一个用于部署基于 Node.js 的网站的 Dockerfile&#xff1a; Dockerfile # 使用官方 Node.js 镜像作为基础镜像…...

跟着pink老师前端入门教程-day23

苏宁网首页案例制作 设置视口标签以及引入初始化样式 <meta name"viewport" content"widthdevice-width, user-scalableno, initial-scale1.0, maximum-scale1.0, minimum-scale1.0"> <link rel"stylesheet" href"css/normaliz…...

JRT监听程序

本次设计避免以往设计缺陷&#xff0c;老的主要为了保持兼容性&#xff0c;在用的设计就不好调了。 首先&#xff0c;接口抽象时候就不在给参数放仪器ID和处理类了&#xff0c;直接放仪器配置实体&#xff0c;接口实现想用什么属性就用什么属性&#xff0c;避免老方式要扩参数时…...

MCU+SFU视频会议一体化,视频监控,指挥调度(AR远程协助)媒体中心解决方案。

视频互动应用已经是政务和协同办公必备系统&#xff0c;早期的分模块&#xff0c;分散的视频应该不能满足业务需要&#xff0c;需要把视频监控&#xff0c;会议&#xff0c;录存一体把视频资源整合起来&#xff0c;根据客户需求&#xff0c;需要能够多方视频互动&#xff0c;直…...

1184. 欧拉回路(欧拉回路,模板题)

活动 - AcWing 给定一张图&#xff0c;请你找出欧拉回路&#xff0c;即在图中找一个环使得每条边都在环上出现恰好一次。 输入格式 第一行包含一个整数 t&#xff0c;t∈{1,2}&#xff0c;如果 t1&#xff0c;表示所给图为无向图&#xff0c;如果 t2&#xff0c;表示所给图为…...

学习 Redis 基础数据结构,不讲虚的。

学习 Redis 基础数据结构&#xff0c;不讲虚的。 一个群友给我发消息&#xff0c;“该学的都学了&#xff0c;怎么就找不到心意的工作&#xff0c;太难了”。 很多在近期找过工作的同学一定都知道了&#xff0c;背诵八股文已经不是找工作的绝对王牌。企业最终要的是可以创造价…...

Android 11 webview webrtc无法使用问题

问题&#xff1a;Android 11 webview 调用webrtc无法使用, 看logcat日志会报如下错误 [ERROR:address_tracker_linux.cc(245)] Could not send NETLINK request: Permission denied (13) 查了下相关的网络权限都有配置了还是不行&#xff0c;还是报这个权限问题 原因&#xff1…...

嵌入式单片机中晶振的工作原理

晶振在单片机中是必不可少的元器件&#xff0c;只要用到CPU的地方就必定有晶振的存在&#xff0c;那么晶振是如何工作的呢&#xff1f; 什么是晶振 晶振一般指晶体振荡器&#xff0c;晶体振荡器是指从一块石英晶体上按一定方位角切下的薄片&#xff0c;简称为晶片。 石英晶体谐…...

用Neural Renderer和PyTorch搞定3D车辆模型渲染:从.obj文件到Carla数据集实战

3D车辆模型渲染实战&#xff1a;Neural Renderer与Carla数据集深度整合指南 在自动驾驶和计算机视觉领域&#xff0c;逼真的3D车辆模型渲染技术正成为算法开发和测试的关键环节。传统渲染方法往往难以平衡效率与真实感&#xff0c;而基于神经网络的渲染技术为解决这一难题提供了…...

Flux.1文生图大模型本地部署实战:从零到一的ComfyUI配置指南

1. 为什么选择Flux.1和ComfyUI组合 如果你正在寻找一个既强大又灵活的AI绘画解决方案&#xff0c;Flux.1和ComfyUI的组合绝对值得考虑。Flux.1作为目前最大的开源文本到图像模型之一&#xff0c;拥有12B参数的强大生成能力&#xff0c;而ComfyUI则以其模块化的工作流设计著称&a…...

7个强力策略!Seafile插件市场终极推广指南:提升曝光与用户采纳率全攻略

7个强力策略&#xff01;Seafile插件市场终极推广指南&#xff1a;提升曝光与用户采纳率全攻略 【免费下载链接】seafile High performance file syncing and sharing, with also Markdown WYSIWYG editing, Wiki, file label and other knowledge management features. 项目…...

Czkawka磁盘清理工具:通过多线程哈希技术实现300%扫描效率提升

Czkawka磁盘清理工具&#xff1a;通过多线程哈希技术实现300%扫描效率提升 【免费下载链接】czkawka 一款跨平台的重复文件查找工具&#xff0c;可用于清理硬盘中的重复文件、相似图片、零字节文件等。它以高效、易用为特点&#xff0c;帮助用户释放存储空间。 项目地址: htt…...

爱芯元智上市后首次年报:营收5.6亿同比增19% 智能汽车业务成增长引擎

雷递网 雷建平 3月27日爱芯元智&#xff08;0600.HK&#xff09;今日发布截至2025年12月31日的2025年的财报。财报显示&#xff0c;爱芯元智2025年营收5.6亿&#xff0c;较上年同期的4.7亿元增长18.8%。爱芯元智2025年毛利为1.21亿元&#xff0c;毛利率稳定在21.6%&#xff1b;…...

3个步骤打造个人AI知识库:AnythingLLM浏览器扩展完全指南

3个步骤打造个人AI知识库&#xff1a;AnythingLLM浏览器扩展完全指南 【免费下载链接】anything-llm 这是一个全栈应用程序&#xff0c;可以将任何文档、资源&#xff08;如网址链接、音频、视频&#xff09;或内容片段转换为上下文&#xff0c;以便任何大语言模型&#xff08;…...

别再自己憋大纲了!这4款AI写作工具能自动生成逻辑严密的论文框架

别再死磕大纲了&#xff01;这 4 款 AI 工具能一键生成逻辑严密、贴合学术规范的论文框架&#xff0c;帮你快速搞定开题与写作第一步。一、PaperRed&#xff08;国内论文首选&#xff0c;学术专属&#xff09;核心定位&#xff1a;全流程学术写作&#xff0c;大纲 初稿一站式大…...

解决Windows任务栏视觉单调问题的3个实用工具:RoundedTB个性化方案

解决Windows任务栏视觉单调问题的3个实用工具&#xff1a;RoundedTB个性化方案 【免费下载链接】RoundedTB Add margins, rounded corners and segments to your taskbars! 项目地址: https://gitcode.com/gh_mirrors/ro/RoundedTB 每天面对电脑时&#xff0c;那块占据屏…...

挖到宝!PFC2D 流固耦合常用案例合集,科研人速进

该模型是“PFC2D流固耦合常用案例合集”&#xff1a; 其中包括水力压裂、达西渗流等多个案例。 有需要学习和交流的伙伴可按需选取。 干货满满&#xff0c;是运用pfc5.0做流固耦合必不可少的科研学习资料性价比绝对超高 内容可编辑&#xff0c;觉得运行通畅 代码真实有效。最近…...

OFA-VE模型性能详解:OFA-Large在SNLI-VE测试集SOTA指标复现与解读

OFA-VE模型性能详解&#xff1a;OFA-Large在SNLI-VE测试集SOTA指标复现与解读 1. 引言&#xff1a;理解视觉蕴含的核心价值 视觉蕴含&#xff08;Visual Entailment&#xff09;是多模态人工智能领域的一个重要研究方向&#xff0c;它要解决的核心问题是&#xff1a;机器如何…...