什么是SparkONYarn模式
1. 什么是 Spark on YARN?
Spark on YARN 是 Apache Spark 的一种部署模式,允许 Spark 应用程序在 Hadoop YARN 集群上运行,充分利用 YARN 的资源管理和调度能力。这种模式将 Spark 与 Hadoop 生态深度集成,使企业能够在同一集群上统一管理批处理、流处理、交互式查询等多种工作负载。
2. 核心优势
-
资源统一管理
- 与 Hadoop 共享集群资源,避免资源孤岛(如 MapReduce、Hive、Spark 可共存)。
- YARN 根据工作负载动态分配资源,提高集群利用率。
-
简化运维
- 依托 YARN 的高可用性(HA)和资源隔离机制,降低运维复杂度。
- 支持与现有 Hadoop 集群无缝集成,无需额外部署集群管理器。
-
灵活的资源分配
- 支持 内存 / CPU 细粒度控制,通过
spark-submit
参数调整资源分配。 - 可配置多队列(如生产队列、测试队列),实现资源隔离。
- 支持 内存 / CPU 细粒度控制,通过
-
丰富的调度策略
- 继承 YARN 的调度器(容量调度器、公平调度器),满足不同业务需求。
3. 架构组件
Spark on YARN 的架构涉及三个核心组件:
-
YARN 组件
- ResourceManager (RM):全局资源管理器,负责分配集群资源。
- NodeManager (NM):每个节点的代理,管理容器(Container)生命周期。
- 调度器:如容量调度器(Capacity Scheduler)或公平调度器(Fair Scheduler)。
-
Spark 组件
- Driver:应用程序的主进程,负责调度任务。
- Executor:运行在容器中的工作进程,执行具体计算任务。
-
通信流程
- Spark 应用通过
spark-submit
向 YARN RM 提交请求。 - RM 分配 Container 并启动 ApplicationMaster(Spark Driver)。
- Driver 向 RM 注册并请求资源,然后与 NM 通信启动 Executor。
- Spark 应用通过
4. 部署模式
Spark on YARN 支持两种部署模式:
-
Client 模式
- Driver 运行在客户端:
- 适用于交互式应用(如 Spark Shell、Jupyter Notebook)。
- Driver 在提交作业的客户端进程中运行,直接接收任务输出。
- 提交命令:
bash
spark-submit \--master yarn \--deploy-mode client \--num-executors 10 \--executor-memory 4g \my-app.jar
- Driver 运行在客户端:
-
Cluster 模式
- Driver 运行在集群中:
- 适用于生产环境,避免客户端与集群长时间连接。
- Driver 作为 YARN 中的一个 ApplicationMaster 运行,与客户端分离。
- 提交命令:
bash
spark-submit \--master yarn \--deploy-mode cluster \--num-executors 10 \--executor-memory 4g \my-app.jar
- Driver 运行在集群中:
5. 资源配置参数
通过 spark-submit
或 spark-defaults.conf
配置:
参数 | 说明 |
---|---|
--num-executors | 启动的 Executor 数量(默认 2)。 |
--executor-memory | 每个 Executor 的内存大小(如 4g)。 |
--executor-cores | 每个 Executor 的 CPU 核心数(默认 1)。 |
--driver-memory | Driver 的内存大小(默认 1g)。 |
--queue | 指定 YARN 队列名称(如 default 、prod )。 |
--conf spark.yarn.maxAppAttempts | 应用最大重试次数(默认 2)。 |
--conf spark.yarn.executor.memoryOverhead | 每个 Executor 的堆外内存(默认 executorMemory * 0.10)。 |
6. 典型应用场景
-
混合工作负载集群
- 在同一 Hadoop 集群上同时运行 Spark、MapReduce、Hive 等作业。
-
企业级数据平台
- 利用 YARN 的资源隔离特性,为不同部门分配专用队列(如财务、研发)。
-
大规模数据处理
- 处理 PB 级数据,通过 YARN 动态调整资源应对峰值负载。
7. 监控与故障排查
-
YARN Web UI
http://resourcemanager:8088
:查看所有应用状态、资源使用情况。
-
Spark Web UI
- Driver 运行时的 Web UI(默认端口 4040):
plaintext
http://driver-node:4040 # Client 模式 http://application-master-node:4040 # Cluster 模式
- Driver 运行时的 Web UI(默认端口 4040):
-
日志查看
- YARN 应用日志:
bash
yarn logs -applicationId <application_id>
- YARN 应用日志:
8. 优缺点
优点 | 缺点 |
---|---|
与 Hadoop 生态无缝集成 | 依赖 YARN,增加部署复杂度 |
资源利用率高 | 任务启动延迟较高(需等待 Container 分配) |
支持高可用性 | 需深入理解 YARN 配置和调优 |
多租户资源隔离 | 对网络和磁盘 I/O 敏感 |
9. 配置步骤
-
确保 YARN 正常运行
- 启动 HDFS 和 YARN:
bash
start-dfs.sh start-yarn.sh
- 启动 HDFS 和 YARN:
-
配置 Spark
- 编辑
$SPARK_HOME/conf/spark-env.sh
:bash
export HADOOP_CONF_DIR=/path/to/hadoop/etc/hadoop # Hadoop 配置目录
- 编辑
-
提交作业
bash
spark-submit \--master yarn \--deploy-mode cluster \--class org.apache.spark.examples.SparkPi \$SPARK_HOME/examples/jars/spark-examples_*.jar \100
相关文章:
什么是SparkONYarn模式
1. 什么是 Spark on YARN? Spark on YARN 是 Apache Spark 的一种部署模式,允许 Spark 应用程序在 Hadoop YARN 集群上运行,充分利用 YARN 的资源管理和调度能力。这种模式将 Spark 与 Hadoop 生态深度集成,使企业能够在同一集群…...

kaggle薅羊毛
参考:https://pytorch-tutorial.readthedocs.io/en/latest/tutorial/chapter05_application/5_1_kaggle/#512-kaggle https://github.com/girls-in-ai/Girls-In-AI/blob/master/machine_learning_diary/data_analysis/kaggle_intro.md 1,code training…...

TCP 三次握手建立连接详解
文章目录 一、三次握手流程1、第一次握手2、第二次握手3、第三次握手 二、引申问题1、报文丢失,会发生什么?1.1、第一次握手丢失1.2、第二次握手丢失1.3、第三次握手丢失 2、为什么 ISN(Initial Sequence Number,初始序列号) 不固定3、为什么…...

高海拔和远距离的人员识别:面部、体型和步态的融合
大家读完就觉得有帮助记得关注和点赞!!! 摘要 我们解决了在无约束环境中进行全身人体识别的问题。这个问题出现在诸如IARPA高空和远距离生物识别与身份识别(BRIAR)计划等监视场景中,其中生物识别数据是在长…...
Golang实践录:在go中使用curl实现https请求
之前曾经在一个 golang 工程调用 libcur 实现 https的请求,当前自测是通过的。后来迁移到另一个小系统出现段错误,于是对该模块代码改造,并再次自测。 问题提出 大约2年前,在某golang项目使用libcurl进行https请求(参…...

自然语言处理入门级项目——文本分类
文章目录 前言1.数据预处理1.1数据集介绍1.2数据集抽取1.3划分数据集1.4数据清洗1.5数据保存 2.样本的向量化表征2.1词汇表2.2向量化2.3自定义数据集2.4备注 结语 前言 本篇博客主要介绍自然语言处理领域中一个项目案例——文本分类,具体而言就是判断评价属于积极还…...
如何利用大模型对文章进行分段,提高向量搜索的准确性?
利用大模型对文章进行分段以提高向量搜索准确性,需结合文本语义理解、分块策略优化以及向量表示技术。以下是系统性的解决方案: 一、分块策略的核心原则 语义完整性优先 分块需确保每个文本单元在语义上独立且完整。研究表明,当分块内容保持单一主题时,向量嵌入的语义表征能…...

一发入魂:极简解决 SwiftUI 复杂视图未能正确刷新的问题(上)
概述 各位似秃非秃小码农们都知道,在 SwiftUI 中视图是状态的函数,这意味着状态的改变会导致界面被刷新。 但是,对于有些复杂布局的 SwiftUI 视图来说,它们的界面并不能直接映射到对应的状态上去。这就会造成一个问题࿱…...
深入理解 Dijkstra 算法:原理、实现与优化
算法核心思想 Dijkstra算法采用贪心策略,其核心思想可以概括为: 初始化:设置起点到自身的距离为0,到其他所有点的距离为无穷大 迭代处理: 从未处理的顶点中选择当前距离起点最近的顶点 标记该顶点为已处理 通过该顶…...
Postman中https和http的区别是什么?
作为每天与API打交道的测试工程师,理解HTTP与HTTPS的区别不仅关乎协议本身,更直接影响测试方案设计。本文将用测试视角揭示二者在Postman中的关键差异,并分享实战排查技巧。 一、协议层本质差异(测试工程师需要知道的底层原理) 1. 安全传输机制对比 特性HTTPHTTPS加密方…...

软件设计师-下午题-试题4(15分)
目录 1 回溯法 1.1 N皇后问题 1.1.1 非递归求解N皇后问题 1.1.2 递归求解N皇后问题 1.2 真题 2 分治法 2.1 真题 3 动态规划法 3.1 0-1背包问题 3.2 真题 1 回溯法 1.1 N皇后问题 上图Q4与Q2在同一列且与Q1在同一斜线,先回溯到上一个皇后改变Q3皇后的位置…...
《隐私计算:数据安全与隐私保护的新希望》
一、引言 在数字化时代,数据已成为企业和组织的核心资产。然而,数据的收集、存储和使用过程中面临着诸多隐私和安全挑战。隐私计算作为一种新兴技术,旨在解决数据隐私保护和数据共享之间的矛盾。本文将深入探讨隐私计算的基本概念、技术原理、…...

leetcode二叉树相关题目复习(C语言版)
目录 1.单值二叉树 2.相同的树 3.对称二叉树 4.二叉树的前序遍历 5.另一颗树的子树 1.单值二叉树 思路1: 判断根节点、左节点与右节点的值是否相等,因为正向判断(即判断三值相等返回true)比较麻烦(不能根节点满足…...

第十九次博客打卡
今天学习的内容是Java中的常见循环。 在 Java 中,常见的循环结构主要有以下几种:for 循环、while 循环、do-while 循环以及增强型 for 循环(也称为 for-each 循环)。 1. for 循环 for 循环是一种非常灵活的循环结构,…...
【Pandas】pandas DataFrame describe
Pandas2.2 DataFrame Computations descriptive stats 方法描述DataFrame.abs()用于返回 DataFrame 中每个元素的绝对值DataFrame.all([axis, bool_only, skipna])用于判断 DataFrame 中是否所有元素在指定轴上都为 TrueDataFrame.any(*[, axis, bool_only, skipna])用于判断…...
机器人示教操作
机器人基础操作 **ES机器人试教操作知识** **1. 视角移动** **1.1 基础模式** - 关节轴控制:通过关节1至关节6实现单轴正反转移动 - 直线移动:通过X/Y/Z坐标轴沿指定方向直线移动 - 旋转移动:通过RX/RY/RZ坐标轴绕指定轴旋转 **1.2 步进模式…...

浅聊一下数据库的索引优化
背景 这里的索引说的是关系数据库(MSSQL)中的索引。 本篇不是纯技术性的内容,只是聊一次性能调优的经历,包含到一些粗浅的实现和验证手段,所以,大神忽略即可。 额…对了,笔者对数据库的优化手段…...

山东大学软件学院软件工程计算机图形学复习笔记(2025)
写在前面: 现在是考完试的第二天,考试的内容还是有一部分没有复习到的…… 根据三角形的3个顶点坐标和内部某点坐标D,写出点D的基于面积的权重坐标Bresenham的算法描述与改进策略(这里ppt上很不清晰)以及直线反走样的…...

【Docker】Docker Compose方式搭建分布式内存数据库(Redis)集群
文章目录 开发环境开发流程运行效果Docker Desktop桌面中的Redis结点启动图Redis结点1的打印日志情况图 配置代码命令行启动配置文件: README.md删除集群信息新建数据目录本地Redis的结点的域名,并添加到/etc/hosts文件的末尾域名映射启动集群结点创建集群关闭集群结点 redis-c…...

如何在 Bash 中使用 =~ 操作符 ?
在 Bash 脚本世界中,有各种操作符可供我们使用,使我们能够操作、比较和测试数据。其中一个操作符是 ~ 操作符。这个操作符经常被忽视,但功能非常强大,它为我们提供了一种使用正则表达式匹配字符串模式的方法。 ~ 操作符语法 语法…...

科学养生指南:打造健康生活
在快节奏的现代生活中,健康养生成为人们关注的焦点。科学养生无需复杂理论,掌握以下几个关键要素,就能为身体构筑坚实的健康防线。 合理饮食是健康的基础。世界卫生组织建议,每天应摄入至少 5 份蔬菜和水果,保证维生…...

华为OD机试真题——单词接龙(首字母接龙)(2025A卷:100分)Java/python/JavaScript/C/C++/GO最佳实现
2025 A卷 100分 题型 本专栏内全部题目均提供Java、python、JavaScript、C、C++、GO六种语言的最佳实现方式; 并且每种语言均涵盖详细的问题分析、解题思路、代码实现、代码详解、3个测试用例以及综合分析; 本文收录于专栏:《2025华为OD真题目录+全流程解析+备考攻略+经验分…...
React构建组件
React构建组件 React 组件构建方式详解 React 组件的构建方式随着版本迭代不断演进,目前主要有 函数组件 和 类组件 两种核心模式,并衍生出多种高级组件设计模式。以下是完整的构建方式指南: 文章目录 React构建组件React 组件构建方式详解…...

计算机网络-MPLS VPN基础概念
前面几篇文章我们学习了MPLS的标签转发原理,有静态标签分发和LDP动态标签协议,可以实现LSR设备基于标签实现数据高效转发。现在开始学习MPLS在企业实际应用的场景-MPLS VPN。 一、MPLS VPN概念 MPLS(多协议标签交换)位于TCP/IP协…...
基于TouchSocket实现WebSocket自定义OpCode扩展协议
基于TouchSocket实现WebSocket自定义OpCode扩展协议 前言一、WebSocket OpCode规范速览二、实现示例:协同编辑光标同步1. 客户端发送实现2. 服务端接收处理 三、应用场景分析1. 实时协作系统2. 物联网控制协议3. 游戏实时交互 四、协议设计建议1. 帧结构优化2. 性能…...

【Linux系列】bash_profile 与 zshrc 的编辑与加载
💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…...

Spring Boot中的拦截器!
每次用户请求到达Spring Boot服务端,你是否需要重复写日志、权限检查或请求格式化代码?这些繁琐的“前置后置”工作让人头疼!好在,Spring Boot拦截器如同一道智能关卡,统一处理请求的横切逻辑,让代码优雅又…...

基于 Spring Boot 瑞吉外卖系统开发(十五)
基于 Spring Boot 瑞吉外卖系统开发(十五) 前台用户登录 在登录页面输入验证码,单击“登录”按钮,页面会携带输入的手机号和验证码向“/user/login”发起请求。 定义UserMapper接口 Mapper public interface UserMapper exte…...

计算机网络笔记(二十三)——4.5IPv6
4.5.1IPv6的基本首部 IPv6 的基本首部相对于 IPv4 进行了重大简化和优化,固定长度为 40 字节,大幅提升了路由器的处理效率。以下是各字段的详细说明: IPv6 基本首部字段组成 字段名位数作用描述版本 (Version)4 bits固定值为 6,…...

推荐一个Winform开源的UI工具包
从零学习构建一个完整的系统 推荐一个开源、免费的适合.NET WinForms 控件的套件。 项目简介 Krypton是一套开源的.Net组件,用于快速构建具有丰富UI交互的WinForms应用程序。 丰富的UI控件,提供了48个基础控件,如按钮、文本框、标签、下拉…...