当前位置：首页 > news >正文

Spark基础-任务提交相关参数

news 2025/11/7 2:06:54

整理一下用过的spark相关的参数

spark应用提交命令spark-submit的常用参数（使用spark-submit --help可以查看所有参数，有一些参数在下面的spark配置属性定义了，也没有额外列出）

参数	默认值	含义
`--master`	local[*]	spark集群的master url，可以是yarn, local等值(master url取值列表 )
`--deploy-mode`	client	有cluster和client两种模式，决定driver是在worker节点上，还是在本地作为一个外部client。
`--name`	/	应用的名称
`--conf`	/	额外的spark配置属性，以key=value的形式表示
`--py-files`	/	用逗号分隔的.zip, .egg, .py文件，将其路径防止在PYTHONPATH给python应用使用

常用spark配置属性

参数	默认大小	含义	官方文档对应类别
`spark.driver.memory`	1g	driver内存，在client模式下必须通过spark-submit的 `--driver-memory`来设置，而不能通过`SparkConf`来设置	Application Properties
`spark.driver.cores`	1	driver对应的核数，只有在cluster模式下可以设置	Application Properties
`spark.driver.memoryOverhead`	driverMemory * `spark.driver.memoryOverheadFactor`, 最小值为384M	在cluster模式下driver被分配的non-heap 内存。这块内存是用于虚拟机的开销、内部的字符串、还有一些本地开销(比如python需要用到的内存)等。当`spark.memory.offHeap.enabled=true`时，非堆内存包括堆外内存和其他driver进程使用的内存（例如与PySpark driver一起使用的python进程）和其他在同一个容器中运行的非driver进程使用的内存。所以运行driver的容器的最大内存大小由spark.driver.memoryOverhead和spark.driver.memory之和确定。	Application Properties
`spark.driver.memoryOverheadFactor`	0.1	driver 内存被分配为non-heap内存的比例，如果出现了"Memory Overhead Exceeded"，调大这个比例有助于预防这个错误。如果`spark.driver.memoryOverhead`被设置了这个参数就会被忽略。	Application Properties
`spark.executor.memory`	1g	executor的内存大小	Application Properties
`spark.executor.pyspark.memory`	Not set	每个executor被分配给pyspark使用的内存，如果设置了就限制了pyspark的内存上线；如果不设置spark不会限制python的内存使用，取决于应用本身是否会超出与其他non-JVM共享的overhead 内存。	Application Properties
`spark.executor.memoryOverhead`	executorMemory * `spark.executor.memoryOverheadFactor`, 最小值为384M	每个executor被分配的额外内存。这块内存是用于虚拟机的开销、内部的字符串、还有一些本地开销(比如python需要用到的内存)等。当`spark.executor.pyspark.memory`没有配置时，额外内存还包括pyspark的executer内存，也包括同一个容器中的其他non-executor进程。所以运行executor的容器的最大内存大小由`spark.executor.memoryOverhead`, `spark.executor.memory`, `spark.memory.offHeap.size` ,`spark.executor.pyspark.memory`之和确定。	Application Properties
`spark.executor.memoryOverheadFactor`	0.1	executor内存被分配为non-heap内存的比例，如果出现了"Memory Overhead Exceeded"，调大这个比例有助于预防这个错误。如果`spark.executor.memoryOverhead`被设置了这个参数就会被忽略。	Application Properties
`spark.driver.maxResultSize`	1g	对于每个spark action(如collect)序列化结果的总大小限制，至少为1M，如果设为0则无限制。如果序列化结果的总大小限制超过这个限制，Job将会中断。将这个值设的很大，可能会造成driver的out-of-memory错误（取决与`spark.driver.memory`和JVM中对象的overhead内存)，所以选取一个合适的值有助于driver产生out-of-memory错误。	Application Properties
`spark.executor.extraJavaOptions`	none	传给executor的额外JVM选项，比如GC设置和其他日志。注意不能设置最大堆内存(-Xmx)，最大推内存是通过`spark.executor.memory`来设置的。当应用出现堆栈溢出的时候，可能可以通过设置如`--conf=spark.executor.extraJavaOptions=-Xss50M`来解决	Runtime Environment
`spark.executor.cores`	yarn上为1 standalone模式时为所有可用核数	executor的核数，一个应用的总核数就是`num-executors` 乘以`executor-cores`	Execution Behavior
`spark.default.parallelism`	对于分布式算子如`reduceByKey`和`join`，是父RDD里最大partition数，对于像`parallelize`等没有父RDD的算子，取决于集群模式：Local是机器上的核数；Mesos fine grained为8，其他则是max(2, 所有executor的总核数)	默认的由transformation 算子如 `join`, `reduceByKey`, and `parallelize` 返回的RDD的分区数	Execution Behavior
`spark.executor.heartbeatInterval`	10s	每个executor与driver之间心跳的间隔。这个值需要比`spark.network.timeout`小很多	Execution Behavior
`spark.memory.fraction`	0.6	用来执行和存储的堆内存比例，越小就涉及越频繁的spills和cached data eviction。此配置的目的是为内部元数据、用户数据结构以及稀疏、异常大的数据的不精确大小估计留出内存。推荐使用默认值，如要设置参考调优文档	Memory Management
`spark.memory.storageFraction`	0.5	不受驱逐的存储内存量，是由spark.memory.fraction预留的区域大小的一部分。该值越高，可用于执行的工作内存就越少，任务可能会更频繁地溢出到磁盘。推荐使用默认值，如要设置参考调优文档	Memory Management
`spark.memory.offHeap.enabled`	false	如果设置为true， spark将对某些操作使用off-heap内存，此时需要将`spark.memory.offHeap.size`设置为正数	Memory Management
`spark.memory.offHeap.size`	0	off-heap内存，对于堆内存没有影响，如果executor的总内存有硬限制注意缩减JVM堆内存的大小。	Memory Management
`spark.network.timeout`	120s	所有网络交互的默认超时时间，以下的参数如果没有被设置会用这个参数来代替：`spark.storage.blockManagerHeartbeatTimeoutMs`, `spark.shuffle.io.connectionTimeout`, `spark.rpc.askTimeout` ，`spark.rpc.lookupTimeout`	networking
`spark.shuffle.io.retryWait`	5s	(Netty only)重试提取之间等待的时间。重试造成的最大延迟默认为15秒，计算方式为maxRetries * retryWait	shuffle behavior
`spark.shuffle.io.maxRetries`	3	(Netty only)如果将其设置为非零值，则由于 IO 相关异常而失败的提取将自动重试。在面对长时间 GC 暂停或暂时性网络连接问题时，此重试逻辑有助于稳定大shuffle。	shuffle behavior
`spark.sql.broadcastTimeout`	300	在广播join中广播等待时间的超时时间(s)	runtime sql configuration
`spark.sql.adaptive.enabled`	true	当设置为true时，启用自适应查询执行，这会根据运行时的统计信息在查询执行过程中重新优化查询计划。	runtime sql configuration
`spark.sql.adaptive.skewJoin.enabled`	true	当true且`spark.sql.adaptive.enabled=true`，spark会在shuffled join中通过切分倾斜的分区来动态的处理数据倾斜	runtime sql configuration
`spark.sql.adaptive.coalescePartitions.enabled`	true	当true且`spark.sql.adaptive.enabled=true`，Spark将根据目标大小（由`spark.sql.adaptive.advisoryPartitionSizeInBytes`指定）合并连续的shuffle分区，以避免太多的小任务	runtime sql configuration
`spark.sql.execution.arrow.pyspark.enabled`	false	如果为 true，则在 PySpark 中使用 Apache Arrow 进行列式数据传输。优化应用于1.pyspark.sql.DataFrame.toPandas。2. pyspark.sql.SparkSession.createDataFrame 当其输入是 Pandas DataFrame 或 NumPy ndarray. 以下数据类型不支持: TimestampType的ArrayType	runtime sql configuration
`spark.sql.shuffle.partitions`	200	为join或聚合而shuffle数据时使用的默认分区数	runtime sql configuration
`spark.sql.hive.convertMetastoreParquet`	true	当设置为 true 时，内置 Parquet 读取器和写入器用于处理使用 HiveQL 语法创建的 Parquet 表，而不是 Hive serde	runtime sql configuration

一个yarn模式下cluster提交，并且使用自定义python环境的例子

spark-submit \
--deploy-mode cluster \
--master yarn \
--driver-memory 4g \
--num-executors 4 \
--executor-memory 2g \
--executor-cores 2 \
--conf spark.sql.broadcastTimeout=36000 \
--conf spark.driver.maxResultSize=1g \
--conf spark.sql.shuffle.partitions=1000 \
--conf spark.yarn.dist.archives=s3a://path/py37-pyarrow.zip#python37 \
--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./python37/mypython/bin/python3 \
--conf spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON=./python37/mypython/bin/python3 \
--py-files s3a://path/companymapping.zip \
--queue default \
--name predict_task \
s3a://path/predict.py 20230813

参考资料：

https://spark.apache.org/docs/latest/configuration.html
https://spark.apache.org/docs/latest/submitting-applications.html
https://spark.apache.org/docs/latest/running-on-yarn.html#configuration
https://zhuanlan.zhihu.com/p/63187650

Spark基础-任务提交相关参数

整理一下用过的spark相关的参数 spark应用提交命令spark-submit的常用参数（使用spark-submit --help可以查看所有参数， 有一些参数在下面的spark配置属性定义了，也没有额外列出） 参数默认值含义--master local[*]spark集群的mast…...

编程日记 2023/8/16 11:09:46

ROS-PyQt小案例

前言：目前还在学习ROS无人机框架中，，， 更多更新文章详见我的个人博客主页【前往】 ROS与PyQt5结合的小demo，用于学习如何设计一个界面，并与ROS中的Service和Topic结合，从而控制多个小乌龟的运动…...

编程日记 2023/8/16 11:08:45

【算法】双指针——leetcode盛最多水的容器、剑指Offer57和为s的两个数字

盛水最多的容器 （1）暴力解法算法思路：我们枚举出所有的容器大小，取最大值即可。容器容积的计算方式： 设两指针 i , j ，分别指向水槽板的最左端以及最右端，此时容器的宽度为 j - i 。由于容器…...

编程日记 2023/8/16 11:07:43

idea 使用debug 启动项目的时候出现 Method breakpoints may dramatically slow down debugging

问题: 1. 写了一段时间的代码，在debug启动项目后提示：Method breakpoints may dramatically slow down debugging 但是正常启动是可以的，debug不行。 2. idea 里面的项目，很多地方都有断点，现在想要取消全部的断点…...

编程日记 2023/8/16 11:06:40

Tomcat的一些配置问题(server.xml/catalina.sh)

在同一机器中运行多个Tomcat时，如果不修改server.xml的端口参数，会出现端口冲突使得Tomcat异常；Tomcat默认配置中，JAVA_OPTS不会设置太大，一般需要在catalina.sh中增加一行配置来加大该参数值。目录 1.Server.xml配置…...

编程日记 2023/8/16 11:05:39

飞天使-jenkins进行远程linux机器修改某个文件的思路

文章目录 jenkins配置的方式jenkins中执行shell的思路 jenkins配置的方式 jenkins中执行shell的思路下面的脚本别照抄，只是一个思路 ipall"$ips"# 将文本参数按行输出为变量 while IFS read -r line; doecho "$line" if [[ ! -z $line ]] &…...

编程日记 2023/8/16 11:04:38

Revit SDK 介绍：PanelSchedule 配电盘明细表

前言这个例子介绍 Revit 的配电盘明细表，PanelSchedule。Revit 的电器专业在国内用的并不是十分广泛，但从功能上来说还是比较完整的。内容这个例子里有三个命令： PanelScheduleExport - 导出配电盘明细表InstanceViewCreation - 创建配…...

编程日记 2023/8/16 11:03:37

Java后端实现不用pagehelper。手写分页如何实现?

Java后端实现不用pagehelper。手写分页如何实现? 如果你不使用PageHelper这样的分页插件，你可以手动实现分页逻辑。下面是一个使用Java后端手写分页的示例： 首先，确定每页显示的数据量和当前页码。 int pageSize 10; // 每页显示的数据量…...

编程日记 2023/8/16 11:02:35

spring 缓存

1.spring缓存注解，可以丢在controller，也可以丢在service，也可以丢在mapper。 2.手动操作缓存使用： Autowiredprivate CacheManager cacheManager;3.添加缓存 //添加缓存 Override Cacheable(cacheNames "test", key…...

编程日记 2023/8/16 11:01:34

vue3.0 element-plus 不同版本 el-popover 循环优化

表格内循环el-popover 渲染以后的页面，数据量很大的时候页面会卡，生成的代码： 解决思路：将el-popover提出来，不参与循环，让el-popover只渲染一次 1、以1.1.0-beta.24版为例（低版本）…...

编程日记 2023/8/16 11:00:33

计算机网络实验4：HTTP、DNS协议分析

文章目录 1. 主要教学内容2. HTTP协议3. HTTP分析实验【实验目的】【实验原理】【实验内容】【实验思考】 4. HTTP分析实验可能遇到的问题4.1 捕捉不到http报文4.2 百度是使用HTTPS协议进行传输4.3 Wireshark获得数据太多如何筛选4.4 http报文字段含义不清楚General&#xff08…...

编程日记 2023/8/16 10:59:31

敏捷项目管理如何做好Sprint Backlog？迭代管理

什么是Sprint Backlog？ Sprint Backlog是Scrum的主要工件之一。在Scrum中，团队按照迭代的方式工作，每个迭代称为一个Sprint。在Sprint开始之前，PO会准备好产品Backlog，准备好的产品Backlog应该是经过梳理、估算和优先…...

编程日记 2023/8/16 10:58:29

实验三图像分割与描述

一、实验目的： （1）进一步掌握图像处理工具Matlab，熟悉基于Matlab的图像处理函数。 （2）掌握图像分割方法，熟悉常用图像描述方法。二、实验原理 1.肤色检测肤色是人类皮肤重要特征之一&#xff…...

编程日记 2023/8/16 10:57:29

一、通过命令配置 1、设置淘宝镜像源 npm config set registry https://registry.npm.taobao.org/ 2、设置官方镜像源 npm config set registry https://registry.npmjs.org 3、查看镜像使用状态： npm config get registry 如果返回https://registry.npm.taobao.org…...

编程日记 2023/8/16 10:56:27

05应用程序设计和文件操作

一、给应用程序设置菜单栏比如：在qt中，如果想要使用菜单栏功能，那么界面的基类要选择QMainWindow,不能选择QWidget QDialog 实现菜单栏步骤如下：第一步：在UI设计师，直接双击菜单栏第二步：在UI设计师，修改文本内容和其他设置进行设置设置的效果图如下： …...

编程日记 2023/8/16 10:55:26

【果树农药喷洒机器人】Part8：果树对靶变量喷药实验

📢：博客主页【https://blog.csdn.net/weixin_51244852】 📢：文章若有幸对你有帮助，可点赞 👍 收藏 ⭐不迷路🙉 📢：内容若有错误，敬请留言 📝指正…...

编程日记 2023/8/16 10:54:25

framework.beans.factory.annotation.Autowired(required=true)}

将其它项目复制过来，启动后会报错 15:24:55.880 [main] ERROR o.s.b.SpringApplication - [reportFailure,843] - Application run failed org.springframework.beans.factory.UnsatisfiedDependencyException: Error creating bean with name containerDataHandleC…...

编程日记 2023/8/16 10:53:23

【应用笔记】使用 CW32 实现电池备份（VBAT）功能

前言电池备份（VBAT）功能的实现方法，一般是使用 MCU 自带的 VBAT 引脚，通过在该引脚连接钮扣电池，当系统电源因故掉电时，保持 MCU 内部备份寄存器内容和 RTC 时间信息不会丢失。本文档介绍了如何基于 C…...

编程日记 2023/8/16 10:52:21

探讨uniapp的navigator 页面跳转问题

navigator 页面跳转。该组件类似HTML中的<a>组件，但只能跳转本地页面。目标页面必须在pages.json中注册。 "tabBar": {"color": "#7A7E83","selectedColor": "#3cc51f","borderStyle": "bl…...

编程日记 2023/8/16 10:51:19

使用Epoll实现高效的多路I/O转接

文章目录概述1. 理解Epoll机制2. Epoll的三个主要函数3. 基于Epoll实现多路I/O转接4. 总结概述在网络编程中，高效地处理大量并发连接是提升系统性能的关键。传统的多线程或多进程模型在这种情况下可能会导致资源消耗过大，而Epoll（事件驱动…...

编程日记 2023/8/16 10:50:17

基于算法竞赛的c++编程（28）结构体的进阶应用

结构体的嵌套与复杂数据组织在C中，结构体可以嵌套使用，形成更复杂的数据结构。例如，可以通过嵌套结构体描述多层级数据关系： struct Address {string city;string street;int zipCode; };struct Employee {string name;int id;…...

编程新知 2025/10/17 16:01:19

谷歌浏览器插件

项目中有时候会用到插件 sync-cookie-extension1.0.0：开发环境同步测试 cookie 至 localhost，便于本地请求服务携带 cookie 参考地址：https://juejin.cn/post/7139354571712757767 里面有源码下载下来，加在到扩展即可使用FeHelp…...

编程新知 2025/8/16 3:55:30

盘古信息PCB行业解决方案：以全域场景重构，激活智造新未来

一、破局：PCB行业的时代之问在数字经济蓬勃发展的浪潮中，PCB（印制电路板）作为 “电子产品之母”，其重要性愈发凸显。随着 5G、人工智能等新兴技术的加速渗透，PCB行业面临着前所未有的挑战与机遇。产品迭代…...

编程新知 2025/11/4 3:17:48

连锁超市冷库节能解决方案：如何实现超市降本增效

在连锁超市冷库运营中，高能耗、设备损耗快、人工管理低效等问题长期困扰企业。御控冷库节能解决方案通过智能控制化霜、按需化霜、实时监控、故障诊断、自动预警、远程控制开关六大核心技术，实现年省电费15%-60%，且不改动原有装备、安装快捷、…...

编程新知 2025/9/18 22:35:44

2021-03-15 iview一些问题

1.iview 在使用tree组件时，发现没有set类的方法，只有get，那么要改变tree值，只能遍历treeData，递归修改treeData的checked，发现无法更改，原因在于check模式下，子元素的勾选状态跟父节…...

编程新知 2025/11/4 14:32:26

【算法训练营Day07】字符串part1

文章目录反转字符串反转字符串II替换数字反转字符串题目链接：344. 反转字符串双指针法，两个指针的元素直接调转即可 class Solution {public void reverseString(char[] s) {int head 0;int end s.length - 1;while(head < end) {char temp …...

编程新知 2025/8/27 14:38:58

Element Plus 表单(el-form)中关于正整数输入的校验规则

目录 1 单个正整数输入1.1 模板1.2 校验规则 2 两个正整数输入（联动）2.1 模板2.2 校验规则2.3 CSS 1 单个正整数输入 1.1 模板 <el-formref"formRef":model"formData":rules"formRules"label-width"150px"…...

编程新知 2025/10/29 9:58:23

C++使用 new 来创建动态数组

问题： 不能使用变量定义数组大小原因： 这是因为数组在内存中是连续存储的，编译器需要在编译阶段就确定数组的大小，以便正确地分配内存空间。如果允许使用变量来定义数组的大小，那么编译器就无法在编译时确定数组的大…...

编程新知 2025/11/5 17:04:40

中医有效性探讨

文章目录西医是如何发展到以生物化学为药理基础的现代医学？传统医学奠基期（远古 - 17 世纪）近代医学转型期（17 世纪 - 19 世纪末）现代医学成熟期（20世纪至今） 中医的源远流长和一脉相承远古至…...

编程新知 2025/11/5 15:46:44

C++：多态机制详解

目录一. 多态的概念 1.静态多态（编译时多态） 二.动态多态的定义及实现 1.多态的构成条件 2.虚函数 3.虚函数的重写/覆盖 4.虚函数重写的一些其他问题 1）.协变 2）.析构函数的重写 5.override 和 final关键字 1&#…...

编程新知 2025/10/27 8:07:15

Spark基础-任务提交相关参数

相关文章：

Spark基础-任务提交相关参数

ROS-PyQt小案例

【算法】双指针——leetcode盛最多水的容器、剑指Offer57和为s的两个数字

idea 使用debug 启动项目的时候出现 Method breakpoints may dramatically slow down debugging

Tomcat的一些配置问题(server.xml/catalina.sh)

飞天使-jenkins进行远程linux机器修改某个文件的思路

Revit SDK 介绍：PanelSchedule 配电盘明细表

Java后端实现不用pagehelper。手写分页如何实现?

spring 缓存

vue3.0 element-plus 不同版本 el-popover 循环优化

计算机网络实验4：HTTP、DNS协议分析

敏捷项目管理如何做好Sprint Backlog？迭代管理

实验三图像分割与描述

npm使用国内淘宝镜像的方法（两种）

05应用程序设计和文件操作

【果树农药喷洒机器人】Part8：果树对靶变量喷药实验

framework.beans.factory.annotation.Autowired(required=true)}

【应用笔记】使用 CW32 实现电池备份（VBAT）功能

探讨uniapp的navigator 页面跳转问题

使用Epoll实现高效的多路I/O转接

基于算法竞赛的c++编程（28）结构体的进阶应用

谷歌浏览器插件

盘古信息PCB行业解决方案：以全域场景重构，激活智造新未来

连锁超市冷库节能解决方案：如何实现超市降本增效

2021-03-15 iview一些问题

【算法训练营Day07】字符串part1

Element Plus 表单(el-form)中关于正整数输入的校验规则

C++使用 new 来创建动态数组

中医有效性探讨

C++：多态机制详解