Spark性能调优
Spark性能调优
- executor内存不足
- 用`UNION ALL`代替`UNION`
- persist与耗时监控
- 用OR替换UNION ALL
- 用JOIN替换IN
executor内存不足
- 问题表现1:Container xx is running beyond physical memory limits. Current usage: xxx GB of x GB physical memory used; xx GB of x GB virtual memory used…
原因:这个报错显而易见,数据使用的内存超过了这个executor分配的内存 - 问题表现2:长时间的 Fail to get RpcResponse: Timeout,最后会报heartbeat心跳检测失败而任务失败
原因:实际上同样是因为内存不足,导致GC而超时,最终失败
解决:
1 首先可以尝试开大executor的内存分配
2 如果配置的内存无法满足数据内存,可以尝试:
2.1 增加大数据量位置的repartition数
val allDf = sourceDf.repartition(5000).flatMap(row => { }).toDF()
2.2 增加spark session的超时时间
val ss = SparkSession.builder().config("spark.sql.shuffle.partitions", 1000).config("spark.driver.maxResultSize", "20g").config("hive.exec.dynamic.partition", true).config("hive.exec.dynamic.partition.mode", "nonstrict").config("hive.exec.parallel", true).config("mapred.max.split.size", 64000000).config("mapred.min.split.size.per.node", 64000000).config("mapred.min.split.size.per.rack", 64000000).config("hive.exec.reducers.bytes.per.reducer", 256000000).config("hive.exec.reducers.max", 2000).config("hive.merge.mapredfiles", true).config("hive.merge.smallfiles.avgsize", 128000000).config("hive.merge.size.per.task", 128000000).config("spark.yarn.executor.memoryOverhead", "10g").config("spark.network.timeout", 10000000) // 调大.enableHiveSupport().getOrCreate()
用UNION ALL代替UNION
UNION会默认对两个表的结果进行去重,如果没有去重的需要,就使用UNION ALL,速度会更快
persist与耗时监控
在主流程的对运算结果调用处persist,并打点进行耗时监控。而不是在运算方法内部persist,便于看清每一步的运算时间。
用OR替换UNION ALL
UNION ALL 操作会消耗大量的内存和CPU,如果可能,尽量减少使用。在这个查询中,你可以尝试将三个 UNION ALL 的查询合并为一个,使用 OR 条件来替代。
用JOIN替换IN
相关文章:
Spark性能调优
Spark性能调优 executor内存不足用UNION ALL代替UNIONpersist与耗时监控用OR替换UNION ALL用JOIN替换IN executor内存不足 问题表现1:Container xx is running beyond physical memory limits. Current usage: xxx GB of x GB physical memory used; xx GB of x GB…...
flutter开发实战-Camera自定义相机拍照功能实现
flutter开发实战-Camera自定义相机拍照功能实现 一、前言 在项目中使用image_picker插件时候,在android设备上使用无法默认设置前置摄像头(暂时不清楚什么原因),由于项目默认需要使用前置摄像头,所以最终采用自定义…...
LeetCode15. 三数之和
15. 三数之和 给你一个整数数组 nums ,判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k ,同时还满足 nums[i] nums[j] nums[k] 0 。请 你返回所有和为 0 且不重复的三元组。 **注意:**答案中不可以包含重复…...
Docker搭建MySQL8主从复制
之前文章我们了解了面试官:说一说Binlog是怎么实现的,这里我们用Docker搭建主从复制环境。 docker安装主从MySQL 这里我们使用MySQL8.0.32版本: 主库配置 master.cnf //基础配置 [client] port3306 socket/var/run/mysqld/mysql.sock [m…...
【前端】日期转换
记录项目中需要处理的日期格式 默认vue2 初级版 将后端传来的数组 [2024/01/29 08:55:18, 2024/01/29 09:55:18, 2024/01/29 10:11:18]转为 [2024-01-29 08:55, 2024-01-29 09:55, 2024-01-29 10:11]方法 convertDateTimeFormat(arr) {var tempArr arr.map(function (dateT…...
Git 怎么设置用户的权限
在团队协作的软件开发中,对于版本控制系统Git来说,确保代码与数据的安全性至关重要。为了实现这一目标,Git提供了灵活且可定制的用户权限管理机制。下面将简单的探讨一下Git如何设置用户的权限,以及如何保护代码和数据。 用户身份…...
大端和小端模式介绍
介绍 “大端”和“小端”通常指的是字节序(Byte Order)的两种类型,也被称为端序(Endianness)。在多字节的数据类型(如整数)中,字节可以以不同的顺序存储,这影响了计算机…...
【vue】报错 Duplicate keys detected 解决方案
错误描述:Duplicate keys detected. This may cause an update error.错误直译:检测到重复的键。这可能会导致错误。错误原因:有相同父元素的多个子元素的v-for有相同的key值。 解决方法: return:{dataList:[{name:张三…...
机器学习_13_SVM支持向量机、感知器模型
文章目录 1 感知器模型1.1 感知器的思想1.2 感知器模型构建1.3 损失函数构建、求解 2 SVM3 线性可分SVM3.1 线性可分SVM—概念3.2 线性可分SVM —SVM 模型公式表示3.3 线性可分SVM —SVM 损失函数3.4 优化函数求解3.5 线性可分SVM—算法流程3.6 线性可分SVM—案例3.7 线性可分S…...
OpenCV学习记录——轮廓检测
文章目录 前言一、寻找、绘制轮廓二、具体应用代码 前言 寻找目标图像的轮廓并绘制出该轮廓是我们进行图像识别时常用的手段,轮廓是图像中连续的边界线,可以用于物体检测、形状分析等应用。为了获取更高的准确性,会先进行二值化处理ÿ…...
FreeRTOS任务挂起以及延时部分源码分析
layout: post title: “任务状态” date: 2023-7-19 15:39:08 0800 tags: FreeRTOS 任务状态 fireRTOS代码分析 任务挂起 //把一个任务挂起 void vTaskSuspend( TaskHandle_t xTaskToSuspend ) {TCB_t *pxTCB;taskENTER_CRITICAL();//进入临界区{/* 参数是NULL的时候设置为当…...
oracle数据库慢查询SQL
目录 场景: 环境: 慢SQL查询一: 问题一:办件列表查询慢 分析: 解决方法: 问题二:系统性卡顿 分析: 解决方法: 慢SQL查询二 扩展: 场景: 线…...
C语言搭配EasyX实现贪吃蛇小游戏
封面展示 内部展示 完整代码 #define _CRT_SECURE_NO_WARNINGS #include<easyx.h> #include<stdio.h> #include<mmsystem.h> #pragma comment (lib,"winmm.lib") #define width 40//宽有40个格子 #define height 30//长有40个格子 #define size 2…...
# 软件安装-Linux搭建nginx(单机版)
软件安装-Linux搭建nginx(单机版) 安装版本:nginx-1.24.0 文章目录 软件安装-Linux搭建nginx(单机版)一、Nginx包下载二、创建用户1.新建组和用户2.设置用户密码3.登录自己创建的目录三、安装依赖组件四、安装Nginx五、启动Nginx六、配置Nginx一、Nginx包下载 1. nginx-1.24下…...
成熟的汽车制造供应商协同平台 要具备哪些功能特性?
汽车行业是一个产业链长且“重”的行业,整个业务流程包括了研发、设计、采购、库存、生产、销售、售后等一系列环节,在每一个环节都涉及到很多信息交换的需求。对内要保证研发、采购、营销等业务环节信息流通高效安全,对外要与上、下游合作伙…...
React16源码: React中处理ref的核心流程源码实现
ref的实现过程 1 )概述 在更新流程当中如何去设置ref上面的对象的过程在我们创建fiber的时候去处理ref这个属性那我们什么时候创建fiber对象? 就是我们去更新某一个节点,然后要去调和它的子节点的时候这个时候我们会对每一个子节点去创建这个fiber对象…...
ref和reactive
看尤雨溪说:为什么Vue3 中应该使用 Ref 而不是 Reactive?...
掌握数据预测的艺术:线性回归模型详解
线性回归是统计学中用于建模两个或多个变量之间线性关系的一种方法,广泛应用于数据分析、机器学习等领域。从数学建模的角度出发,线性回归旨在找到一个线性方程,最好地描述自变量(或称为解释变量、特征变量)和因变量(或称为目标变量)之间的关系。本文将通过Python代码示…...
STM32F407移植OpenHarmony笔记8
继上一篇笔记,成功开启了littlefs文件系统,能读写FLASH上的文件了。 今天继续研究网络功能,让控制台的ping命令能工作。 轻量级系统使用的是liteos_m内核lwip协议栈实现网络功能,需要进行配置开启lwip支持。 lwip的移植分为两部分…...
C++:输入流/输出流
C流类库简介 C为了克服C语言中的scanf和printf存在的缺点。,使用cin/cout控制输入/输出。 cin:表示标准输入的istream类对象,cin从终端读入数据。cout:表示标准输出的ostream类对象,cout向终端写数据。cerrÿ…...
Tessent ATPG实战避坑:从Stuck-at到Transition Delay测试,我的向量生成与验证全流程
Tessent ATPG实战避坑指南:从Stuck-at到Transition Delay测试的完整流程解析 1. 芯片测试工程师的日常挑战 作为一名从业多年的芯片测试工程师,我深知ATPG(自动测试向量生成)工具在实际项目中的应用绝非一帆风顺。每当拿到一个新的…...
开发者利器:OpenClaw+Qwen3.5-9B-AWQ-4bit自动生成UI设计文档
开发者利器:OpenClawQwen3.5-9B-AWQ-4bit自动生成UI设计文档 1. 为什么我们需要自动化设计文档 作为一名长期奋战在一线的开发者,我深知设计交接环节的痛点。每次收到Figma设计稿后,手动整理设计规范、提取颜色代码、记录组件结构要耗费数小…...
[RL]强化学习指导搭建IC2E核反应堆
Minecraft 工业2 实验版核反应堆计算 强化学习模块训练路径 最近在玩Minecraft IC2 Classic,但是对于摆核反应堆总是感觉不是很得心应手,不管怎么摆效率都很低,为了解决这个问题,所以我写了一个强化学习的模块,让神经网…...
别让格式毁掉你的毕业论文!Paperxie AI 排版:3 分钟复刻学校官方标准
paperxie-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/AIPPThttps://www.paperxie.cn/format/typesettinghttps://www.paperxie.cn/format/typesetting 一、 本科生的痛:论文写完了,格式却能逼疯人 毕业论文的终极考验,从来都…...
嵌入式轻量级RPC实现:裸机与RTOS下的远程过程调用
1. RPCInterface 库深度解析:嵌入式系统远程过程调用的轻量级实现RPC(Remote Procedure Call,远程过程调用)在嵌入式系统中长期被视为“高不可攀”的技术——常与大型操作系统、复杂网络栈和资源消耗挂钩。然而,在工业…...
【FastAPI 2.0流式AI响应终极指南】:零配置实现毫秒级SSE/Chunked异步响应,附官方插件源码级安装手册
第一章:FastAPI 2.0 异步 AI 流式响应插件概述FastAPI 2.0 原生强化了对异步流式响应(StreamingResponse)的底层支持,为大语言模型(LLM)推理、语音合成、实时数据生成等典型 AI 场景提供了低延迟、高并发的…...
用FPGA(EP4CE10)和VHDL给循迹小车写个‘大脑’:从传感器到PWM的保姆级代码解析
用FPGA(EP4CE10)和VHDL构建循迹小车的硬件思维:从并行逻辑到实时控制 当红外传感器检测到黑色轨迹线时,传统单片机方案需要依次执行传感器读取、算法处理、电机控制等步骤,而FPGA的并行架构允许这些操作同时发生——这…...
【医疗信息化开发者必修课】:C# FHIR SDK实战指南——从零构建符合HL7 FHIR R4规范的患者数据服务
第一章:FHIR标准与医疗信息化开发全景概览 FHIR(Fast Healthcare Interoperability Resources)是由HL7组织制定的现代医疗数据交换标准,旨在通过RESTful API、结构化资源和开放格式(如JSON/XML)弥合异构医疗…...
【Kali Linux】 2026.1 新功能详解
2026年3月24日发布,基于 2025.4 的更新,带来全新视觉体验和多项新工具!🎨 2026 年度主题更新每年惯例的主题大换血,覆盖全流程:组件更新内容引导动画修复了实时镜像卡在第一帧的问题,循环更流畅…...
Wireshark蓝牙协议抓包实战:从环境搭建到数据解析
1. 环境准备:硬件与软件双管齐下 搞蓝牙协议分析就像侦探破案,没有趁手的工具可不行。我去年调试智能手环时,就因为没配好环境浪费了两天时间。咱们先从必备装备说起: 硬件三件套缺一不可: nRF52840 Dongle:…...
