当前位置：首页 > news >正文

【Spark】Spark数据倾斜解决方案、大表join小表及大表join大表优化思路

news 2026/5/23 23:46:31

如果觉得这篇文章对您有帮助，别忘了点赞、分享或关注哦！您的一点小小支持，不仅能帮助更多人找到有价值的内容，还能鼓励我持续分享更多精彩的技术文章。感谢您的支持，让我们一起在技术的世界中不断进步！

`Spark 数据倾斜处理`

Spark 中的数据倾斜问题主要指 shuffle 过程中出现的数据倾斜问题，是由于不同的 key 对应的数据量不同导致的不同 task 所处理的数据量不同的问题。

1. 解决方案一：两阶段聚合

当使用了类似reduceByKey、groupByKey这样的聚合类算子时，可以考虑量两阶段聚合。
实现思路：第一次是局部聚合，通过map算子给每个数据的key添加随机数前缀，对key进行打散，执行reduceByKey等聚合操作，第二次将各个key的随机前缀去掉，再次进行全局聚合操作，就可以得到最终结果了。
对于聚合类的shuffle操作导致的数据倾斜，效果是非常不错的，通常可以解决数据倾斜问题。
适用范围较窄，仅仅适用聚合类的shuffle操作，像join操作还得考虑其他方案。

2. 解决方案二：广播join

广播Join是将小表的数据广播到每个计算节点，而不是将两个大表的数据进行Shuffle。当其中一个表的数据量较小（可以放入内存，默认值为10M，可调整），就可以使用广播连接来避免大规模的Shuffle，从而提高性能，减少数据倾斜的发生。
适用小表与大表连接，且小表的大小适合广播到每个Executer节点。

3. 解决方案三：使用随机数前缀和扩容RDD进行join

如果在进行join操作时，RDD中有大量的key导致数据倾斜，我们可以考虑对其中一个RDD数据进行扩容，另一个RDD进行稀释后再join。
实现思路：选择一个RDD，对每条数据的key添加随机前缀(1_{n),选择另外一个RDD，对每条数据都打上(1}n)随机前缀，也就是扩容n倍，将两个处理后的RDD进行join操作。
如果两个RDD都很大,扩容方法不在适用，扩容方式只能缓解数据倾斜。
如果有少数key导致数据倾斜，可以将这几个key从原来join的两个RDD中分别拆分出来形成一个单独的RDD，像上述思路一样使用随机数前缀和扩容RDD进行join，另外去除倾斜key的两个RDD正常join，将两次结果使用union算子合并起来即可。

4. 解决方案四：提高shuffle read task并行度

reduce端的并行度的提高就增加了reduce端task的数量，那么每个task分配到的数据量就会相应的减少，在一定程度上可以缓解数据倾斜问题。
设置参数：spark.sql.shuffle.partitions ，默认值为200，适当提高。
举例：如果原本有4个key，每个key对应20条数据，这4个key分配给一个task，那么这个task就要处理80条数据，如果增加shuffle
read task为4,每个task就会分配到一个key，也就是每个task处理10条数据，执行时间会有所减少。
该方案无法彻底解决数据倾斜，比如某个key对应的数据量有100w，无论task数量怎么增加，这个对应着100w数据的key肯定会分配到一个task中处理，还是会发生数据倾斜。
适用有较多个key对应的数据量都比较大的情况。

`Spark大表join小表(广播变量容不下小表)`

小表是否可以通过过滤减小存储空间，以完成广播。

小表是否可以通过构建联合key替换超长的join keys来减小存储空间，以完成广播。
若小表分布均匀，无法广播，则使用 join hints强行要求Spark SQL在运行时选择SHJ关联策略，相比SMJ，SHJ的执行效率会更好一些。原因是小表构建哈希表的开销，要小于两张表排序的开销。
SELECT /*+ shuffle_hash(ad_click) */ad_click.idea_id, SUM(ad_view.view_dsp) AS view_tatal
FROM ad_view
INNER JOIN ad_click ON ad_view.idea_id = ad_click.idea_id
GROUP BY ad_click.idea_id
order by view_tatal desc

`Spark大表join大表`

分而治之，能否将大表join大表转化为大表join小表，将大表均匀拆分后放进广播变量。
拆分的关键在于拆分列的选取，拆分的基数要足够大才行，比如按照日期拆分多个小表。
可以通过遍历日期，完成大表与每个小表的join，然后结果union到一起，替代大表join大表的操作。
如果无法做到均匀拆分，只能依赖shuffle join去完成大表join大表，我们可以采用调优方法，例如存在数据倾斜时，使用两阶段shuffle消除倾斜，平衡Executor之间的计算负载。

【Spark】Spark数据倾斜解决方案、大表join小表及大表join大表优化思路

如果觉得这篇文章对您有帮助，别忘了点赞、分享或关注哦！您的一点小小支持，不仅能帮助更多人找到有价值的内容，还能鼓励我持续分享更多精彩的技术文章。感谢您的支持，让我们一起在技术的世界中不断进步！ Sp…...

编程日记 2024/12/15 0:44:18

探索 Cesium 的未来：3D Tiles Next 标准解析

探索 Cesium 的未来：3D Tiles Next 标准解析随着地理信息系统（GIS）和 3D 空间数据的快速发展，Cesium 作为领先的开源 3D 地球可视化平台，已成为展示大规模三维数据和进行实时渲染的强大工具。近年来，随着…...

编程日记 2024/12/15 0:43:15

每日一站技術架構解析之-cc手機桌布網

# 網站技術架構解析： ## 一、整體架構概述https://tw.ccwallpaper.com是一個提供手機壁紙、桌布免費下載的網站，其技術架構設計旨在實現高效的圖片資源管理與用戶訪問體驗優化。 ### （一）前端展示 1. **HTML/CSS/JavaScript基礎構…...

编程日记 2024/12/15 0:41:12

prometheus监控之黑盒(blackbox)监控

1.简单介绍 blackbox-exporter项目地址：https://github.com/prometheus/blackbox_exporter blackbox-exporter是Prometheus官方提供的一个黑盒监控解决方案，blackbox-exporter无须安装在被监控的目标环境中，用户只需要将其安装在与Promethe…...

编程日记 2024/12/15 0:37:08

计算机网络之传输层协议TCP

个人主页：C忠实粉丝欢迎点赞👍 收藏✨ 留言✉ 加关注💓本文由 C忠实粉丝原创计算机网络之传输层协议TCP 收录于专栏【计算机网络】本专栏旨在分享学习计算机网络的一点学习笔记，欢迎大家在评论区交流讨论💌 目…...

编程日记 2024/12/15 0:36:06

子查询与嵌套查询

title: 子查询与嵌套查询 date: 2024/12/13 updated: 2024/12/13 author: cmdragon excerpt: 子查询和嵌套查询是关系型数据库中强大的查询工具，允许用户在一个查询的结果中再进行查询。通过使用子查询，用户能够简化复杂的SQL语句，增强查询的灵活性和可读性。本节将探讨子…...

编程日记 2024/12/15 0:34:04

GPT-SoVITS语音合成模型部署及使用

1、概述 GPT-SoVITS是一款开源的语音合成模型，结合了深度学习和声学技术，能够实现高质量的语音生成。其独特之处在于支持使用参考音频进行零样本语音合成，即使没有直接的训练数据，模型仍能生成相似风格的语音。用户可以通过微调模…...

编程日记 2024/12/15 0:33:03

springboot423玩具租赁系统boot(论文+源码)_kaic

摘要传统办法管理信息首先需要花费的时间比较多，其次数据出错率比较高，而且对错误的数据进行更改也比较困难，最后，检索数据费事费力。因此，在计算机上安装玩具租赁系统软件来发挥其高效地信息处理的作用&#xff0c…...

编程日记 2024/12/15 0:30:00

【收藏】Cesium 限制相机倾斜角(pitch)滑动范围

1.效果 2.思路在项目开发的时候，有一个需求是限制相机倾斜角，也就是鼠标中键调整视图俯角时，不能过大，一般 pitch 角度范围在 0 至 -90之间，-90刚好为正俯视。在网上查阅了很多资料，发现并没有一个合适的…...

编程日记 2024/12/15 0:27:58

Jenkins流水线初体验（六）

DevOps之安装和配置 Jenkins (一) DevOps 之 CI/CD入门操作 (二) Sonar Qube介绍和安装（三） Harbor镜像仓库介绍&安装（四） Jenkins容器使用宿主机Docker（五） Jenkins流水线初体验（六）一、Jenkins流水线任务介绍之前采用Jenkins的自由风格构建的项目，每个步骤…...

编程日记 2024/12/15 0:26:56

Azure OpenAI 生成式人工智能白皮书

简介生成式 AI 成为人工智能领域新的关键词。吸纳从机器智能到机器学习、深度学习的关键技术生成式 AI更进一步，能够根据提示或现有数据创建新的书面、视觉和听觉内容。在此基础上大模型和大模型应用一时涌现，并迅速确立AI落地新范式。据 data.ai inte…...

编程日记 2024/12/15 0:25:55

Ubuntu22.04安装docker desktop遇到的bug

1. 确认已启用 KVM 虚拟化如果加载了模块，输出应该如下图。说明 Intel CPU 的 KVM 模块已开启。否则在VMware开启宿主机虚拟化功能： 2. 下一步操作： Ubuntu | Docker Docs 3. 启动Docker桌面后发现账户登陆不上去： Sign in | …...

编程日记 2024/12/15 0:23:53

LLMC：大语言模型压缩工具的开发实践

关注：青稞AI，学习最新AI技术青稞Talk主页：qingkelab.github.io/talks 大模型的进步，正推动我们向通用人工智能迈进，然而庞大的计算和显存需求限制了其广泛应用。模型量化作为一种压缩技术，虽然可以用来加速…...

编程日记 2024/12/15 0:20:48

基于阿里云Ubuntu22.04 64位服务器Java及MySql环境配置命令记录

基于阿里云Ubuntu22.04 64位服务器Java及MySql环境配置命令记录 Java 23 离线环境配置MySql 环境配置MySQL常用命令 Java 23 离线环境配置下载 Ubuntu环境下 Java 23 离线包链接: java Downloads. 在Linux环境下创建一个安装目录 mkdir -p /usr/local/java将下载好的jdk压缩…...

编程日记 2024/12/15 0:18:40

第一课【输入输出】(题解)

1.向世界问好题目描述编程输出以下内容: Hello World! Im a C program. 输入格式本题无输入。输出格式请按照样例输出，注意大小写、空格、感叹号，句号，单引号都必须使用英文输入法里的符号。样例输入/输出输入数据 1 本题无…...

编程日记 2024/12/15 0:17:37

查看 Linux 进程运行所在 CPU 内核

判断进程运行在哪个 CPU 内核上作者：Dan Nanni 译者：LCTT | 2015-09-28 10:43 问题：Linux 进程运行在多核处理器系统上。怎样才能找出哪个 CPU 内核正在运行该进程？ 当你在多核 NUMA 处理器上运行需要较高性能的 HPC&…...

编程日记 2024/12/15 0:16:36

ESP32外设学习部分--SPI篇

SPI学习前言我个人以为开始学习一个新的单片机最好的方法就是先把他各个外设给跑一遍，整体了解一下他的功能，由此记录一下我学习ESP32外设的过程，防止以后忘记。 SPI 配置步骤 SPI总线初始化 spi_bus_config_t buscfg {.miso_io_num …...

编程日记 2024/12/15 0:13:32

Tomcat的下载和使用，配置控制台输出中文日志

目录 1. 简介2. 下载3. 使用3.1 文件夹展示3.1.1 控制台输出乱码 3.2 访问localhost:80803.3 访问静态资源 4. 总结 1. 简介 Tomcat，全称为Apache Tomcat，是一个开源的Web应用服务器和Servlet容器，由Apache软件基金会的Jakarta项目开发。它实…...

编程日记 2024/12/15 0:10:29

MySQL不能被其他地址访问，授权问题解决（8.x,,5.x）

首先强调的是两个版本，5版本和8版本问题反馈不一样 Linux系统部署mysql8.4版本 MySQL官网地址写的很清楚了，不多介绍直接进入主题，恶心了我三个多小时的问题，翻阅大量国内外资料，结果并不是个多么难得问题&#xff0…...

编程日记 2024/12/15 0:09:27

四、个人项目系统搭建

文章目录一、python写的后端代码二、html代码三、index.css四、js代码效果图： 一、python写的后端代码后端代码使用Flask编写，如下所示： # app.py from flask import Flask, render_template, request, jsonify, g import sqlite3 import…...

编程日记 2024/12/15 0:03:17

UE5官方文档（第一人称射击游戏教程）解读第七章

好了，今天来到我们的第七章，今天将承上启下，延伸输入部分的工作。配置角色移动 Coder 03 Configure Character Movement with C in Unreal Engine | Unreal Engine 5.7 Documentation | Epic Developer Community // Copyright Epic Games…...

编程新知 2026/5/23 22:19:11

AI答案优化效果可以靠哪些第三方数据验证？

先给结论：AI答案优化效果要做三层交叉验证AI 答案优化、GEO 服务的效果，不应只听服务商自述，也不适合只靠单张 AI 回答截图判断。更稳妥的做法，是用三层数据交叉验证：AI回答层数据：看品牌是否被提及、位置是…...

编程新知 2026/5/23 20:12:49

Burp Suite渗透测试工作流：从环境搭建到报告生成

1. 这不是“学个工具”，而是一套可复用的渗透工作流很多人点开“Burp Suite 入门”类教程，心里想的是：“装个插件、抓个包、改个参数，不就完事了？”——结果三天后连 repeater 怎么发 POST 请求都得翻笔记。我带过二十…...

编程新知 2026/5/23 19:01:39

STM32 HAL库驱动NRF24L01避坑指南：SPI时钟配置、引脚命名那些容易出错的地方

STM32 HAL库驱动NRF24L01实战避坑手册：从SPI配置到中断处理的深度解析当你在深夜的实验室里盯着示波器上杂乱的SPI波形，或是面对编译器抛出的"undefined reference"错误时，是否曾怀疑过NRF24L01这个看似简单的2.4GHz射频模块为何如…...

编程新知 2026/5/23 18:57:20

【限时解密】Midjourney内部颗粒渲染引擎逻辑：基于逆向API日志的噪声生成时序图（仅开放72小时，含调试token领取）

更多请点击： https://codechina.net 第一章：【限时解密】Midjourney内部颗粒渲染引擎逻辑：基于逆向API日志的噪声生成时序图（仅开放72小时，含调试token领取） Midjourney v6.2 的颗粒（grain&…...

编程新知 2026/5/23 18:52:37

如何为Public Money Public Code网站添加新的支持组织：完整操作指南

如何为Public Money Public Code网站添加新的支持组织：完整操作指南【免费下载链接】publiccode.asia-legacy Website of https://publiccode.asia 项目地址: https://gitcode.com/gh_mirrors/pu/publiccode.asia-legacy 想要为publiccode.asia这个开源项目…...

编程新知 2026/5/23 17:50:03

马斯克的 Grok 聊天机器人表现不佳，能否支撑 SpaceX 高估值存疑

Grok 表现不佳且使用少路透社一篇新报道得出结论，埃隆马斯克（Elon Musk）的“追求真相”人工智能聊天机器人 Grok 表现不佳，使用的人也不多。在去年美国政府使用人工智能的联邦记录中，Grok 几乎不见踪影。即便马斯克将其…...

编程新知 2026/5/23 15:46:41

客服人力成本骤降65%后的真实代价：AI Agent上线6个月后的3类沉默风险与可量化的反脆弱加固方案

更多请点击： https://codechina.net 第一章：客服人力成本骤降65%后的真实代价：AI Agent上线6个月后的3类沉默风险与可量化的反脆弱加固方案上线AI客服Agent六个月后，某头部电商客户报告人力成本下降65%，但同期NPS下滑…...

编程新知 2026/5/23 14:56:53

CharacterAI Python API终极指南：如何快速构建AI对话机器人

CharacterAI Python API终极指南：如何快速构建AI对话机器人【免费下载链接】CharacterAI Unofficial Python API for character.ai 项目地址: https://gitcode.com/gh_mirrors/ch/CharacterAI 你是否想在自己的Python应用中集成CharacterAI的强大对话功能&a…...

编程新知 2026/5/23 14:37:43

免费德州扑克GTO求解器终极指南：如何用Desktop Postflop提升你的扑克技术

免费德州扑克GTO求解器终极指南：如何用Desktop Postflop提升你的扑克技术【免费下载链接】desktop-postflop [Development suspended] Advanced open-source Texas Holdem GTO solver with optimized performance 项目地址: https://gitcode.com/gh_mirrors/de/d…...

编程新知 2026/5/23 14:29:33

【Spark】Spark数据倾斜解决方案、大表join小表及大表join大表优化思路

`Spark 数据倾斜处理`

1. 解决方案一：两阶段聚合

2. 解决方案二：广播join

3. 解决方案三：使用随机数前缀和扩容RDD进行join

4. 解决方案四：提高shuffle read task并行度

`Spark大表join小表(广播变量容不下小表)`

`Spark大表join大表`

相关文章：

【Spark】Spark数据倾斜解决方案、大表join小表及大表join大表优化思路

探索 Cesium 的未来：3D Tiles Next 标准解析

每日一站技術架構解析之-cc手機桌布網

prometheus监控之黑盒(blackbox)监控

计算机网络之传输层协议TCP

子查询与嵌套查询

GPT-SoVITS语音合成模型部署及使用

springboot423玩具租赁系统boot(论文+源码)_kaic

【收藏】Cesium 限制相机倾斜角(pitch)滑动范围

Jenkins流水线初体验（六）

Azure OpenAI 生成式人工智能白皮书

Ubuntu22.04安装docker desktop遇到的bug

LLMC：大语言模型压缩工具的开发实践

基于阿里云Ubuntu22.04 64位服务器Java及MySql环境配置命令记录

第一课【输入输出】(题解)

查看 Linux 进程运行所在 CPU 内核

ESP32外设学习部分--SPI篇

Tomcat的下载和使用，配置控制台输出中文日志

MySQL不能被其他地址访问，授权问题解决（8.x,,5.x）

四、个人项目系统搭建

UE5官方文档（第一人称射击游戏教程）解读第七章

AI答案优化效果可以靠哪些第三方数据验证？

Burp Suite渗透测试工作流：从环境搭建到报告生成

STM32 HAL库驱动NRF24L01避坑指南：SPI时钟配置、引脚命名那些容易出错的地方

【限时解密】Midjourney内部颗粒渲染引擎逻辑：基于逆向API日志的噪声生成时序图（仅开放72小时，含调试token领取）

如何为Public Money Public Code网站添加新的支持组织：完整操作指南

马斯克的 Grok 聊天机器人表现不佳，能否支撑 SpaceX 高估值存疑

客服人力成本骤降65%后的真实代价：AI Agent上线6个月后的3类沉默风险与可量化的反脆弱加固方案

CharacterAI Python API终极指南：如何快速构建AI对话机器人

免费德州扑克GTO求解器终极指南：如何用Desktop Postflop提升你的扑克技术