当前位置：首页 > news >正文

【Spark】Spark的两种核心Shuffle工作原理详解

news 2026/2/9 8:01:18

`Spark 的shuffle机制`

`一、Spark ShuffleManager 发展历程`

Spark 1.1.0 之前
- 在 Spark 1.1.0 之前，Spark 使用 BlockStoreShuffleFetcher 来处理 Shuffle 操作。这个实现主要依赖于直接从 BlockManager 获取 Shuffle 数据，并通过网络进行交换。
Spark 1.1.x（默认使用 HashShuffleManager）
- HashShuffleManager 使用哈希算法将数据划分到不同的分区。在进行 Shuffle 操作时，Spark 会为每个键计算一个哈希值，然后根据该值将数据分配到相应的分区。
Spark 1.2.x 及以后版本（默认使用 SortShuffleManager）
Spark 2.0.x 及以后版本（不在使用HashShuffleManager,默认使用 SortShuffleManager）

`二、HashShuffleManager 原理`

假设：每个 Executor 只有1个CPU core，也就是说，无论这个 Executor 上分配多少个 task
线程，同一时间都只能执行一个 task 线程。

未经优化的HashShuffleManager工作原理

1.Shuffle Write 阶段

将每个task处理的数据按照key进行hash算法，从而将相同key都写入同一个磁盘文件，而每一个磁盘文件都只属于下游stage的一个task，在数据写入磁盘之前，会现将数据写入内存缓冲区中，当内存缓冲区填满以后，才会溢写到磁盘文件中去。
下一个stage的task有多少个，当前stage的每个task就要创建多少分磁盘文件，比如当前stage有20个task,总共有4个Executor,每个Executor执行5个task，下一个stage总共有40个task，那么每个Executor上就要创建200个磁盘文件，所有Executor会创建800个磁盘文件，由此可见，未经过优化的shuffle write操作所产生的磁盘文件数据是惊人的。

2. Shuffle Read 阶段

将上一个stage的计算结果中所有相同的key，从各个节点上通过网络都拉取到自己所在的节点上，然后按照key进行聚合或连接等操作。
由于shuffle write阶段，map task给下游stage的每个reduce task都创建了一个磁盘文件，因此shuffle read阶段，每个reduce task只要从上游stage的所有map task所在节点上拉取属于自己的那个磁盘文件即可。
shuffle read的拉取过程是一边拉取一边聚合的，每个shuffle read task都有一个自己的buffer缓冲，每次只能拉取与buffer缓冲相同大小的数据，然后在内存中进行聚合等操作，聚合完一批数据，再拉取下一批，以此类推，直接所有数据拉取完，并得到最终结果。

优化后的HashShuffleManager工作原理

为了优化 HashShuffleManager，可以启用参数 spark.shuffle.consolidateFiles，该参数的默认值为 false，启用后设置为 true，可以启动优化机制。

开启优化机制后的效果：

1.Shuffle Write 阶段

在 shuffle write 过程中，task就不是为下游stage的每个task创建一个磁盘文件了，此时会出现shuffleFileGroup的概念，每个shuffleFileGroup会对应一批磁盘文件，磁盘文件的数量与下游stage的task数量是相同的。
一个Executor上有多少个 CPU core，就可以并行执行多少个task。而第一批并行执行的每个task都会创建一个 shuffleFileGroup，并将数据写入对应的磁盘文件内。
当执行下一批task时，下一批task就会复用之前已有的 shuffleFileGroup，包括其中的磁盘文件。
consolidate 机制允许不同的task复用同一批磁盘文件，这样就可以有效将多个task的磁盘文件进行一定程度上的合并，从而大幅度减少磁盘文件的数量，进而提升 shuffle write 的性能。
比如当前stage有20个task,总共有4个Executor,每个Executor执行5个task，下一个stage总共有40个task，那么每个Executor上就要创建40个磁盘文件，所有Executor会创建160个磁盘文件，由此可见，优化后shuffle write操作所产生的磁盘文件较优化前明显减少。

2. Shuffle Read 阶段

由于shuffle write阶段，每个Executor仅为下游每个reduce task创建一个磁盘文件，在shuffle read阶段，每个reduce task只要从上游stage的所有map task所在节点上拉取属于自己的那个磁盘文件即可。

`三、SortShuffleManager 原理`

SortShuffleManager 的运行机制主要分成两种，一种是普通运行机制，另一种是bypass运行机制。当 shuffle
read task 的数量小于等于 spark.shuffle.sort.bypassMergeThreshold参数(默认为
200)的值且不是聚合类的shuffle算子时，就会启用 bypass 机制。

普通运行机制的SortShuffleManager工作原理

在该模式下，数据会先写入一个内存数据结构中，此时根据不同的 shuffle 算子，可能选用不同的数据结构。如果是 reduceByKey 这种聚合类的 shuffle 算子，那么会选用 Map 数据结构，一边通过 Map 进行聚合，一边写入内存;如果是join 这种普通的 shuffle 算子，那么会选用 Array 数据结构，直接写入内存。接着，每写一条数据进入内存数据结构之后，就会判断一下，是否达到了某个临界阈值。如果达到临界阈值的话，那么就会尝试将内存数据结构中的数据溢写到磁盘，然后清空内存数据结构。在溢写到磁盘文件之前，会先根据 key 对内存数据结构中已有的数据进行排序。排序过后，会分批将数据写入磁盘文件。默认的 batch 数量是10000 条，也就是说，排序好的数据，会以每批 1 万条数据的形式分批写入磁盘文件。写入磁盘文件是通过 Java 的BufferedOutputStream 实现的。BufferedOutputStream 是 Java的缓冲输出流，首先会将数据缓冲在内存中，当内存缓冲填满之后再一次写入磁盘文件中，这样可以减少磁盘 IO 次数，提升性能。
一个 task 将所有数据写入内存数据结构的过程中，会发生多次磁盘溢写操作，也就会产生多个临时文件。最后会将之前所有的临时磁盘文件都进行合并，这就是 merge 过程，此时会将之前所有临时磁盘文件中的数据读取出来，然后依次写入最终的磁盘文件之中。此外，由于一个 task就只对应一个磁盘文件，也就意味着该 task 为下游 stage 的 task 准备的数据都在这一个文件中，因此还会单独写一份索引文件，其中标识了下游各个 task 的数据在文件中的 start offset 与 end offset。
SortShuffleManager 由于有一个磁盘文件 merge 的过程，因此大大减少了文件数量。比如第一个 stage 有 20 个 task，总共有 4 个 Executor，每个 Executor 执行 5 个 task，而第二个 stage 有 40 个 task。由于每个 task 最终只有一个磁盘文件，因此此时每个 Executor 上只有 5 个磁盘文件，所有 Executor 只有
20 个磁盘文件。

bypass运行机制的SortShuffleManager工作原理

每个 task 会为每个下游 task 都创建一个临时磁盘文件，并将数据按 key进行 hash 然后根据 key 的 hash 值，将 key 写入对应的磁盘文件之中。当然，写入磁盘文件时也是先写入内存缓冲，缓冲写满之后再溢写到磁盘文件的。最后，同样会将所有临时磁盘文件都合并成一个磁盘文件，并创建一个单独的索引文件。
该过程的磁盘写机制其实跟未经优化的 HashShuffleManager 是一模一样的，因为都要创建数量惊人的磁盘文件，只是在最后会做一个磁盘文件的合并而已。因此少量的最终磁盘文件，也让该机制相对未经优化的 HashShuffleManager 来说，shuffle read 的性能会更好。
而该机制与普通 SortShuffleManager 运行机制的不同在于:第一，磁盘写机制不同;第二，不会进行排序。也就是说，启用该机制的最大好处在于，shuffle write
过程中，不需要进行数据的排序操作，也就节省掉了这部分的性能开销。

【Spark】Spark的两种核心Shuffle工作原理详解

Spark 的shuffle机制一、Spark ShuffleManager 发展历程 Spark 1.1.0 之前在 Spark 1.1.0 之前，Spark 使用 BlockStoreShuffleFetcher 来处理 Shuffle 操作。这个实现主要依赖于直接从 BlockManager 获取 Shuffle 数据，并通过网络进行交换。 Spark …...

编程日记 2024/12/12 6:07:58

TCP 的文化内涵

从历史和文化内涵的视角看 TCP 协议的优势和局限，这些都刻在基因里。节约和经济获得向下兼容，但这也意味着它没有浪费带宽的本意，任何相左的优化策略终将遇到无法解决的困难，大致就这样，这为设计新协议提了意见&#x…...

编程日记 2024/12/12 6:04:55

ASP.NET ｜日常开发中读写XML详解

ASP.NET ｜日常开发中读写XML详解前言一、XML 概述1.1 定义和结构1.2 应用场景二、读取 XML 文件2.1 使用XmlDocument类（DOM 方式）2.2 使用XmlReader类（流方式） 三、写入 XML 文件3.1 使用XmlDocument类3.2 使用XmlWr…...

编程日记 2024/12/12 6:03:54

Less和SCSS，哪个更好用？

前言 Less 和 SCSS 都是流行的 CSS 预处理器，它们的目的都是扩展 CSS 的功能，使样式表更具组织性、可维护性和可重用性。虽然它们有许多相似之处，但在语法、特性和工作方式上也存在一些差异。 Less Less 是一种动态样式表语言，…...

编程日记 2024/12/12 6:02:53

第一个C++程序--(蓝桥杯备考版）

第一个C程序基础程序 #include <iostream>//头⽂件 using namespace std;//使⽤std的名字空间 int main()//main函数 {cout << "hello world!" << endl; //输出：在屏幕打印"hello world!" return 0;}main函数 main 函数是…...

编程日记 2024/12/12 5:59:51

NanoLog起步笔记-7-log解压过程初探

nonolog起步笔记-6-log解压过程初探再看解压过程建立调试工程修改makefile添加新的launch项注：重新学习nanolog的README.mdPost-Execution Log Decompressor 下面我们尝试了解，解压的过程，是如何得到文件头部的meta信息的。再看解压过程 …...

编程日记 2024/12/12 5:58:50

【MySQL 进阶之路】基础语法及优化技巧

MySQL DML 基础语法及优化技巧一、DML（数据操作语言）概述 DML 是数据库操作语言的子集，用于数据的增、删、改、查四个基本操作。MySQL 中的 DML 操作通常是指以下四种基本操作： INSERT：插入数据SELECT：…...

编程日记 2024/12/12 5:57:49

微信小程序做电子签名功能

文章目录最近需求要做就记录一下。人狠话不多，直接上功能： 直接搂代码吧,复制过去就可以用，有其他需求自己改吧改吧。 signature.wxml  <custom-navbar title"电子签名"show-home"{{fals…...

编程日记 2024/12/12 5:55:48

PR的选择与移动

选择工具可以选择序列上的剪辑，如果需要多选可以按住shift键选中多个剪辑 CtrlA：可以进行全选编组选中多个剪辑后“右键-编组“可以将所选的剪辑连接在一起。这时单击任意剪辑都可以选中全部向前选择轨道工具与向后选择轨道工具向前选择轨道工具…...

编程日记 2024/12/12 5:53:46

Linux系统 —— 进程系列 - 进程状态：僵尸与孤儿

目录 1. 进程状态的概念 1.1 课本上的说法：名词提炼 1.2 运行，阻塞和挂起 1.2.1 什么叫做运行状态（running）？ 1.2.2 什么叫做阻塞状态（sleeping）？ 1.2.3 什么叫做挂起状态&…...

编程日记 2024/12/12 5:52:45

linux/centOS7用户和权限管理笔记

linux系列中可以： 配置多个用户配置多个用户组用户可以加入多个用户中 linux中关于权限的管理级别有2个级别，分别是： 针对用户的权限控制针对用户组的权限控制一，root用户 root用户拥有最大的系统操作权限，而普通…...

编程日记 2024/12/12 5:50:43

使用C#基于ADO.NET编写MySQL的程序

MySQL 是一个领先的开源数据库管理系统。它是一个多用户、多线程的数据库管理系统。MySQL 在网络上特别流行。MySQL 数据库可在大多数重要的操作系统平台上使用。它可在 BSD Unix、Linux、Windows 或 Mac OS 上运行。MySQL 有两个版本：MySQL 服务器系统和 MySQL 嵌入…...

编程日记 2024/12/12 5:49:39

Scala函数的泛型

package hfd //泛型 //需求：你是一个程序员，老板让你写一个函数，用来获取列表中的中间元素 //List(1,2,3,4,5)>中间元素的下标长度/2 >3 //getMiddleEle object Test38_5 {def print1():Unit{println(1)}def print2(): Unit {println(…...

编程日记 2024/12/12 5:48:36

云轴科技ZStack亮相中国生成式AI大会上海站展现AI Infra新势力

近日，以“智能跃进，创造无限”为主题的2024中国生成式AI大会在上海举办。本次大会由上海市人工智能行业协会指导，智东西、智猩猩共同发起，邀请了人工智能行业的顶尖嘉宾汇聚一堂，以前瞻性视角解构和把脉生成式AI的技术…...

编程日记 2024/12/12 5:47:35

态感知与势感知

“态感知”和“势感知”是两个人机交互中较为深奥的概念，它们虽然都与感知、认知相关，但侧重点不同。下面将从这两个概念的定义、区分以及应用领域进行解释： 1. 态感知态感知通常指的是对事物当前状态、属性或者内在特征的感知。它强调的是在…...

编程日记 2024/12/12 5:46:34

汽车零部件设计之——发动机曲轴预应力模态分析仿真APP

汽车零部件是汽车工业的基石，是构成车辆的基础元素。一辆汽车通常由上万件零部件组成，包括发动机系统、传动系统、制动系统、电子控制系统等，它们共同确保了汽车的安全、可靠性及高效运行。在汽车产业快速发展的今天，汽车零部件需…...

编程日记 2024/12/12 5:45:33

谷歌浏览器的网页数据导出与导入方法

谷歌浏览器是全球最受欢迎的网络浏览器之一，它不仅提供了快速、安全的浏览体验，还拥有丰富的功能和扩展程序。本文将详细介绍如何在Chrome浏览器中导出和导入网页数据，同时涵盖一些相关的实用技巧，如调试JavaScript、自动填充表单…...

编程日记 2024/12/12 5:44:31

pytroch环境安装-pycharm

环境介绍安装pycharm 官网下载即可，我这里已经安装，就不演示了安装anaconda 【官网链接】点击下载注意这一步选择just me 这一步全部勾上打开 anaconda Prompt 输入conda create -n pytorch python3.8 命令解释：创建一个叫pytorch&…...

编程日记 2024/12/12 5:43:29

【大模型】PostgreSQL是向量数据库吗

PostgreSQL（通常简称为 Postgre）本身并不是一个专门的向量数据库，但它可以通过扩展或插件支持向量数据的存储、检索和处理，因此可以在某些场景下作为向量数据库使用。以下是关于 PostgreSQL 是否可以作为向量数据库的详细说明&…...

编程日记 2024/12/12 5:42:28

【PyQt5教程一】Qt Designer 安装及其使用方法说明，附程序源码

目录一、PyQt5介绍： （1）PyQt简介： （2）PyQt API： （3）支持的环境： （4）安装： （5）配置环境变量…...

编程日记 2024/12/12 5:41:27

iOS 26 携众系统重磅更新，但“苹果智能”仍与国行无缘

美国西海岸的夏天，再次被苹果点燃。一年一度的全球开发者大会 WWDC25 如期而至，这不仅是开发者的盛宴，更是全球数亿苹果用户翘首以盼的科技春晚。今年，苹果依旧为我们带来了全家桶式的系统更新，包括 iOS 26、iPadOS 26…...

编程新知 2026/2/8 20:41:56

Prompt Tuning、P-Tuning、Prefix Tuning的区别

一、Prompt Tuning、P-Tuning、Prefix Tuning的区别 1. Prompt Tuning（提示调优）核心思想：固定预训练模型参数，仅学习额外的连续提示向量（通常是嵌入层的一部分）。实现方式：在输入文本前添加可训练的连续向量（软提示），模型只更新这些提示参数。优势：参数量少（仅提…...

编程新知 2026/2/9 1:17:40

日语学习-日语知识点小记-构建基础-JLPT-N4阶段（33）：にする

日语学习-日语知识点小记-构建基础-JLPT-N4阶段（33）：にする 1、前言（1）情况说明（2）工程师的信仰2、知识点（1）　にする1，接续：名词＋にする2，接续：疑问词＋にする3，（A）は（B）にする。（2）復習：（1）复习句子（2）ために　＆　ように（３）そう（４）にする3、…...

编程新知 2025/11/20 7:52:01

《Qt C++ 与 OpenCV：解锁视频播放程序设计的奥秘》

引言：探索视频播放程序设计之旅在当今数字化时代，多媒体应用已渗透到我们生活的方方面面，从日常的视频娱乐到专业的视频监控、视频会议系统，视频播放程序作为多媒体应用的核心组成部分，扮演着至关重要的角色。无论是在个人电脑、移动设备还是智能电视等平台上，用户都期望…...

编程新知 2026/2/7 13:17:38

3.3.1_1 检错编码（奇偶校验码）

从这节课开始，我们会探讨数据链路层的差错控制功能，差错控制功能的主要目标是要发现并且解决一个帧内部的位错误，我们需要使用特殊的编码技术去发现帧内部的位错误，当我们发现位错误之后，通常来说有两种解决方案。第一…...

编程新知 2026/1/30 3:28:14

PPT|230页| 制造集团企业供应链端到端的数字化解决方案：从需求到结算的全链路业务闭环构建

制造业采购供应链管理是企业运营的核心环节，供应链协同管理在供应链上下游企业之间建立紧密的合作关系，通过信息共享、资源整合、业务协同等方式，实现供应链的全面管理和优化，提高供应链的效率和透明度，降低供应链的成…...

编程新知 2026/1/30 22:07:56

2025 后端自学UNIAPP【项目实战：旅游项目】6、我的收藏页面

代码框架视图 1、先添加一个获取收藏景点的列表请求【在文件my_api.js文件中添加】 // 引入公共的请求封装 import http from ./my_http.js// 登录接口（适配服务端返回 Token） export const login async (code, avatar) > {const res await http…...

编程新知 2026/1/29 11:40:13

MySQL 8.0 OCP 英文题库解析（十三）

Oracle 为庆祝 MySQL 30 周年，截止到 2025.07.31 之前。所有人均可以免费考取原价245美元的MySQL OCP 认证。从今天开始，将英文题库免费公布出来，并进行解析，帮助大家在一个月之内轻松通过OCP认证。本期公布试题111~120 试题1…...

编程新知 2026/1/31 7:25:57

CMake 从 GitHub 下载第三方库并使用

有时我们希望直接使用 GitHub 上的开源库，而不想手动下载、编译和安装。可以利用 CMake 提供的 FetchContent 模块来实现自动下载、构建和链接第三方库。 FetchContent 命令官方文档✅ 示例代码我们将以 fmt 这个流行的格式化库为例，演示如何：使用 FetchContent 从 GitH…...

编程新知 2026/2/1 3:19:54

今日学习：Spring线程池|并发修改异常|链路丢失|登录续期|VIP过期策略|数值类缓存

文章目录优雅版线程池ThreadPoolTaskExecutor和ThreadPoolTaskExecutor的装饰器并发修改异常并发修改异常简介实现机制设计原因及意义使用线程池造成的链路丢失问题线程池导致的链路丢失问题发生原因常见解决方法更好的解决方法设计精妙之处登录续期登录续期常见实现方式特…...

编程新知 2026/1/27 16:41:02

Spark 的shuffle机制

一、Spark ShuffleManager 发展历程

二、HashShuffleManager 原理

三、SortShuffleManager 原理

相关文章：

`Spark 的shuffle机制`

`一、Spark ShuffleManager 发展历程`

`二、HashShuffleManager 原理`

`三、SortShuffleManager 原理`