当前位置: 首页 > news >正文

Spark Shuffle

Shuffle : 集群范围内跨节点、跨进程的数据分发

  • 分布式数据集在集群内的分发,会引入大量的磁盘 I/O 与网络I/O
  • 在 DAG 的计算中,Shuffle 环节的执行性能是最差的 , 会消耗所有类型的硬件资源 (CPU、内存、磁盘、网络)

Spark 2.0 后,将 Shuffle 操作统一交由 Sort shuffle Manager 来管理

  • DAGScheduler 以 Shuffle 为边界,把计算图 DAG 切割为多个执行阶段 Stages

Spark/公司人物对比 :

在这里插入图片描述

Shuffle类比 :

在这里插入图片描述

Shuffle 工作原理

reduceByKey 会引入 Shuffle

// 按照单词做分组计数
val wordCounts: RDD[(String, Int)] = kvRDD.reduceByKey((x, y) => x + y)

reduceByKey计算过程 :

  • 以 Shuffle 为边界,reduceByKey 的计算被切割为两个执行阶段
  • Map 阶段 : Shuffle 之前的 Stage : 每个 Executors 先在数据分区做初步聚合 (Map 端聚合、局部聚合)
  • Shuffle : 不同的单词被分发到不同节点的 Executors 中
  • Reduce 阶段 : Shuffle 之后的 Stage : Executors 以单词为 Key 做第二次聚合 (全局聚合),从而完成统计计数的任务

Shuffle 是跨节点、跨进程的数据分发

  • Shuffle 是 Map 阶段与 Reduce 阶段之间的数据交换

在这里插入图片描述

Shuffle 中间文件

Shuffle 中间文件有两类实体文件 :

  • data 文件 : 记录(Key,Value)键值对的

  • index 文件 : 记录键值对所属 Reduce Task 的

  • Map 阶段生产 Shuffle 中间文件

  • Reduce 阶段消费 Shuffle 中间文件

  • 二者以中间文件为媒介,完成数据交换

Shuffle 中间文件 :

  • DAGScheduler 会为每个 Stage 创建任务集合 TaskSet( n 个 Task)
  • 每个 Map Task 都会生成 data 文件与 index 文件的 Shuffle 中间文件
  • 即 : Map 阶段有多少Task,就会生成多少份 Shuffle 中间文件

在这里插入图片描述

Shuffle 的数据交换规则 (分区规则) :

  • 定义了 Reduce 阶段怎么划分数据分区
  • 设 Reduce 阶段有 N 个 Task (对应 N 个数据分区),在 Map 阶段的数据应该分发到哪个 Reduce Task,由下公式来决定
P = Hash(Record Key) % N

Shuffle Write

生成中间文件时,Spark 会用类似于 Map 内存数据结构 (PartitionedPairBuffer, PartitionedAppendOnlyMap),来计算、缓存并排序数据分区中的数据记录

  • Map 结构的 Key 是(Reduce Task Partition ID, Record Key)
  • Value 是原数据记录中的数据值

Shuffle Write:

  1. 对数据分区中的数据 , 逐条计算的目标分区 ID,然后把 Key 和数据插到 Map 中
  2. 当 Map 装满后,再根据 Key 对 Map 中的数据做快排,并把数据溢出到磁盘中的临时文件
  3. 直到数据全部溢出完毕,用归并排序对这些数据做合并,分别生成 data 文件、 index 文件

在这里插入图片描述

PartitionedPairBuffer

groupByKey 采用 PartitionedAppendOnlyMap 来填充数据记录, 该数据结构是数组形式的缓存结构

PartitionedPairBuffer:

在这里插入图片描述

PartitionedAppendOnlyMap

reduceByKey 采用 PartitionedAppendOnlyMap 来填充数据记录。该数据结构是一种 Map,而 Map 的 Value 值是可累加、可更新的。
依靠高效的内存数据结构、更少的磁盘文件、更小的文件尺寸,能提高Shuffle 效率

PartitionedAppendOnlyMap 大小 = 4 :

在这里插入图片描述

在这里插入图片描述

Shuffle Read

Reduce 阶段的任务数量(并行度)决定了每个中间文件中目标分区数

  • 即:Reduce 的并行度是 3,Map Task 的中间文件会包含 3 个目标分区的数据,index 文件记录了目标分区数据的起始索引

Shuffle Read: Reduce 从 Map 拉取数据的过程:

  1. Reduce Task 通过网络从不同 Map Task 的中间文件并拉取属于自己的数据
  2. 不同的 Reduce Task 根据 index 中起始索引来确定哪些数据属于自己的
  3. Reduce Task 将拉取到的数据块填充到读缓冲区
  4. 按照任务的计算逻辑不停地消费、 处理缓冲区中的数据记录

在这里插入图片描述

reduceByKey 采用一种叫做 PartitionedAppendOnlyMap 的数据结构来填充数据记录。这个数据结构是一种 Map,而 Map 的 Value 值是可累加、可更新的。因此,PartitionedAppendOnlyMap 非常适合聚合类的计算场景,如计数、求和、均值计算、极值计算等

相关文章:

Spark Shuffle

Shuffle : 集群范围内跨节点、跨进程的数据分发 分布式数据集在集群内的分发,会引入大量的磁盘 I/O 与网络I/O在 DAG 的计算中,Shuffle 环节的执行性能是最差的 , 会消耗所有类型的硬件资源 (CPU、内存、磁盘、网络) Spark 2.0 后,将 Shuff…...

Linux/MacOS 生成双击可执行文件

双击可执行文件包含两种:终端shell脚本 Unix可执行文件 1.终端shell脚本 随意新建一个文件(可使用command键N,前提是有已打开的文件),输入shell格式的测试代码,比如: #! /bin/sh echo “h…...

Ubuntu三种拨号方法

1.宽带拨号(PPPoE) (1)打开连接。关闭以太网连接,打开有线连接设置,取消勾选“自动连接”选项。 (2)配置连接。在终端输入命令sudo pppoeconf,会看到一系列配置信息,包括用户名、密码,配置完成后会有一些提示信息&…...

Vue-router的引入和安装

什么是Vue-Router?Vue路由器是Vue.js的官方路由器,它与Vue.js核心深度集成,使用Vue轻松构建单页应用程序变得轻而易举。功能包括:嵌套路线映射动态路由模块化,基于组件的路由器配置路由参数,查询&#xff0…...

无线WiFi安全渗透与攻防(四)之kismet的使用

系列文章 无线WiFi安全渗透与攻防(一)之无线安全环境搭建 无线WiFi安全渗透与攻防(二)之打造专属字典 无线WiFi安全渗透与攻防(三)之Windows扫描wifi和破解WiFi密码 kismet 如果要进行无线网络渗透测试,则必须先扫描所有有效的无线接入点。刚好在Kali Linux中&am…...

2023新版PMP考试有哪些变化?

对于2022年很多事情也都在发生,疫情也都没有完全结束,基金会已经开始通知下一场考试了,很多人也会担心新的考纲会不会给自己带来难度,其实这次六月份的考试很多人都内心已经知道了结果,所以这里也详细说一下新考纲的改…...

P8074 [COCI2009-2010#7] SVEMIR 最小生成树

[COCI2009-2010#7] SVEMIR 题目描述 太空帝国要通过建造隧道来联通它的 NNN 个星球。 每个星球用三维坐标 (xi,yi,zi)(x_i,y_i,z_i)(xi​,yi​,zi​) 来表示,而在两个星球 A,BA,BA,B 之间建造隧道的价格为 min⁡{∣xA−xB∣,∣yA−yB∣,∣zA−zB∣}\min\{|x_A-x_…...

10种常见网站安全攻击手段及防御方法

在某种程度上,互联网上的每个网站都容易遭受安全攻击。从人为失误到网络罪犯团伙发起的复杂攻击均在威胁范围之内。 网络攻击者最主要的动机是求财。无论你运营的是电子商务项目还是简单的小型商业网站,潜在攻击的风险就在那里。 知己知彼百战不殆&…...

为什么我选择收费的AdsPower指纹浏览器?

在决定开始用指纹浏览器之前,龙哥让我们团队的运营小哥找了市面上很多产品去测试。最后,还是决定用AdsPower。每个人的使用感受都不一样,龙哥就说说几个用得顺手的几个点。一、指纹环境强大 双内核引擎 市面上指纹浏览器内核都是基于谷歌Chro…...

Java输入输出和数组

一、问答题 1. 如何声明和创建一个一维数组&#xff1f; Int i[]new int[3] 2. 如何访问数组的元素&#xff1f; Int a[]new int a[3] for (int x0;x<a.length;x){ System.out.print(i[x]); } System.out.println(); 3.数组下标的类型是什么&#xff1f;最小的下标是什…...

这些免费API帮你快速开发,工作效率杠杠滴

一、短信发送 短信的应用可以说是非常的广泛了&#xff0c;短信API也是当下非常热门的API~ 短信验证码&#xff1a;可用于登录、注册、找回密码、支付认证等等应用场景。支持三大运营商&#xff0c;3秒可达&#xff0c;99.99&#xff05;到达率&#xff0c;支持大容量高并发。…...

干货|最全PCB布线教程总结,14条PCB布线原则技巧,保姆级搞定PCB布线

1、坚持手动布线&#xff0c;慎用自动布线2、了解制造商的规格3、合适的走线宽度4、迹线之间留出足够的空间5、元器件放置6、保持模拟和数字走线分开7、接地层8、走线和安装孔留有足够的空间9、交替走线方向10、避免电容耦合11、放置散热孔和焊盘12、接地和电源走线13、利用丝印…...

编程快捷键和markdown语法小计

Data Structure FQA文章目录1.idea快捷键汇总2.markdown一些常用语法1.idea快捷键汇总 altenter  快捷生成变量 altInsert可以新建类&#xff0c;文件&#xff0c;get或set方法&#xff0c;此快捷键又名创造一切 编辑区和文件区的跳转。 alt 1  &#xff1a;编辑区跳转至…...

内网vCenter部署教程二,最全的了!

一、组网说明 vCenter组网最佳实践 每台服务器需要6个网口,需要三个分布式交换机,每个交换机分配2个物理网卡做冗余,分别做为管理网络、业务网络、高可用网络使用。另vsan网络和vmotion网络可以复用业务网络或管理网络,vcenter HA需要单独用一个网络。 二、创建管理网络…...

2023-3-2 刷题情况

迷宫 题目描述 这天, 小明在玩迷宫游戏。 迷宫为一个 nn 的网格图, 小明可以在格子中移动, 左上角为 (1,1), 右 下角 (n,n) 为终点。迷宫中除了可以向上下左右四个方向移动一格以外, 还有 m 个双向传送门可以使用, 传送门可以连接两个任意格子。 假如小明处在格子 (x1,y1)(…...

Docker SYS_ADMIN 权限容器逃逸

1.漏洞原理Docker容器不同于虚拟机&#xff0c;它共享宿主机操作系统内核。宿主机和容器之间通过内核命名空间&#xff08;namespaces&#xff09;、内核Capabilities、CGroups&#xff08;control groups&#xff09;等技术进行隔离。若启动docker容器时给主机一个--cap-addSY…...

【Kotlin】 yyyy-MM-dd HH:mm:ss 时间格式 时间戳 全面解读超详细

时间格式 时间格式(协议)描述gg时期或纪元。y不包含纪元的年份。不具有前导零。yy不包含纪元的年份。具有前导零。yyyy包含纪元的四位数的年份。M月份数字。一位数的月份没有前导零。MM月份数字。一位数的月份有一个前导零。MMM月份的缩写名称&#xff0c;在AbbreviatedMonthN…...

git repack多包使用及相关性能测试

1、git数据结构 git 中存在四种数据结构&#xff0c;即object包含四种&#xff0c;分别是tree对象、blob对象、commit对象、tag对象 1.1 blob对象 存储文件内容&#xff0c;内容是二进制的形式&#xff0c;通过SHA-1算法对文件内容和头信息进行计算得到key(文件名)。 如果一…...

QT获取dll库文件详细信息

一、需求背景获取软件下依赖的dll库的版本信息&#xff0c;如下图所示版本为1.0.7.1018二、实现方法2.1步骤windows下实现&#xff0c;基于version.lib(version.dll)提供的函数获取这些信息首先使用GetFileVersionInfoSizeA(W)获取VersionInfo的大小&#xff0c;申请缓冲区&…...

常见的电脑运行卡顿原因及解决方法

大家在日常使用电脑过程中&#xff0c;会发现多开几个文件就卡顿&#xff0c;其实很多时候都跟C盘长期不清理有关&#xff0c;C盘的内存被下载的软件安装包、页面文件、休眠文件、更新文件等一系列的文件占据。大的文件甚至能占到20-30G&#xff0c;驱动人生就为大家带来几种解…...

如何解锁数字化制造的数据瓶颈:stltostp的轻量级STL转STEP解决方案

如何解锁数字化制造的数据瓶颈&#xff1a;stltostp的轻量级STL转STEP解决方案 【免费下载链接】stltostp Convert stl files to STEP brep files 项目地址: https://gitcode.com/gh_mirrors/st/stltostp 在数字化制造与工业4.0转型的浪潮中&#xff0c;数据格式的互操作…...

大模型评测实战指南:从基准测试到业务落地的科学评估体系

1. 项目概述&#xff1a;为什么我们需要一个“大模型评测”清单&#xff1f;如果你最近也在关注大语言模型&#xff08;LLM&#xff09;的发展&#xff0c;可能会和我有一样的感受&#xff1a;兴奋&#xff0c;但也伴随着巨大的信息过载。几乎每天都有新的模型发布&#xff0c;…...

告别繁琐操作:一键下载国家中小学智慧教育平台电子课本的智能解决方案

告别繁琐操作&#xff1a;一键下载国家中小学智慧教育平台电子课本的智能解决方案 【免费下载链接】tchMaterial-parser 国家中小学智慧教育平台 电子课本下载工具&#xff0c;帮助您从智慧教育平台中获取电子课本的 PDF 文件网址并进行下载&#xff0c;让您更方便地获取课本内…...

2026年度能耗监测系统的深度分析与展望

在当前全球可持续发展的大背景下&#xff0c;能耗监测系统的重要性愈发凸显。随着技术的进步和社会对节能减排的需求&#xff0c;2026年度的能耗监测系统将迎来一场技术革命和应用升级。本文将从市场需求、技术现状、未来发展方向及实施策略等多个方面&#xff0c;对2026能耗监…...

告别编译地狱!树莓派4B上快速部署face_recognition库的三种方法(含OpenCV轻量安装)

树莓派4B人脸识别开发环境快速部署指南 每次在树莓派上配置人脸识别开发环境&#xff0c;最让人头疼的就是漫长的编译等待和层出不穷的依赖问题。特别是OpenCV这个计算机视觉领域的"瑞士军刀"&#xff0c;完整编译动辄需要数小时&#xff0c;稍有不慎就会前功尽弃。本…...

从习题到实战:掌握随机变量及其分布的5个核心场景

1. 从杯子分球看离散型随机变量 想象你面前有4个空杯子和3个乒乓球&#xff0c;随手把球扔进杯子里会发生什么&#xff1f;这个看似简单的游戏&#xff0c;其实是理解离散型随机变量的绝佳案例。X代表"杯子中球的最大个数"&#xff0c;它可能取值为1、2、3——这就是…...

从OCP协议到3D寄生提取:EDA/IP技术演进与工程实践深度解析

1. 行业动态综述&#xff1a;从新闻简报到深度洞察每周追踪EDA&#xff08;电子设计自动化&#xff09;和IP&#xff08;知识产权核&#xff09;领域的动态&#xff0c;已经成了我从业十几年来的一个习惯。这不仅仅是看看新闻&#xff0c;更像是定期参加一场虚拟的行业技术交流…...

科技与科学领域每日新闻摘要-2026-05-12

科技与科学领域每日新闻摘要 日期: 2026年5月12日 1. Nature发布2026年最值得关注的七大技术 核心要点: 《自然》杂志发表2026年最值得关注的七项关键技术&#xff0c;包括异种器官移植、AI天气预报、可控核聚变、光学显微脑图谱、mRNA疗法、高精度天文成像和量子计算。这些技…...

Fast-GitHub:3个技巧让国内开发者告别GitHub龟速时代

Fast-GitHub&#xff1a;3个技巧让国内开发者告别GitHub龟速时代 【免费下载链接】Fast-GitHub 国内Github下载很慢&#xff0c;用上了这个插件后&#xff0c;下载速度嗖嗖嗖的~&#xff01; 项目地址: https://gitcode.com/gh_mirrors/fa/Fast-GitHub 你是否曾经因为Gi…...

心灵鸡汤01 - 人生九不争

一、跟父母&#xff0c;不争口舌&#xff1b; 二、跟朋友&#xff0c;不争面子&#xff1b; 三、跟领导&#xff0c;不争高低&#xff1b; 四、跟小人&#xff0c;不争道理&#xff1b; 五、跟伴侣&#xff0c;不争对错&#xff1b; 六、跟亲戚&#xff0c;不争穷富&#xff1b…...