当前位置：首页 > news >正文

Spark UI中 Shuffle Exchange 和 BroadcastExchange 中的 dataSize 值为什么不一样

news 2026/5/19 7:32:18

背景

Spark 3.5
最近在看Spark UI 上的一些指标看到一个很有意思的东西, 相邻的Shuffle Exechange 和 BroadcastExechange 中的 datasize 居然不一样，
前者为 765KB, 后者为 64.5MB。差别还不少，中间就增加了一个 AQEShuffleRead 计划

结论

Shuffle Exechange 中的是真实 UnsafeRow的大小
BroadcastExechange 中的是 MemoryBlock 类型数据结构所占的大小，而不是UnsafeRow的大小。
且BroadcastExechange中的datasize大小和 2的整数倍接近。

现象以及分析

上图：
在这里插入图片描述

在这里插入图片描述

两个同样的 ShuffleExechange 记录条数和 ShuffleExechange 中 datasize 大小不一样，而在BroadcastExechange 中 dataSize 大小却是一样的（都是64.5MB）
关于 ShuffleExchange中的 dataSize的计算可以参考:Spark UI中Shuffle dataSize 和shuffle bytes written 指标区别，这里重点分析一下后者.
直接看BroadcastExechange代码:

  override lazy val relationFuture: Future[broadcast.Broadcast[Any]] = {SQLExecution.withThreadLocalCaptured[broadcast.Broadcast[Any]](session, BroadcastExchangeExec.executionContext) {try {// Setup a job tag here so later it may get cancelled by tag if necessary.sparkContext.addJobTag(jobTag)sparkContext.setInterruptOnCancel(true)val beforeCollect = System.nanoTime()// Use executeCollect/executeCollectIterator to avoid conversion to Scala typesval (numRows, input) = child.executeCollectIterator()...val relation = mode.transform(input, Some(numRows))val dataSize = relation match {case map: HashedRelation =>map.estimatedSizecase arr: Array[InternalRow] =>arr.map(_.asInstanceOf[UnsafeRow].getSizeInBytes.toLong).sumcase _ =>throw new SparkException("[BUG] BroadcastMode.transform returned unexpected " +s"type: ${relation.getClass.getName}")}longMetric("dataSize") += dataSize

其中child.executeCollectIterator() 是在把数据从各个 Executor 收集到 Driver 端来，便于进行广播操作。
最主要的是 mode.transform(input, Some(numRows))，这里的数据流如下:


HashedRelationBroadcastMode.transform||\/
HashedRelation.apply(rows, key, numRows.toInt, isNullAware = isNullAware)||\/
UnsafeHashedRelation.apply(input, key, sizeEstimate, mm, isNullAware, allowsNullKey,ignoresDuplicatedKey)||\/
new UnsafeHashedRelation(key.size, numFields, binaryMap)

最终调用的 UnsafeHashedRelation.estimatedSize的方法：

  override def estimatedSize: Long = binaryMap.getTotalMemoryConsumption

而 getTotalMemoryConsumption 是dataPages所占用的大小再加上longArray的大小：

  public long getTotalMemoryConsumption() {long totalDataPagesSize = 0L;for (MemoryBlock dataPage : dataPages) {totalDataPagesSize += dataPage.size();}return totalDataPagesSize + ((longArray != null) ? longArray.memoryBlock().size() : 0L);}

那么 BytesToBytesMap 是怎么分配的呢？如下：

    val binaryMap = new BytesToBytesMap(taskMemoryManager,// Only 70% of the slots can be used before growing, more capacity help to reduce collision(sizeEstimate * 1.5 + 1).toInt,pageSizeBytes)

默认的PageSize值为：defaultPageSizeBytes:

  private lazy val defaultPageSizeBytes = {val minPageSize = 1L * 1024 * 1024   // 1MBval maxPageSize = 64L * minPageSize  // 64MBval cores = if (numCores > 0) numCores else Runtime.getRuntime.availableProcessors()// Because of rounding to next power of 2, we may have safetyFactor as 8 in worst caseval safetyFactor = 16val maxTungstenMemory: Long = tungstenMemoryMode match {case MemoryMode.ON_HEAP => onHeapExecutionMemoryPool.poolSizecase MemoryMode.OFF_HEAP => offHeapExecutionMemoryPool.poolSize}val size = ByteArrayMethods.nextPowerOf2(maxTungstenMemory / cores / safetyFactor)val chosenPageSize = math.min(maxPageSize, math.max(minPageSize, size))if (Utils.isG1GC && tungstenMemoryMode == MemoryMode.ON_HEAP) {chosenPageSize - Platform.LONG_ARRAY_OFFSET} else {chosenPageSize}}

这个跟内存以及core有关。
当在进行val loc = binaryMap.lookup 以及loc.append操作的时候就会进行dataPage以及longArray的分配。而该size的大小并不是实际占用的大小，而是分配给该dataPage的大小。其实你会发现该datasize的大小几乎和2的倍数接近。

Spark UI中 Shuffle Exchange 和 BroadcastExchange 中的 dataSize 值为什么不一样

背景

结论

现象以及分析

相关文章：

Spark UI中 Shuffle Exchange 和 BroadcastExchange 中的 dataSize 值为什么不一样

阿里云优惠券领取入口、使用方法和限制条件，2024最新

自己构建webpack+vue3+ts

【AI】小白入门笔记

GPT应用开发：编写插件获取实时天气信息

揭开Spring MVC的真面目

AI大模型开发架构设计（3）——如何打造自己的大模型

Linux C语言开发（三）运算符和表达式

Spring-AOP入门案例

中仕教育：国考调剂和补录的区别是什么?

ESP32-TCP服务端（Arduino）

HCIA-HarmonyOS设备开发认证-序

Med-YOLO：3D + 医学影像 + 检测框架

Docker部署Golang服务

C#，字符串匹配（模式搜索）Sunday算法的源代码

makefile 编译动态链接库使用（.so库文件）

Hive 数仓及数仓设计方案

Ubuntu使用docker-compose安装redis

大数据安全 | 期末复习（上）| 补档

Kylin 安装novnc 远程访问

别再为485传感器没文档发愁了！一个USB转485模块+两款免费软件，5分钟搞定Modbus通信测试

441GB香港OSGB数据实战：从ContextCapture目录到Smart3D加载的完整指南

PySOT单目标跟踪实战：从零搭建环境到模型部署的避坑指南（手把手教学，附代码）

STM32H7网络延迟问题分析与解决方案

ESP32项目编译后，如何看懂Output里的内存占用（DRAM/IRAM/Flash详解）

从Typora迁移到Obsidian，我踩过的那些坑和高效配置方案

大语言模型在模块化布局优化中的应用与实战

AI智能体的开发与测试

八大排序算法-选择排序

Adobe-GenP：告别订阅烦恼，5分钟解锁Adobe全家桶完整功能