Spark--算子执行原理
一、sortByKey
SortByKey是一个transformation算子,但是会触发action,因为在sortByKey方法内部,会对每个分区进行采样,构建分区规则(RangePartitioner)。

内部执行流程
1、创建RangePartitioner part,用于构建分区规则。
Part可以根据指定的分区数量和排序方式,确定每个下游分区的上界,并为每个key分配正确的分区编号。数据在shuffle到本地磁盘的过程中,会记录目标分区的信息,确保下游分区能够正确拉取对应分区的数据。
2、根据part创建ShuffleRDD,对原始RDD按key重新分区。
3、shuffle到本地磁盘的临时文件(包含数据文件和索引文件)。
4、下游分区拉取对应分区的数据。
RangePatitioner工作原理

(1)确定下游每个分区的上界。
对每个上游分区采样,确定数据的大致范围,再根据传入的分区数或者默认分区数确定分区边界。
(2)将rdd中的每个key调用getPartition函数,从而获取其应归属的分区。
①若目标分区数较小(128),采用线性查找;
②若超过128,采用二分查找:
如果键小于范围的最小界限,它将分配到第一个分区。
如果键大于所有范围界限,它将分配到最后一个分区。
对于在某个范围中间的键,getPartition 使用二分查找方法找到合适的分区。这里根据范围边界数组 (rangeBounds) 和键值(k)进行比较,返回对应的分区索引。

二、join

内部执行流程
1、接收其他RDD作为参数
默认使用当前有效的最大分区器,如果没有,新建一个HashPartitioner作为分区器。
2、将具有相同key的value进行联结(cogroup)
(返回一个二元组(K, (Iterable[V1], Iterable[V2]))),若某个rdd没有该key对应的value,Iterable为空。
3、将每个key对应的两个Iterator中的元素进行笛卡尔积,每一对结果作为新的value,与key组成新的二元组返回。
三、map & mapPartitions & mapPartitionsWithIndex & flatMap
1、map

内部执行流程
(1)将函数作为参数传入;
(2)对f删除不必要的引用,检查是否能够被序列化,是否存在闭包问题;
(3)创建一个MapPartitionsRDD,将每个迭代器执行 f 的逻辑后返回。
特点
(1)每处理一条数据,就调用一次f,每一条数据都是一个迭代器。
(2)无法直接得知分区编号,但是可以通过如下方式获取:
val index = TaskContext.getPartitionId()
(3)返回迭代器。
2、mapPartitions

特点
(1)以分区为单位对数据调用f,一个分区就是一个迭代器。
(2)返回迭代器和partitioner。
3、mapPartitionsWithIndex

特点
(1)以分区为单位对数据调用f,一个分区就是一个迭代器。
(2)返回分区编号和迭代器
4、flatMap

通过TraversableOnce特征,逐个处理rdd中的每个元素,然后将处理过的元素组成新的rdd返回。
四、groupByKey & groupBy
1、groupByKey (k, CompactBuffer(v,v,v,v) )


内部执行流程
1、调用 combineByKeyWithClassTag将所有相同的key合并到CompactBuffer中,并根据指定的partitioner进行分组;
2、返回一个新的rdd,每个key 对应的value被聚合成一个CompactBuffer;
3、将合并后的rdd转换为RDD[(K, Iterable[V])]]。
partitioner为HashPartitioner

可以看到,HashPartitioner为key分配新分区号的方式是key的hashCode值 % 下游分区数,这意味着相同key的数据一定会被分配到同一台机器的同一个partition的同一个组里面。
2、groupBy ( k, CompactBuffer( (k,v),(k,v),(k,v),(k,v) ) )



内部执行流程
1、将f函数作为参数传入;
2、对f删除不必要的引用,检查是否能够被序列化,是否存在闭包问题;
3、将rdd的每个元素调用f后的值作为key,元素本身作为value,得到的二元组调用groupByKey进行分组。
源rdd在Driver端被创建和调用,对rdd进行操作,本质上是对rdd的每个partition进行操作,而每个partition对应一个task,task就会对这个partition对应的Iterator进行相应的操作。
算子被调用,真正执行时会调用compute方法。真正执行具体是指task被分配到executor的线程池中时,compute方法被iterator调用。
3、groupBy VS groupByKey
groupBy更灵活,但在shuffle时传输的数据更多(groupBy返回 ( k, CompactBuffer( (k,v),(k,v),(k,v),(k,v) ) );而groupByKey返回 (k, CompactBuffer(v,v,v,v) ) )。
五、reduceByKey & combinByKey
1、reduceByKey

内部执行流程
1、调用 combineByKeyWithClassTag,将分区内相同key的value应用传入的函数,再将分区间相同key的value应用同一个传入的函数;
2、返回一个新的rdd。
2、combineByKey

combineByKey的内部执行流程与reduceByKey是一样的,唯一不同的是combineByKey分区间应用的函数与分区内应用的函数不同。
3、性能分析
ReduceByKey VS CombineByKey
combineByKey更灵活,因为其支持分别指定分区内和分区间的聚合逻辑,而reduceByKey分区内和分区间使用一样的聚合逻辑。
reduceByKey VS groupByKey
reduceByKey的效率更高,因为reduceByKey在map端会进行局部聚合,因此在shuffle时传输的数据更少。
六、foldByKey & aggregateByKey
1、foldByKey


内部执行流程
(1)调用 combineByKeyWithClassTag,先将初始值应用函数,再将分区内相同key的value应用传入的函数,最后将分区间相同key的value应用同一个传入的函数;
(2)返回一个新的rdd。
2、aggregateByKey

foldByKey 的内部执行流程与 aggregateByKey 是一样的,唯一不同的是 aggregateByKey 分区间应用的函数与分区内应用的函数不同。
3、foldByKey 与 aggregateByKey的区别
foldByKey局部和全局使用相同的聚合逻辑;aggregateByKey局部和全局使用不同的聚合逻辑。
相关文章:
Spark--算子执行原理
一、sortByKey SortByKey是一个transformation算子,但是会触发action,因为在sortByKey方法内部,会对每个分区进行采样,构建分区规则(RangePartitioner)。 内部执行流程 1、创建RangePartitioner part&…...
javaEE-6.网络原理-http
目录 什么是http? http的工作原理: 抓包工具 fiddler的使用 HTTP请求数据: 1.首行:编辑 2.请求头(header) 3.空行: 4.正文(body) HTTP响应数据 1.首行:编辑 2.响应头 3.空行: 4.响应正文…...
基于 docker 的mysql 5.7 主主集群搭建
创建挂载目录和配置文件 主节点1 mkdir -p /mysql_master_1/mysql/log mkdir -p /mysql_master_1/mysql/data mkdir -p /mysql_master_1/mysql/conf vim /mysql_master_1/mysql/conf/my.cnf[mysqld] datadir/var/lib/mysql #MySQL 数据库文件存放路径 server_id 1 #指定数据…...
windows版的docker如何使用宿主机的GPU
windows版的docker使用宿主机的GPU的命令 命令如下 docker run -it --nethost --gpus all --name 容器名 -e NVIDIA_DRIVER_CAPABILITIEScompute,utility -e NVIDIA_VISIBLE_DEVICESall 镜像名效果 (transformer) rootdocker-desktop:/# python Python 3.9.0 (default, Nov 15 …...
【C++】STL——list的使用
目录 💕1.带头双向链表List 💕2.list用法介绍 💕3.list的初始化 💕4.size函数与resize函数 💕5.empty函数 💕6.front函数与back函数 💕7.push_front,push_back,pop_front,pop_back函数…...
6.PPT:魏女士-高新技术企业政策【19】
目录 NO1234 NO567 NO1234 创建“PPT.pptx”考生文件夹Word素材文档:选中对应颜色的文字→选中对应的样式单击右键按下匹配对应文字:应用所有对应颜色的文字开始→创建新的幻灯片→从大纲:考生文件夹:Word素材重置 开始→版…...
MLA 架构
注:本文为 “MLA 架构” 相关文章合辑。 未整理去重。 DeepSeek 的 MLA 架构 原创 老彭坚持 产品经理修炼之道 2025 年 01 月 28 日 10:15 江西 DeepSeek 的 MLA(Multi-head Latent Attention,多头潜在注意力)架构 是一种优化…...
文本分析NLP的常用工具和特点
1)非上下文感知型文本分析工具和特点 特性VADERTextBlob适合文本类型短文本、非正式语言(如评论、推文)中等长度、正式文本情感强度分析支持(正面、负面、中性)支持(极行、主观性)处理表情符号…...
AI协助探索AI新构型自动化创新的技术实现
一、AI自进化架构的核心范式 1. 元代码生成与模块化重构 - 代码级自编程:基于神经架构搜索的强化学习框架,AI可通过生成元代码模板(框架的抽象层定义、神经元结点-网络拓扑态的编码抽象定义)自动组合功能模块。例如࿰…...
7.抽象工厂(Abstract Factory)
抽象工厂与工厂方法极其类似,都是绕开new的,但是有些许不同。 动机 在软件系统中,经常面临着“一系列相互依赖的对象”的创建工作;同时,由于需求的变化,往往存在更多系列对象的创建工作。 假设案例 假设…...
Android-音频采集
前言 音视频这块,首先是要先采集音频。今天我们就来深入探讨一下 Android 音频采集的两大类型:Mic 音频采集和系统音频采集。 Mic音频采集 Android提供了两个API用于实现录音功能:android.media.AudioRecord、android.media.MediaRecorder。…...
旋钮屏设备物联网方案,ESP32-C3无线通信应用,助力设备智能化升级
在智能家居的浪潮中,旋钮屏以其独特的交互方式和便捷的操作体验,逐渐成为智能家电控制面板上的新宠儿。从智能冰箱、洗衣机到烤箱、空气炸锅等设备,旋钮屏的应用无处不在。 通过简单的旋转和按压操作,用户可以轻松调节温度、时间…...
DRGDIP 2.0时代下基于PostgreSQL的成本管理实践与探索(上)
一、引言 1.1 研究背景与意义 在医疗领域的改革进程中, DRG/DIP 2.0 时代,医院成本管理的重要性愈发凸显。新的医保支付方式下,医院的收入不再单纯取决于医疗服务项目的数量,而是与病种的分组、费用标准以及成本控制紧密相关。这…...
游戏引擎 Unity - Unity 打开项目、Unity Editor 添加简体中文语言包模块、Unity 项目设置为简体中文
Unity Unity 首次发布于 2005 年,属于 Unity Technologies Unity 使用的开发技术有:C# Unity 的适用平台:PC、主机、移动设备、VR / AR、Web 等 Unity 的适用领域:开发中等画质中小型项目 Unity 适合初学者或需要快速上手的开…...
edu小程序挖掘严重支付逻辑漏洞
edu小程序挖掘严重支付逻辑漏洞 一、敏感信息泄露 打开购电小程序 这里需要输入姓名和学号,直接搜索引擎搜索即可得到,这就不用多说了,但是这里的手机号可以任意输入,只要用户没有绑定手机号这里我们输入自己的手机号抓包直接进…...
安卓/鸿蒙模拟位置信息-Fake Location模拟虚拟定位打卡
一、软件下载安装 需要用到的软件就一个即:FakeLocation虚拟打卡定位 下载地址:FakeLocation虚拟打卡定位.app 二、手机端设置 打开手机设置-关于手机-版本信息-版本号,连续点击版本号直到出现已进入开发者模式字样,此时打开手…...
(一)DeepSeek大模型安装部署-Ollama安装
大模型deepseek安装部署 (一)、安装ollama curl -fsSL https://ollama.com/install.sh | sh sudo systemctl start ollama sudo systemctl enable ollama sudo systemctl status ollama(二)、安装ollama遇到网络问题,请手动下载 ollama-linux-amd64.tgz curl -L …...
LabVIEW2025中文版软件安装包、工具包、安装教程下载
下载链接:LabVIEW及工具包大全-三易电子工作室http://blog.eeecontrol.com/labview6666 《LabVIEW2025安装图文教程》 1、解压后,双击install.exe安装 2、选中“我接受上述2条许可协议”,点击下一步 3、点击下一步,安装NI Packa…...
Rust 再谈泛型
第一章:Trait约束 - 变形许可证系统 1.1 正面案例:持证上岗的变形金刚 trait Transform {fn transform(&self) -> String; }struct Car {model: String }impl Transform for Car {fn transform(&self) -> String {format!("{}变形为…...
chrome插件模板;使用 React 18 和 Webpack 5 的 Chrome 扩展样板
一、软件介绍(文末提供下载) 这是一个基本的 Chrome 扩展样板,可帮助您编写模块化和现代的 Javascript 代码,轻松加载 CSS,并在代码更改时自动重新加载浏览器。 github地址:https://github.com/lxieyang/c…...
解锁.NET Fiddle:在线编程的神奇之旅
在.NET 开发的广袤领域中,快速验证想法、测试代码片段以及便捷地分享代码是开发者们日常工作中不可或缺的环节。而.NET Fiddle 作为一款卓越的在线神器,正逐渐成为众多.NET 开发者的得力助手。它打破了传统开发模式中对本地开发环境的依赖,让…...
AI大模型:DeepSeek
近期DeepSeek产生了很大的影响力。首先来自于性能,给了业内一个很好的释放,缓解了HPC以及大规模集群被卡的焦虑。通过实验证实了小规模团队(公开资料显示规模约150左右)在资源受限的情况下(2M H100 GPU时),依然可以完成对领先大模型的实现与部署。后续观察该团队是否可以…...
Spring MVC ONE
第一章:Java web的发展历史 一.Model I和Model II 1.Model I开发模式 Model1的开发模式是:JSPJavaBean的模式,它的核心是Jsp页面,在这个页面中,Jsp页面负责整合页面和JavaBean(业务逻辑)&…...
【Git】一、初识Git Git基本操作详解
文章目录 学习目标Ⅰ. 初始 Git💥注意事项 Ⅱ. Git 安装Linux-centos安装Git Ⅲ. Git基本操作一、创建git本地仓库 -- git init二、配置 Git -- git config三、认识工作区、暂存区、版本库① 工作区② 暂存区③ 版本库④ 三者的关系 四、添加、提交更改、查看提交日…...
SQL 秒变三线表 sql导出三线表
🎯SQL 秒变三线表,校园小助手超神啦 宝子们,搞数据分析、写论文的时候,从 SQL 里导出数据做成三线表是不是特别让人头疼😩 手动调整格式,不仅繁琐,还容易出错,分分钟把人逼疯&#…...
PySpark学习笔记5-SparkSQL
sparkSql的数据抽象有两种。 一类是data set适用于java和Scala 一类是data frame适用于java,Scala,python 将r d d转换为data frame #方式一 df spark.createDataFrame(rdd,schema[name,age]) #方式二 schema Structtype(). add(id,integertype(),nu…...
ES6 字符串、数值、数组扩展使用总结
1. 字符串的扩展方法 1.1 includes() // 判断字符串是否包含指定字符串 const str Hello World; console.log(str.includes(Hello)); // true console.log(str.includes(hello)); // false console.log(str.includes(World, 6)); // true - 从位置6开始搜索// 实际应用 func…...
项目测试之Postman
文章目录 基础实战进行批量测试并输出报告 基础 实战 进行批量测试并输出报告 参考: https://blog.csdn.net/tyh_keephunger/article/details/109205191 概述 Newman是什么?Newman是Postman的命令行工具,用于执行接口测试集合。操作过程…...
C#常用744单词
1.visual 可见的 2.studio 工作室 3.dot 点 4.net 网 5.harp 尖端的,锋利的。 6.amework 骨架,构架,框架 7.beta 测试版,试用版 8.XML(全称:eXtensible Markup Language)…...
如何利用maven更优雅的打包
最近在客户现场部署项目,有两套环境,无法连接互联网,两套环境之间也是完全隔离,于是问题就来了,每次都要远程到公司电脑改完代码,打包,通过网盘(如果没有会员,上传下载慢…...
