当前位置：首页 > news >正文

使用Akka的Actor模拟Spark的Master和Worker工作机制

news 2026/2/10 20:58:13

使用Akka的Actor模拟Spark的Master和Worker工作机制

Spark的Master和Worker协调工作原理

在 Apache Spark 中，Master 和 Worker 之间通过心跳机制进行通信和保持活动状态。下面是 Master 和 Worker 之间心跳机制的工作流程：

Worker 启动后，会向预先配置的 Master 节点发送注册请求。
Master 接收到注册请求后，会为该 Worker 创建一个唯一的标识符（Worker ID）并将其信息保存在内存中。
Master 向 Worker 发送包含 Master URL、Worker ID 等信息的注册响应。
Worker 收到注册响应后，会启动一个定时器并开始周期性地向 Master 发送心跳消息。
Worker 的心跳消息中包含当前的负载状况、可用资源等信息。
Master 接收到心跳消息后，更新该 Worker 的最近心跳时间，并根据需要对集群进行动态调整，例如添加新的任务或删除故障的 Worker。
如果 Master 在一段时间内没有收到某个 Worker 的心跳消息，它将把该 Worker 标记为失效，并将其相应的资源标记为可用以供后续使用。

具体原理如下：

Worker 通过网络向 Master 发送心跳消息，通常使用基于 TCP 的长连接。这些心跳消息可以包含有关 Worker 健康状况、资源利用情况等的信息。
Master 使用一个内部的心跳管理组件来处理接收到的心跳消息，并维护每个 Worker 的状态。它根据心跳消息的频率和时间戳来判断 Worker 是否正常运行。
如果 Master 在预定的时间内没有收到 Worker 的心跳消息，它会将该 Worker 标记为失效并触发一系列的故障处理机制，例如重新分配任务给其他可用的 Worker。
Worker 定期发送心跳消息，以确保在网络故障、Worker 故障或其他问题发生时能够及时通知 Master。

通过心跳机制，Master 能够实时监控 Worker 的状态，并根据需要进行集群的动态管理和资源调度，从而实现高可用性和容错性。

使用Akka的Actor模拟Spark的Master和Worker工作机制

worker注册到Master, Master完成注册，并回复worker注册成功。
worker定时发送心跳，并在Master接收到。
Master接收到worker心跳后，要更新该worker的最近一次发送心跳的时间。
给Master启动定时任务，定时检测注册的worker有哪些没有更新心跳,并将其从hashmap中删除。
master worker 进行分布式部署(Linux系统)-》如何给maven项目打包->上传linux。

创建SparkMaster类继承Actor特质，实现Receive方法，并定义对应的伴生对象，在伴生对象中创建SparkMaster-actor引用，并启动Actor发送消息。服务端Master对worker进行心跳监测，发现6秒内无法获取worker心跳，将异常的Worker的实例从HashMap中移除。若能正常获取到心跳，则获取心跳信息后更新心跳时间。定时保持心跳机制。

代码实现：

class SparkMaster extends Actor {//定义个hashMap,管理workers(所有worker的实例)val workers = mutable.Map[String, WorkerInfo]()override def receive: Receive = {case "start" => {println("master服务器启动了...")//这里开始。。self ! StartTimeOutWorker}case RegisterWorkerInfo(id, cpu, ram) => {//接收到worker注册信息if (!workers.contains(id)) {//创建WorkerInfo 对象val workerInfo = new WorkerInfo(id, cpu, ram)//加入到workersworkers += ((id, workerInfo))println("服务器的workers=" + workers)//回复一个消息，说注册成功sender() ! RegisteredWorkerInfo}}case HeartBeat(id) => {//更新对应的worker的心跳时间//1.从workers对应的HashMap中取出WorkerInfo,然后更新worker心跳时间val workerInfo = workers(id)workerInfo.lastHeartBeat = System.currentTimeMillis()println("master更新了 " + id + " 心跳时间...")}case StartTimeOutWorker => {println("开始了定时检测worker心跳的任务")import context.dispatcher//说明//1. 0 millis 不延时，立即执行定时器//2. 9000 millis 表示每隔3秒执行一次//3. self:表示发给自己//4. RemoveTimeOutWorker 发送的内容context.system.scheduler.schedule(0 millis, 9000 millis, self, RemoveTimeOutWorker)}//对RemoveTimeOutWorker消息处理//这里需求检测哪些worker心跳超时（now - lastHeartBeat > 6000），并从map中删除case RemoveTimeOutWorker => {//首先将所有的 workers 的 所有WorkerInfoval workerInfos = workers.valuesval nowTime = System.currentTimeMillis()//先把超时的所有workerInfo,删除即可workerInfos.filter(workerInfo => (nowTime - workerInfo.lastHeartBeat) > 6000).foreach(workerInfo => workers.remove(workerInfo.id))println("当前有 " + workers.size + " 个worker存活的")}}
}object SparkMaster {def main(args: Array[String]): Unit = {//这里我们分析出有3个host,port,sparkMasterActorif (args.length != 3) {println("请输入参数 host port sparkMasterActor名字")sys.exit()}val host = args(0)val port = args(1)val name = args(2)//先创建ActorSystemval config = ConfigFactory.parseString(s"""|akka.actor.provider="akka.remote.RemoteActorRefProvider"|akka.remote.netty.tcp.hostname=${host}|akka.remote.netty.tcp.port=${port}""".stripMargin)val sparkMasterSystem = ActorSystem("SparkMaster", config)//创建SparkMaster -actorval sparkMasterRef = sparkMasterSystem.actorOf(Props[SparkMaster], s"${name}")//启动SparkMastersparkMasterRef ! "start"}
}

定义SparkWorker类继承Actor特质，实现Receive方法，在方法中实现向master发送注册信息的请求，获取到服务端Master注册成功的消息后，定义定时任务发送心跳包给Master。

class SparkWorker(masterHost:String,masterPort:Int,masterName:String) extends Actor{//masterProxy是Master的代理/引用refvar masterPorxy :ActorSelection = _val id = java.util.UUID.randomUUID().toStringoverride def preStart(): Unit = {println("preStart()调用")//初始化masterPorxymasterPorxy = context.actorSelection(s"akka.tcp://SparkMaster@${masterHost}:${masterPort}/user/${masterName}")println("masterProxy=" + masterPorxy)}override def receive:Receive = {case "start" => {println("worker启动了")//发出一个注册消息masterPorxy ! RegisterWorkerInfo(id, 16, 16 * 1024)}case RegisteredWorkerInfo => {println("workerid= " + id + " 注册成功~")//当注册成功后，就定义一个定时器,每隔一定时间，发送SendHeartBeat给自己import context.dispatcher//说明//1. 0 millis 不延时，立即执行定时器//2. 3000 millis 表示每隔3秒执行一次//3. self:表示发给自己//4. SendHeartBeat 发送的内容context.system.scheduler.schedule(0 millis, 3000 millis, self, SendHeartBeat)}case SendHeartBeat =>{println("worker = " + id + "给master发送心跳")masterPorxy ! HeartBeat(id)}}
}object SparkWorker {def main(args: Array[String]): Unit = {if (args.length != 6) {println("请输入参数 workerHost workerPort workerName masterHost masterPort masterName")sys.exit()}val workerHost = args(0)val workerPort = args(1)val workerName = args(2)val masterHost = args(3)val masterPort = args(4)val masterName = args(5)val config = ConfigFactory.parseString(s"""|akka.actor.provider="akka.remote.RemoteActorRefProvider"|akka.remote.netty.tcp.hostname=${workerHost}|akka.remote.netty.tcp.port=${workerPort}""".stripMargin)//创建ActorSystemval sparkWorkerSystem = ActorSystem("SparkWorker",config)//创建SparkWorker 的引用/代理val sparkWorkerRef = sparkWorkerSystem.actorOf(Props(new SparkWorker(masterHost, masterPort.toInt,masterName)), s"${workerName}")//启动actorsparkWorkerRef ! "start"}
}

分别定义发送注册信息的RegisterWorkerInfo的样例类，WorkerInfo消息类，定义注册成功的消息样例对象RegisteredWorkerInfo，心跳信息样例类HeartBeat，以及确认发送心跳信息样例对象SendHeartBeat，触发超时work的样例对象StartTimeOutWorker，移除超时worker的样例对象RemoveTimeOutWorker。

代码如下：

// worker注册信息 //MessageProtocol.scala
case class RegisterWorkerInfo(id: String, cpu: Int, ram: Int)// 这个是WorkerInfo, 这个信息将来是保存到master的 hm(该hashmap是用于管理worker)
// 将来这个WorkerInfo会扩展（比如增加worker上一次的心跳时间）
class WorkerInfo(val id: String, val cpu: Int, val ram: Int) {var lastHeartBeat : Long = System.currentTimeMillis()
}// 当worker注册成功，服务器返回一个RegisteredWorkerInfo 对象
case object RegisteredWorkerInfo//worker每隔一定时间由定时器发给自己的一个消息
case object SendHeartBeat
//worker每隔一定时间由定时器触发，而向master发现的协议消息
case class HeartBeat(id: String)//master给自己发送一个触发检查超时worker的信息
case object StartTimeOutWorker
// master给自己发消息，检测worker,对于心跳超时的.
case object RemoveTimeOutWorker

运行效果：
在这里插入图片描述
通过这个案例我们可以深入理解Spark的Master和Worker的通讯机制，为了方便以后对Spark的底层源码的学习，命名的方式和源码保持一致.(如：通讯消息类命名就是一样的)；同时也加深了我们对主从服务心跳检测机制(HeartBeat)的理解，方便以后spark源码二次开发。

使用Akka的Actor模拟Spark的Master和Worker工作机制

使用Akka的Actor模拟Spark的Master和Worker工作机制 Spark的Master和Worker协调工作原理在 Apache Spark 中，Master 和 Worker 之间通过心跳机制进行通信和保持活动状态。下面是 Master 和 Worker 之间心跳机制的工作流程： Worker 启动后&#xff0c…...

编程日记 2023/9/5 7:36:20

文心一言api接入如何在你的项目里使用文心一言

文心一言api接入在项目里接入文心一言一、百度文心一言API二、使用步骤1、接口2、请求参数3、请求参数示例4、接口返回示例三、如何获取appKey和uid1、申请appKey:2、获取appKey和uid 四、重要说明一、百度文心一言API 基于百度文心一言语言大模型的智能文本对话AI机器人…...

编程日记 2023/9/5 7:35:19

Python匿名函数lambda（R与Python第五篇）

目录一、为什么要引入“lambda函数”？ 二、匿名函数的两种用法参考： 本文来源：《Python全案例学习与实践》（2019年9月出版，电子工业出版社） Python允许使用一种无名的函数，称其为匿名函数…...

编程日记 2023/9/5 7:34:16

【2023校园招聘】钉钉AI应用开发平台开始校招拉~

【岗位职责】负责钉钉AI Paas 产品化研发落地，包含但不限于： 1. 用户意图理解、任务规划、服务推荐等算法的设计和开发 2. 基于大模型落地各种落地应用，缩短大模型与真实应用场景的距离 3. 负责算法的工程化落地，包括算法的代…...

编程日记 2023/9/5 7:33:14

Linux系统gdb调试常用命令

GDB（GNU调试器）是一款常用的调试工具，用于调试C、C等编程语言的程序。以下是一些常用的GDB命令： 1. 启动程序： - gdb <executable>：启动GDB调试器，并加载可执行文件。 2. 设置断点&a…...

编程日记 2023/9/5 7:32:14

Sumo中Traci.trafficlight详解（上）

Sumo中Traci.trafficlight详解（上） 记录慢慢学习traci的每一天，希望也能帮到你文章目录 Sumo中Traci.trafficlight详解（上）Traci.trafficlight信号灯参数讲解1.getAllProgramLogics(self,tlsID)2.getBlockingVehicle…...

编程日记 2023/9/5 7:31:12

手写Mybatis：第13章-通过注解配置执行SQL语句

文章目录一、目标：注解配置执行SQL二、设计：注解配置执行SQL三、实现：注解配置执行SQL3.1 工程结构3.2 注解配置执行SQL类图3.3 脚本语言驱动器3.3.1 脚本语言驱动器接口3.3.2 XML语言驱动器 3.4 注解配置构建器3.4.1 定义增删改查注解3.4.2…...

编程日记 2023/9/5 7:30:12

spring security - 快速整合 springboot

1.引入依赖<dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><dependency><groupId>org.springframework.boot</groupId><artifactId>spr…...

编程日记 2023/9/5 7:29:10

目录 1、npm bugs 1.1 配置 browser registry 2、npm cache 2.1 概要 2.2 详情 2.3 关于缓存设计的说明 2.4 配置 cache 3、 npm ci 3.1 描述 3.2 配置 install-strategy legacy-bundling global-style omit strict-peer-deps foreground-scripts ignore-s…...

编程日记 2023/9/5 7:28:08

ctfhub ssrf（3关）

文章目录内网访问伪协议读取文件扫描端口内网访问根据该题目，是让我们访问127.0.0.1/falg.php，访问给出的链接后用bp抓包，修改URL，发送后得到flag： 伪协议读取文件这题的让我们用伪协议，而网站的目录…...

编程日记 2023/9/5 7:27:05

跨源资源共享（CORS）Access-Control-Allow-Origin

1、浏览器的同源安全策略没错，就是这家伙干的，浏览器只允许请求当前域的资源，而对其他域的资源表示不信任。那怎么才算跨域呢？ 请求协议http,https的不同域domain的不同端口port的不同好好好，大概就是这么回事啦&…...

编程日记 2023/9/5 7:26:02

【嵌入式软件开发】学习笔记

本文主要记录【嵌入式软件开发】学习笔记，参考相关大佬的文章 1.RTOS 内功修炼笔记 RTOS内功修炼记（一）—— 任务到底应该怎么写？ RTOS内功修炼记（二）—— 优先级抢占式调度到底是怎么回事？…...

编程日记 2023/9/5 7:25:01

CentOS 7上安装Python 3.11.5,支持Django

CentOS 7上安装Python 3.11.5,支持Django 今天安装django，报了“Django - deterministicTrue requires SQLite 3.8.3 or higher upon running python manage.py runserver”。查了一番资料，记录下来。参考链接： 参考链接: Django的web项目…...

编程日记 2023/9/5 7:23:59

COMPFEST 15H「组合数学+容斥」

Problem - H - Codeforces 题意： 定义一个集合S为T的孩子是，对于S中的每一个元素x，在T中都能找到x1。给定n，k，每一个集合中的元素x必须满足 1 < x < k 1<x<k 1<x<k且 c n t [ x ] < 1 cnt[x…...

编程日记 2023/9/5 7:22:58

react快速开始(三)-create-react-app脚手架项目启动；使用VScode调试react

文章目录 react快速开始(三)-create-react-app脚手架项目启动；使用VScode调试react一、create-react-app脚手架项目启动1. react-scripts2. 关于better-npm-runbetter-npm-run安装二、使用VScode调试react1. 浏览器插件React Developer Tools2. 【重点】用 VSCode …...

编程日记 2023/9/5 7:21:57

【C++入门】string类常用方法(万字详解）

目录 1.STL简介1.1什么是STL1.2STL的版本1.3STL的六大组件1.4STL的缺陷 2.string类的使用2.1C语言中的字符串2.2标准库中的string类2.3string类的常用接口说明 （只讲解最常用的接口）2.3.1string类对象的常见构造2.3.2 string类对象的容量操作2.3.3string…...

编程日记 2023/9/5 7:20:56

大数据错误

question1 : Could not locate Hadoop executable: D:\hadoop-3.3.1\bin\winutils.exe - 【已解决】Could not locate executable E:\Hadoop\bin\winutils.exe in the Hadoop binaries._could not locate executable e:\hadoop-3.3.1\bin\wi_君问归期魏有期的博客-CSDN博客 q…...

编程日记 2023/9/5 7:19:54

【Node.js】Express-Generator：快速生成Express应用程序的利器

在Node.js世界中，Express是一个广泛使用的、强大的Web应用程序框架。它为开发者提供了一系列的工具和选项，使得创建高效且可扩展的Web应用程序变得轻而易举。然而，对于初学者来说，配置和初始化Express应用程序可能会有些困难。为了…...

编程日记 2023/9/5 7:18:53

SpringMVC的工作流程及入门

目录一、概述 ( 1 ) 是什么 ( 2 ) 作用二、工作流程 ( 1 ) 流程 ( 2 ) 步骤三、入门实例 ( 1 ) 入门实例 ( 2 ) 静态资源处理给我们带来的收获一、概述 ( 1 ) 是什么 SpringMVC是一个基于Java的Web应用开发框架，它是Spring Framework的一部…...

编程日记 2023/9/5 7:17:52

logging.level的含义及设置【java 日志 (logback、log4j)】

日志级别 trace<debug<info<warn<error<fatal 常用的有：debug，info，warn，error 通常我们想设置日志级别，会用到 logging.level.rootinfo logging.level设置日志级别，后面跟生效的区域。r…...

编程日记 2023/9/5 7:16:50

eNSP-Cloud(实现本地电脑与eNSP内设备之间通信)

说明： 想象一下，你正在用eNSP搭建一个虚拟的网络世界，里面有虚拟的路由器、交换机、电脑（PC）等等。这些设备都在你的电脑里面“运行”，它们之间可以互相通信，就像一个封闭的小王国。但是&#…...

编程新知 2026/2/8 4:37:17

JavaSec-RCE

简介 RCE(Remote Code Execution)，可以分为:命令注入(Command Injection)、代码注入(Code Injection) 代码注入 1.漏洞场景：Groovy代码注入 Groovy是一种基于JVM的动态语言，语法简洁，支持闭包、动态类型和Java互操作性&#xff0c…...

编程新知 2026/2/8 6:37:39

服务器硬防的应用场景都有哪些？

服务器硬防是指一种通过硬件设备层面的安全措施来防御服务器系统受到网络攻击的方式，避免服务器受到各种恶意攻击和网络威胁，那么，服务器硬防通常都会应用在哪些场景当中呢？ 硬防服务器中一般会配备入侵检测系统和预防系统&#x…...

编程新知 2025/11/9 19:17:07

反射获取方法和属性

Java反射获取方法在Java中，反射（Reflection）是一种强大的机制，允许程序在运行时访问和操作类的内部属性和方法。通过反射，可以动态地创建对象、调用方法、改变属性值，这在很多Java框架中如Spring和Hiberna…...

编程新知 2025/11/9 2:57:17

linux 下常用变更-8

1、删除普通用户查询用户初始UID和GIDls -l /home/ ###家目录中查看UID cat /etc/group ###此文件查看GID删除用户1.编辑文件 /etc/passwd 找到对应的行，YW343:x:0:0::/home/YW343:/bin/bash 2.将标红的位置修改为用户对应初始UID和GID： YW3…...

编程新知 2025/10/7 15:08:22

微服务商城-商品微服务

数据表 CREATE TABLE product (id bigint(20) UNSIGNED NOT NULL AUTO_INCREMENT COMMENT 商品id,cateid smallint(6) UNSIGNED NOT NULL DEFAULT 0 COMMENT 类别Id,name varchar(100) NOT NULL DEFAULT COMMENT 商品名称,subtitle varchar(200) NOT NULL DEFAULT COMMENT 商…...

编程新知 2026/1/29 18:30:30

SQL慢可能是触发了ring buffer

简介最近在进行 postgresql 性能排查的时候，发现 PG 在某一个时间并行执行的 SQL 变得特别慢。最后通过监控监观察到并行发起得时间 buffers_alloc 就急速上升，且低水位伴随在整个慢 SQL，一直是 buferIO 的等待事件，此时也没有其他会话的争抢。SQL 虽然不是高效 SQL ，但…...

编程新知 2025/10/2 9:17:52

PHP 8.5 即将发布：管道操作符、强力调试

前不久，PHP宣布了即将在 2025 年 11 月 20 日正式发布的 PHP 8.5！作为 PHP 语言的又一次重要迭代，PHP 8.5 承诺带来一系列旨在提升代码可读性、健壮性以及开发者效率的改进。而更令人兴奋的是，借助强大的本地开发环境 ServBay&am…...

编程新知 2026/1/31 8:53:50

一些实用的chrome扩展0x01

简介浏览器扩展程序有助于自动化任务、查找隐藏的漏洞、隐藏自身痕迹。以下列出了一些必备扩展程序，无论是测试应用程序、搜寻漏洞还是收集情报，它们都能提升工作流程。 FoxyProxy 代理管理工具，此扩展简化了使用代理（如 Burp…...

编程新知 2026/2/4 17:28:54

02.运算符

目录什么是运算符算术运算符 1.基本四则运算符 2.增量运算符 3.自增/自减运算符关系运算符逻辑运算符 &&：逻辑与 ||：逻辑或 ！：逻辑非短路求值位运算符按位与&： 按位或 | 按位取反~ …...

编程新知 2026/2/6 15:27:20

使用Akka的Actor模拟Spark的Master和Worker工作机制

使用Akka的Actor模拟Spark的Master和Worker工作机制

Spark的Master和Worker协调工作原理

使用Akka的Actor模拟Spark的Master和Worker工作机制

相关文章：

使用Akka的Actor模拟Spark的Master和Worker工作机制

文心一言api接入如何在你的项目里使用文心一言

Python匿名函数lambda（R与Python第五篇）

【2023校园招聘】钉钉AI应用开发平台开始校招拉~

Linux系统gdb调试常用命令

Sumo中Traci.trafficlight详解（上）

手写Mybatis：第13章-通过注解配置执行SQL语句

spring security - 快速整合 springboot

NPM 常用命令（二）

ctfhub ssrf（3关）

跨源资源共享（CORS）Access-Control-Allow-Origin

【嵌入式软件开发】学习笔记

CentOS 7上安装Python 3.11.5,支持Django

COMPFEST 15H「组合数学+容斥」

react快速开始(三)-create-react-app脚手架项目启动；使用VScode调试react

【C++入门】string类常用方法(万字详解）

大数据错误

【Node.js】Express-Generator：快速生成Express应用程序的利器

SpringMVC的工作流程及入门

logging.level的含义及设置【java 日志 (logback、log4j)】

eNSP-Cloud(实现本地电脑与eNSP内设备之间通信)

JavaSec-RCE

服务器硬防的应用场景都有哪些？

反射获取方法和属性

linux 下常用变更-8

微服务商城-商品微服务

SQL慢可能是触发了ring buffer

PHP 8.5 即将发布：管道操作符、强力调试

一些实用的chrome扩展0x01

02.运算符