当前位置：首页 > news >正文

搭建分布式Spark集群

news 2026/5/16 0:04:13

title: 搭建分布式Spark集群
date: 2024-11-29 12:00:00
categories: 
- 服务器
tags:
- Spark
- 大数据

搭建分布式Spark集群

本次实验环境：Centos 7-2009、Hadoop-3.1.4、JDK 8、Zookeeper-3.6.3、scala-2.11.5、Spark-3.2.1

功能规划

Master	Slave1	Slave2
主节点(master)	工作节点(worker)	工作节点(worker)
192.168.66.6	192.168.66.7	192.168.66.21

前提

因Spark是基于Scala语言开发的，而Scala语言是基于JAVA语言开发的；故需要先配置好两种语言的环境

因Spark工作中需要Hadoop集群；故需要先搭建好Hadoop集群，并启动

准备工作

1. 解压Scala

首先上传Scala的文件到服务器上

# 解压文件到指定目录
tar -zxvf scala-2.11.5.tgz -C /opt/module/#  重命名文件夹
mv /opt/module/scala-2.11.5/ /opt/module/scala

2. 配置用户环境变量

cat >>  ~/.bashrc << "EOF"# ------------------- Scala 配置--------------------
# 设置Scala环境变量，指向Scala安装目录
export SCALA_HOME=/opt/module/scala# 将Scala的bin目录添加到PATH环境变量
export PATH=$PATH:$SCALA_HOME/bin
# -------------------------------------------------
EOF

-----------------------------------------------------------说明举例   export PATH=$SCALA_HOME/bin:$PATH英文冒号代表分隔这段代码表示
1. 当你输入一个命令时，shell会首先在"SCALA_HOME"这个变量的"bin"子目录中查找，
2. 最后，若找不到，则在"PATH"的指定目录中查找-------------------------------------------------------------

开始安装

3. 解压Spark

首先上传Spark的文件到服务器上，或直接进行以下的下载行为

# 使用wget命令下载Spark文件(二选一)
wget -P /tmp/ -c 'https://repo.huaweicloud.com/artifactory/apache-local/spark/spark-3.2.1/spark-3.2.1-bin-hadoop2.7.tgz'# 使用curl命令下载Spark文件(二选一)
curl -C - 'https://repo.huaweicloud.com/artifactory/apache-local/spark/spark-3.2.1/spark-3.2.1-bin-hadoop2.7.tgz' -O /tmp/# 解压文件到指定目录
tar -zxvf /tmp/spark-3.2.1-bin-hadoop2.7.tgz -C /opt/module/#  重命名文件夹
mv /opt/module/spark-3.2.1-bin-hadoop2.7 /opt/module/spark

4. 配置用户环境变量

cat >>  ~/.bashrc << "EOF"
# ------------------- Spark 配置--------------------
# 设置Spark环境变量，指向Spark安装目录
export SPARK_HOME=/opt/module/spark# 将Spark的bin目录添加到PATH环境变量
export PATH=$PATH:$SPARK_HOME/bin
# -------------------------------------------------
EOF

-----------------------------------------------------------说明举例   export PATH=$SPARK_HOME/bin:$PATH英文冒号代表分隔这段代码表示
1. 当你输入一个命令时，shell会首先在"SPARK_HOME"这个变量的"bin"子目录中查找，
2. 最后，若找不到，则在"PATH"的指定目录中查找-------------------------------------------------------------

5. 编写spark主节点的配置文件

# 进入spark配置目录
cd /opt/module/spark/conf# 复制spark-env.sh模板
cp spark-env.sh.template spark-env.sh

根据自己节点的信息，或者查看~/.bashrc，修改下面各项的内容，随后复制粘贴即可

cat >> spark-env.sh << "EOF"
# 配置Spark主节点的IP或主机名
export SPARK_MASTER_IP=master
# 配置Scala的家目录
export SCALA_HOME=/opt/module/scala
# 配置Spark工作节点的内存大小
export SPARK_WORKER_MEMORY=4g
# 配置JAVA的家目录
export JAVA_HOME=/opt/module/jdk1.8.0_202
# 配置Hadoop的家目录
export HADOOP_HOME=/opt/module/hadoop-3.1.4
# 配置Hadoop的配置目录
export HADOOP_CONF_DIR=/opt/module/hadoop-3.1.4/etc/hadoop
EOF

6. 编写spark工作节点的配置文件

# 复制workers模板
cp workers.template workers

根据自己工作节点的信息，修改下面的内容，随后复制粘贴即可

# 清空工作节点原本的信息——即删除这个文件的最后一行
sed -i '$d' workers# 配置工作节点
cat >> workers << EOF
slave1
slave2
EOF

7. 同步文件

# 同步到slave1机器
scp -r /opt/module/scala/ slave1:/opt/module/
scp -r /opt/module/spark/ slave1:/opt/module/
scp  ~/.bashrc root@slave1:/root# 同步到slave2机器
scp -r /opt/module/scala/ slave2:/opt/module/
scp -r /opt/module/spark/ slave2:/opt/module/
scp  ~/.bashrc root@slave2:/root

8. 环境变量生效

# master节点环境变量生效
source  ~/.bashrc# slave1节点环境变量生效
ssh slave1 'source  ~/.bashrc'# slave2节点环境变量生效
ssh slave2 'source  ~/.bashrc'

安装结束

9. 启动Spark集群

$SPARK_HOME/sbin/start-all.sh

10. 查看Spark进程

master会有Master的进程
slave1会有Worker的进程
slave2会有Worker的进程

# 命令
jps

11. 浏览器访问

访问Spark，地址：http://192.168.66.6:端口#端口详情
4040：这是Spark UI的默认端口，用于监控和查看Spark应用的状态。
7077：这是StandAlone模式下Spark Master服务的默认端口。
8080：这是Spark Master的Web UI端口，用于查看集群状态。
8081：这是Spark Worker的Web UI端口，用于查看单个工作节点的状态。这个地址是master的IP地址

12. 停止Spark集群

$SPARK_HOME/sbin/stop-all.sh

参考文档

大数据分布式集群搭建详细步骤（Spark的安装与配置）_spark分布式集群部署及ha配置-CSDN博客
【Spark】Windows下安装Spark（亲测成功安装）_windows安装spark-CSDN博客
Apache Spark 3.2.1安装教程-百度开发者中心

搭建分布式Spark集群

title: 搭建分布式Spark集群 date: 2024-11-29 12:00:00 categories: - 服务器 tags: - Spark - 大数据搭建分布式Spark集群本次实验环境：Centos 7-2009、Hadoop-3.1.4、JDK 8、Zookeeper-3.6.3、scala-2.11.5、Spark-3.2.1 功能规划 MasterSlave1Slave2主节点…...

编程日记 2024/12/21 13:13:11

Django基础 - 01入门简介

一、基本概念 1.1 Django说明 Django发布于2005年， 网络框架， 用Python编写的开源的Web应用框架。采用了MVC框架模式，也称为MTV模式。官网： https://www.djangoproject.com1.2 MVC框架 Model： 封装和数据库相关…...

编程日记 2024/12/21 13:11:09

简单的bytebuddy学习笔记

简单的bytebuddy学习笔记此笔记对应b站bytebuddy学习视频进行整理，此为视频地址，此处为具体的练习代码地址一、简介 ByteBuddy是基于ASM (ow2.io)实现的字节码操作类库。比起ASM，ByteBuddy的API更加简单易用。开发者无需了解class file …...

编程日记 2024/12/21 13:10:07

【服务端】Redis 内存超限问题的深入探讨

在 Java 后端开发中，Redis 内存超限是一个常见的问题，可能由多种原因引起。理解这些原因以及如何处理已经超出限制的数据对于保持系统的稳定性和性能至关重要。一、Redis 内存超限的原因分析 Redis 是一个高性能的内存键值对存储系统，它在…...

编程日记 2024/12/21 13:08:04

Springboot logback 日志打印配置文件,每个日志文件100M,之后滚动到下一个日志文件,日志保留30天(包含traceid)

全部配置 logback.xml <?xml version"1.0" encoding"UTF-8"?> <configuration debug"false"><property name"LOG_HOME" value"log"/><property name"LOG_NAME" value"admin"/&g…...

编程日记 2024/12/21 13:07:04

《计算机组成及汇编语言原理》阅读笔记：p1-p8

《计算机组成及汇编语言原理》学习第 1 天，p1-p8 总结，总计 8 页。一、技术总结 1.Intel 8088 microprocessor(微处理器)， 1979-1988。 2.MS-DOS Microsoft Disk Operating System的缩写，是一个操作系统(operating system)。…...

编程日记 2024/12/21 13:01:59

【游戏中orika完成一个Entity的复制及其Entity异步落地的实现】 1.ctrl+shift+a是飞书下的截图 2.落地实现

一、orika工具使用 1)工具类 package com.xinyue.game.utils;import ma.glasnost.orika.MapperFactory; import ma.glasnost.orika.impl.DefaultMapperFactory;/*** author 王广帅* since 2022/2/8 22:37*/ public class XyBeanCopyUtil {private static MapperFactory mappe…...

编程日记 2024/12/21 13:00:58

在 Ubuntu 上安装 MySQL 的详细指南

在Ubuntu环境中安装 mysql-server 以及 MySQL 开发包（包括头文件和动态库文件），并处理最新版本MySQL初始自动生成的用户名和密码，可以通过官方的APT包管理器轻松完成。以下是详细的步骤指南，包括从官方仓库和MySQL官方…...

编程日记 2024/12/21 12:58:56

Java 优化springboot jar 内存年轻代和老年代的比例减少垃圾清理耗时如调整 -XX:NewRatio

-XX:NewRatio 是 Java Virtual Machine (JVM) 的一个选项，用于调整年轻代（Young Generation）和老年代（Old Generation）之间的内存比例。 1. 含义 XX:NewRatioN 用于指定老年代与年轻代的内存比例。 N 的含义&…...

编程日记 2024/12/21 12:55:53

嵌入式驱动RK3566 HDMI eDP MIPI 背光屏幕选型与调试提升篇-eDP屏

eDP是嵌入式显示端口，具有高数据传输速率，高带宽，高分辨率、高刷新率、低电压、简化接口数量等特点。现大多数笔记本电脑都是用的这种接口。整个eDP是很复杂的，这里我们不讲底层原理，我们先掌握如何用泰山派来驱动各种…...

编程日记 2024/12/21 12:51:50

在Java虚拟机（JVM）中，方法可以分为虚方法和非虚方法。

在Java虚拟机（JVM）中，方法可以分为虚方法和非虚方法。以下是关于这两种方法的详细解释：一、虚方法（Virtual Method）定义：虚方法是指在运行时由实例的实际类型决定的方法。在Java中，所有的非私有、非静态、非final方法都是虚方法。当调用一个虚方法时，JVM会根据实…...

编程日记 2024/12/21 12:43:42

【windows】sonarqube起不来的问题解决

1. 现象与本质因JDK的问题（比如版本太低或者太高,推荐JDK17）或者其他环境因素，导致sonarqube启动后自动关闭了。从日志来看，根本看不出来什么，只有警告，没有ERROR，警告也不是本质问题&#…...

编程日记 2024/12/21 12:34:31

golang异常

panic如果不处理会导致应用进程挂掉 defer recover可以处理这种情况一个recover只处理自己协程产生panic的情况空指针数组越界空map中添加键值对错误，error接口，不严重 error.wrapof解决嵌套问题或者error.unwrap erroe.is方法，判断是…...

编程日记 2024/12/21 12:31:27

搭建MongoDB

title: 搭建MongoDB date: 2024-11-30 23:30:00 categories: - 服务器 tags: - MongoDB - 大数据搭建MongoDB 环境：Centos 7-2009 1. 创建MongoDB的国内yum源 # 下载Centos7对应最新版7.0.15的安装包 cat >> /etc/yum.repos.d/mongodb.repo << &quo…...

编程日记 2024/12/21 12:30:25

Android中坐标体系知识超详细讲解

说来说去都不如画图示意简单易懂啊！！！真是的！ 来吧先上张图！ （一）首先明确一下android 中的坐标系统： 屏幕的左上角是坐标系统原点（0,0） 原点向右延伸是X轴正…...

编程日记 2024/12/21 12:29:24

不需要服务器，使用netlify快速部署自己的网站

Netlify简介 1.1 Netlify的功能与特点 Netlify 是一个功能强大的静态网站托管平台，它不仅提供了简单的网站部署功能，还集成了许多现代化的开发工具和服务，帮助开发者更高效地构建、部署和管理网站。Netlify 的核心功能包括： 自动…...

编程日记 2024/12/21 12:20:14

Swin transformer 论文阅读记录代码分析

该篇文章，是我解析 Swin transformer 论文原理（结合pytorch版本代码）所记，图片来源于源paper或其他相应博客。代码也非原始代码，而是从代码里摘出来的片段，配上简单数据，以便理解。当然&…...

编程日记 2024/12/21 12:19:13

信息安全概论

文章目录预测题重要考点1.遇到什么威胁有什么漏洞怎么缓解分析题2.网络安全现状分析 2.网络安全亮点时间信息安全概论期末简答题软件学院实验室服务器安全风险分析与PDRR策略 1.1 信息时代的特点1.2 信息安全威胁1.3信息安全趋势1.4 研究网络与信息安全的意义2.1安全风险分析…...

编程日记 2024/12/21 12:13:08

2024年12月16日Github流行趋势

项目名称：PDFMathTranslate 项目维护者：Byaidu reycn hellofinch Wybxc YadominJinta项目介绍：基于 AI 完整保留排版的 PDF 文档全文双语翻译，支持 Google/DeepL/Ollama/OpenAI 等服务，提供 CLI/GUI/Docker。项目star数…...

编程日记 2024/12/21 12:08:03

Go 1.24即将到来！

Go 1.24 尚未发布。以下是正在撰写中的发布说明，预计 Go 1.24 将于 2025 年 2 月发布。语言改进 Go 1.24 现在全面支持泛型类型别名：类型别名可以像定义类型一样被参数化。详情请参阅语言规范。目前，可通过设置 GOEXPERIMENTnoaliastypep…...

编程日记 2024/12/21 12:01:58

从零打造互动徽章：激光切割与电容触摸的软硬件融合实践

1. 项目概述与核心思路如果你参加过技术大会或者创客市集，一定对那些闪烁着酷炫灯光、能与人互动的徽章印象深刻。这类被称为“Badge”的可穿戴设备，早已超越了单纯的身份标识功能，成为了展示技术、创意和社群文化的微型平台。今天要分享的&a…...

编程新知 2026/5/15 23:48:20

长期使用Taotoken聚合API对项目运维复杂度的简化感受

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度长期使用Taotoken聚合API对项目运维复杂度的简化感受作为项目维护者，我们团队在过去一段时间里，将多个大模…...

编程新知 2026/5/15 23:46:18

AMD Ryzen终极调试指南：7步解锁SMUDebugTool硬件级控制

AMD Ryzen终极调试指南：7步解锁SMUDebugTool硬件级控制【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: https://g…...

编程新知 2026/5/15 23:41:54

3种方法解决Windows外接显示器亮度控制难题：Twinkle Tray技术深度解析

3种方法解决Windows外接显示器亮度控制难题：Twinkle Tray技术深度解析【免费下载链接】twinkle-tray Easily manage the brightness of your monitors in Windows from the system tray 项目地址: https://gitcode.com/gh_mirrors/tw/twinkle-tray 对于Wind…...

编程新知 2026/5/15 23:06:05