当前位置：首页 > news >正文

Spark的安装配置及集群搭建

news 2025/11/5 22:43:07

Spark的本地安装配置：

我们用scala语言编写和操作spark，所以先要完成scala的环境配置

1、先完成Scala的环境搭建

下载Scala插件，创建一个Maven项目，导入Scala依赖和插件

scala依赖

<dependency><groupId>org.scala-lang</groupId><artifactId>scala-library</artifactId><version>2.11.12</version></dependency><dependency><groupId>org.scala-lang</groupId><artifactId>scala-compiler</artifactId><version>2.11.12</version></dependency><dependency><groupId>org.scala-lang</groupId><artifactId>scala-reflect</artifactId><version>2.11.12</version></dependency>

scala插件

<build><plugins><plugin><groupId>org.scala-tools</groupId><artifactId>maven-scala-plugin</artifactId><version>2.15.2</version><executions><execution><goals><goal>compile</goal><goal>testCompile</goal></goals></execution></executions></plugin></plugins></build>

2、导入spark-core依赖

<!--导入spark-core依赖--><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.11</artifactId><version>2.4.5</version></dependency>

3、使用spark-->(代码操作)

以下是用spark处理单词统计任务

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}object Demo1WordCount {def main(args: Array[String]): Unit = {//1、创建spark的执行环境val conf = new SparkConf()//设置运行模式conf.setMaster("local")conf.setAppName("wc")val sc = new SparkContext(conf)//2、读取数据//RDD:弹性的分布式数据集（相当于List）val linesRDD: RDD[String] = sc.textFile("data/lines.txt")//一行转换多行val wordsRDD: RDD[String] = linesRDD.flatMap(_.split(","))val kvRD: RDD[(String, Int)] = wordsRDD.map(word => (word, 1))//统计单词的数量val countRDD: RDD[(String, Int)] = kvRD.reduceByKey((x, y) => x + y)//保存结果countRDD.saveAsTextFile("data/word_count")}
}

搭建Spark独立集群：

## 1、独立集群> Spark自己搭建一个资源管理框架，不依赖yarn### 1、上传解压配置环境变量```shell
# 家业安装包
tar -xvf spark-3.1.3-bin-hadoop3.2.tgz -C /usr/local/soft
# 重命名解压目录
mv spark-3.1.3-bin-hadoop3.2/ spark-3.1.3# 配置环境变量
vim /etc/profileexport SPARK_HOME=/usr/local/soft/spark-3.1.3
export PATH=$PATH:$SPARK_HOME/binsource  /etc/profile
```### 2、修改配置文件```shell
# 1、修改spark-env.sh
cd /usr/local/soft/spark-3.1.3/conf/
mv spark-env.sh.template spark-env.sh
# 在spark-env.sh中增加配置
export HADOOP_CONF_DIR=/usr/local/soft/hadoop-3.1.1/etc/hadoop
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=2
export SPARK_WORKER_MEMORY=4G
export JAVA_HOME=/usr/local/soft/jdk1.8.0_171# 2、修改workers
mv workers.template workers# 增加配置
node1
node2# 3、同步到所有节点
cd /usr/local/soft/
scp -r spark-3.1.3/ node1:`pwd`
scp -r spark-3.1.3/ node2:`pwd`
```### 3、启动集群```shell
# 启动集群
cd /usr/local/soft/spark-3.1.3/sbin
./start-all.sh # spark webUI
http://master:8080
```### 4、提交任务```shell
# 进入样例代码所在的目录
/usr/local/soft/spark-3.1.3/examples/jars# 提交任务
spark-submit --master spark://master:7077 --class org.apache.spark.examples.SparkPi spark-examples_2.12-3.1.3.jar 100# 代码提交到集群运行方式
#1、注释local
#2、修改数据路径，改成HDFS的路径，输入输出目录都需要修改i
#3、将代码打包上传到服务器运行
# 提交任务
spark-submit --master spark://master:7077 --class com.company.core.Demo15Submit spark-1.0-SNAPSHOT.jar
```## 2、Spark on Yarn> yarn是一个分布式资源管理管家，负责管理集群的CPU和内存### 1、关闭独立集群```shell
# 进入spark脚本目录
cd /usr/local/soft/spark-3.1.3/sbin
./stop-all.sh
```### 2、启动hadoop```shell
start-all.sh
```### 3、提交任务```shell
# --num-executors 2: 指定Executor的数量
# --executor-cores 1 : 指定executor的核数
# --executor-memory 2G ：指定executoe的内存# yarn client模式
# 1、会在本地打印详细的执行日志，可以看到全部执行错误日志
# 2、一般用于测试使用，如果大量的任务都使用client模式去提交，会导致本地节点压力大
# 3、client模式Driver、在本地启动，所以再本地可以看详细日志
spark-submit --master yarn --deploy-mode client --num-executors 2 --executor-cores 1 --executor-memory 2G --class com.company.core.Demo15Submit spark-1.0-SNAPSHOT.jar# yarn cluster模式
# 1、在本地不打印详细的执行日志，只能看到部分错误日志
# 2、任务执行报错会重试一次
# 3、一般用于上线使用，Driver是随机节点，不会导致某一个系欸但压力大
# 4、Driver不在本地启动，所在再本地看不到详细日志
spark-submit --master yarn --deploy-mode cluster  --num-executors 2 --executor-cores 1 --executor-memory 2G  --class com.company.core.Demo15Submit spark-1.0-SNAPSHOT.jar# 获取yarn任务的详细日志
yarn logs -applicationId  [appid]spark-submit --master yarn --deploy-mode client  --class org.apache.spark.examples.SparkPi spark-examples_2.12-3.1.3.jar 100
```

Spark的安装配置及集群搭建

Spark的本地安装配置： 我们用scala语言编写和操作spark，所以先要完成scala的环境配置 1、先完成Scala的环境搭建下载Scala插件，创建一个Maven项目，导入Scala依赖和插件 scala依赖 <dependency><groupId>org.scal…...

编程日记 2024/10/18 6:00:11

网络编程基础-IO模型深入理解

一、IO的基本概念什么是IO？ I/O就是计算机内存与外部设备之间拷贝数据的过程什么是网络IO？ 网络IO是指在计算机网络环境中进行的输入和输出操作，涉及数据在网络设备之间的传输。网络IO操作可以是发送请求、接收响应、下载文件、传输数…...

编程日记 2024/10/18 5:55:08

go 语言学习路线图（一）

1. Go语言简介 Go语言的历史背景和设计理念Go的优势：简洁、高效、并发支持强Go的应用场景：微服务、云计算、系统编程 2. 开发环境设置安装Go语言开发环境在Windows、macOS、Linux系统上的安装方法配置环境变量：GOROOT 和 GOPATH验证安装…...

编程日记 2024/10/18 5:54:07

前端自动化部署，Netlify免费满足你

1 Netlify 介绍为什么推荐 Netliy ， 主要还是穷，Netlify 免费太香了 Netlify you优势100GB 内免费 ，满足个人日常需求，操作,兼容性绑定代码仓库，提交代码自动部署支持 github , gitlab 等大多常用代码仓库易操作只…...

编程日记 2024/10/18 5:53:06

Linux的开发工具gcc Makefile gdb的学习

一：gcc/g 1. 1 背景知识 1. 预处理（进行宏替换) 预处理 ( 进行宏替换 ) 预处理功能主要包括宏定义,文件包含,条件编译,去注释等。预处理指令是以#号开头的代码行。实例: gcc –E hello.c –o hello.i 选项“-E”,该选项的作用是让 gcc 在预处理结…...

编程日记 2024/10/18 5:51:03

基于SSM出租车管理系统的设计

管理员账户功能包括：系统首页，个人中心，车辆管理，驾驶员管理，基础数据管理，公告管理驾驶员账号功能包括：系统首页，学生管理，车辆管理，公告管理开发系统&a…...

编程日记 2024/10/18 5:50:02

iPhone照片内存怎么清理，参考这些方法

随着拍摄数量的增加，许多iPhone用户常常发现自己的手机存储空间不足，而照片无疑是占用空间的罪魁祸首之一。清理这些照片不仅能释放存储空间，还能提升设备的运行速度。小编将分享一些iPhone照片内存怎么清理的高效策略，助你告别冗…...

编程日记 2024/10/18 5:49:01

【Triton教程】向量相加

Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境，以高效编写自定义 DNN 计算内核，并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →https://triton.hyper.ai/ 在本教程中，你将使…...

编程日记 2024/10/18 5:46:58

关于CSS中毛玻璃和滤镜使用总结

【1】毛玻璃毛玻璃效果（也称为磨砂玻璃效果）可以通过 CSS 的 backdrop-filter 属性来实现。这个属性允许你在背景上应用各种滤镜效果，从而创建出类似磨砂玻璃的效果。这种效果通常用于创建半透明背景下的模糊效果，使得背景图像或…...

编程日记 2024/10/18 5:45:56

陷入产出危机的我聊聊近况

文章目录前言我的多重身份作为IT网管作为运维人员作为Web开发人员作为游戏开发人员总结前言在总结文章时，我把自己当做一个内容产出者，当这样一个身份进入每天按部就班的平稳状态时会陷入一种焦虑，产生一种居然没有什么可写的感觉&#…...

编程日记 2024/10/18 5:44:55

HarmonyOS 开发知识总结

1. HarmonyOS 开发知识总结 1.1. resources->base->media中不可以新建文件夹？ 项目图片路径resources->base->media中不可以新建文件夹，图片全平级放里面，查找图片不方便，有没有什么其他的办法解决这个难点&#xff…...

编程日记 2024/10/18 5:43:54

[WPF初学到大神] 1. 什么是WPF, MVVM框架, XAML?

什么是WPF? WPF(Windows Presentation Foundation) 包含XAML标记语言和后端代码来开发桌面应用程序的. 用VS新建项目有WPF(.Net Framework和.Net应用程序), 该怎么选? 首选 .NET 应用程序（.NET Core 或 .NET 5/6/7/8新版本）拥有更好的性能、跨平台Windows, Linux, Mac支…...

编程日记 2024/10/18 5:42:54

matlab怎样自动搜索文件夹中的所有txt文件，并将每个txt文件中的数据存放到一个cell数组中——MATLAB批量处理数据

在使用MATLAB批量处理数据时，有时候需要自动搜索文件夹中的所有txt文件，并将每个txt文件中的数据存放到一个以一定规律命名的变量中，以便于后续通过循环处理每个变量数据。然而，MATLAB并不支持在变量名中直接使用i来动态生成变量…...

编程日记 2024/10/18 5:41:53

LabVIEW智能可变温循环PCT测试系统

随着全球能源危机的加剧和环境保护需求的提升，开发和利用清洁能源已成为全球必然趋势。氢能作为一种高效的替代能源，正逐步受到关注。然而，储氢技术的研究至关重要，尤其是储氢材料的PCT（Pressure-Composition-Temperat…...

编程日记 2024/10/18 5:38:50

SparkSQL整合Hive

spark-sql可以直接使用hive的元数据 1、环境搭建如下： ## 1、启动hive的元数据服务shell # 1、修改hive的配置文件 cd /usr/local/soft/hive-3.1.3/conf# 2、增加配置 vim hive-site.xml<property> <name>hive.metastore.uris</name> <value…...

编程日记 2024/10/18 5:37:49

Vue 3 和 Vue 2区别

Vue 3 是 Vue 2 的全新升级版本，引入了诸多新的特性，并在性能、开发体验、响应式系统等多个方面进行了改进。以下是 Vue 2 和 Vue 3 的详细对比： 1. 生命周期钩子差异 Vue 3 保留了大部分 Vue 2 的生命周期钩子，但部分名称有所调…...

编程日记 2024/10/18 5:36:48

React.memo和useMemo

React.memo和usememo React.memo React.memo是一个高阶组件，对组件进行性能优化，主要用于优化函数组件的性能，如果一个组件在相同的props下渲染出相同的结果，但是又不需要在组件更新的时候重新渲染，就可以使用react.…...

编程日记 2024/10/18 5:33:46

Android中实现网络请求的方式有哪些？

在Android开发中，实现网络请求是开发过程中不可避免的一部分。随着技术的不断发展，Android中出现了多种实现网络请求的方式，每种方式都有其独特的优缺点。一、HttpURLConnection HttpURLConnection是Java提供的用于发送HTTP请求的标准类&a…...

编程日记 2024/10/18 5:32:45

安卓13usb触摸唤醒系统 android13触摸唤醒

总纲 android13 rom 开发总纲说明文章目录 1.前言2.问题分析3.代码分析4.代码修改5.编译6.彩蛋1.前言 android13在待机后，需要能够使用触摸屏去唤醒我们的系统，这就需要我们修改系统的相关配置了。 2.问题分析对于这个问题，我们需要知道安卓的事件分发，通过事件分发，…...

编程日记 2024/10/18 5:31:44

c++常用库函数

一.sort排序快排的改进算法，评价复杂度为(nlogn). 1.用法 sort(起始地址，结束地址下一位，*比较函数) [起始地址，结束地址) (左开右闭) #include<bits/stdc.h> using namespace std; int main() {//sortvector<int&g…...

编程日记 2024/10/18 5:30:43

JavaSec-RCE

简介 RCE(Remote Code Execution)，可以分为:命令注入(Command Injection)、代码注入(Code Injection) 代码注入 1.漏洞场景：Groovy代码注入 Groovy是一种基于JVM的动态语言，语法简洁，支持闭包、动态类型和Java互操作性&#xff0c…...

编程新知 2025/11/3 2:17:38

Java 语言特性(面试系列1)

一、面向对象编程 1. 封装（Encapsulation） 定义：将数据（属性）和操作数据的方法绑定在一起，通过访问控制符（private、protected、public）隐藏内部实现细节。示例： public …...

编程新知 2025/10/6 4:03:40

rknn优化教程（二）

文章目录 1. 前述2. 三方库的封装2.1 xrepo中的库2.2 xrepo之外的库2.2.1 opencv2.2.2 rknnrt2.2.3 spdlog 3. rknn_engine库 1. 前述 OK，开始写第二篇的内容了。这篇博客主要能写一下： 如何给一些三方库按照xmake方式进行封装，供调用如何按…...

编程新知 2025/6/11 15:25:30

Objective-C常用命名规范总结

【OC】常用命名规范总结文章目录【OC】常用命名规范总结1.类名（Class Name)2.协议名（Protocol Name)3.方法名（Method Name)4.属性名（Property Name）5.局部变量/实例变量（Local / Instance Variables&…...

编程新知 2025/10/5 6:41:51

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院挂号小程序

一、开发准备环境搭建： 安装DevEco Studio 3.0或更高版本配置HarmonyOS SDK申请开发者账号项目创建： File > New > Create Project > Application (选择"Empty Ability") 二、核心功能实现 1. 医院科室展示 /…...

编程新知 2025/9/5 12:16:40

剑指offer20_链表中环的入口节点

链表中环的入口节点给定一个链表，若其中包含环，则输出环的入口节点。若其中不包含环，则输出null。数据范围节点 val 值取值范围 [ 1 , 1000 ] [1,1000] [1,1000]。节点 val 值各不相同。链表长度 [ 0 , 500 ] [0,500] [0,500]。 …...

编程新知 2025/10/30 13:53:32

Pinocchio 库详解及其在足式机器人上的应用

Pinocchio 库详解及其在足式机器人上的应用 Pinocchio (Pinocchio is not only a nose) 是一个开源的 C 库，专门用于快速计算机器人模型的正向运动学、逆向运动学、雅可比矩阵、动力学和动力学导数。它主要关注效率和准确性，并提供了一个通用的框架&…...

编程新知 2025/10/30 3:23:02

C++.OpenGL （14/64）多光源（Multiple Lights）

多光源（Multiple Lights）多光源渲染技术概览 #mermaid-svg-3L5e5gGn76TNh7Lq {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-3L5e5gGn76TNh7Lq .error-icon{fill:#552222;}#mermaid-svg-3L5e5gGn76TNh7Lq .erro…...

编程新知 2025/6/11 3:15:20

LINUX 69 FTP 客服管理系统 man 5 /etc/vsftpd/vsftpd.conf

FTP 客服管理系统实现kefu123登录，不允许匿名访问，kefu只能访问/data/kefu目录，不能查看其他目录创建账号密码 useradd kefu echo 123|passwd -stdin kefu [rootcode caozx26420]# echo 123|passwd --stdin kefu 更改用户 kefu 的密码…...

编程新知 2025/10/26 14:58:46

安全突围：重塑内生安全体系：齐向东在2025年BCS大会的演讲

文章目录前言第一部分：体系力量是突围之钥第一重困境是体系思想落地不畅。第二重困境是大小体系融合瓶颈。第三重困境是“小体系”运营梗阻。第二部分：体系矛盾是突围之障一是数据孤岛的障碍。二是投入不足的障碍。三是新旧兼容难的障碍。第三部分&am…...

编程新知 2025/10/26 13:12:06

Spark的本地安装配置：

1、先完成Scala的环境搭建

2、导入spark-core依赖

3、使用spark-->(代码操作)

搭建Spark独立集群：

相关文章：