当前位置：首页 > news >正文

在IDEA运行spark程序（搭建Spark开发环境）

news 2025/11/9 0:56:58

建议大家写在Linux上搭建好Hadoop的完全分布式集群环境和Spark集群环境，以下在IDEA中搭建的环境仅仅是在window系统上进行spark程序的开发学习，在window系统上可以不用安装hadoop和spark，spark程序可以通过pom.xml的文件配置，添加spark-core依赖，可以直接在IDEA中编写spark程序并运行结果。

一、相关软件的下载及环境配置

1.jdk的下载安装及环境变量配置（我选择的版本是jdk8.0（即jdk1.8），建议不要使用太高版本的，不然配置pom.xml容易报错）

链接：https://pan.baidu.com/s/1deXf6pgMiRca1O724fUOxg
提取码：sxuy

双击安装包，一直“Next”即可，最好不要安装到C盘，中间修改一下安装路径即可，最后点击“Finish”。我将jdk1.8安装在了D盘目录下的soft文件夹，bin路径如下：

配置环境变量：

win+R打开命令窗口输入：javac -verison ，进行检测是否成功配置环境变量：

2.IDEA的下载安装（我选择的版本是2019.2.3，建议选择低版本的IDEA）

官网下载地址：IntelliJ IDEA – 领先的 Java 和 Kotlin IDE (jetbrains.com.cn)

3.scala的下载（我选择的版本是2.12.15）安装及环境变量的配置

官网下载地址：The Scala Programming Language (scala-lang.org)

双击打开下载好的安装程序，一直“Next”即可，最好不要安装到C盘，中间修改一下安装路径即可，最后点击“Finish”。我将scala软件安装在了D盘目录下的Develop文件夹，bin路径如下：

配置scala的系统环境变量，将scala安装的bin目录路径加入到系统环境变量path中：

win+R打开命令窗口输入：scala -verison ，进行检测是否成功配置环境变量：

4.scala插件（版本要与IDEA版本保持一致，下载2019.2.3版本）的下载安装

官网地址：Scala - IntelliJ IDEs Plugin | Marketplace

下载完成后，将下载的压缩包解压到IDEA安装目录下的plugins目录下：

5.maven的下载（我选择的版本是3.5.4）与安装，系统环境变量的配置

官网地址:Maven – Download Apache Maven

将对应版本的压缩包下载到本地,并新建一个文件夹Localwarehouse，用来保存下载的依赖文件

配置maven的系统环境配置，跟以上配置的方法一样，将bin目录地址写入path环境变量：

打开maven安装包下的conf文件夹下面的settings.xml,添加如下代码：

<localRepository>D:\\Develop\\maven\\Localwarehouse</localRepository>

添加如下代码用来配置jdk版本：

   <profile><id>jdk-1.8.0</id><activation><activeByDefault>true</activeByDefault><jdk>1.8.0</jdk></activation><properties><maven.compiler.source>1.8.0</maven.compiler.source><maven.compiler.target>1.8.0</maven.compiler.target><maven.compiler.compilerVersion>1.8.0</maven.compiler.compilerVersion></properties></profile>

二、将maven加载到IDEA中

三、检测scala插件是否在IDEA中已经安装成功

四、用maven新建一个工程项目

五、配置pom.xml文件

1.如果只需要在本地运行spark程序，则只需要添加scala-library、spark-core、spark-sql、spark-streaming等依赖，添加代码如下：

<properties><!-- 声明scala的版本 --><scala.version>2.12.15</scala.version><!-- 声明linux集群搭建的spark版本，如果没有搭建则不用写 --><spark.version>3.2.1</spark.version><!-- 声明linux集群搭建的Hadoop版本 ，如果没有搭建则不用写--><hadoop.version>3.1.4</hadoop.version></properties><dependencies><!--scala--><dependency><groupId>org.scala-lang</groupId><artifactId>scala-library</artifactId><version>${scala.version}</version></dependency><!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.12</artifactId><version>3.2.1</version></dependency><!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql --><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.12</artifactId><version>3.2.1</version></dependency><!-- https://mvnrepository.com/artifact/org.apache.spark/spark-streaming --><dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_2.12</artifactId><version>3.2.1</version><scope>provided</scope></dependency></dependencies>

六、新建scala类文件编写代码

当你右键发现无法新建scala类，需要将scala SDK添加到当前项目中。

鼠标点击java文件夹，右键new--->Scala Class

在WordCount文件中编写如下代码：

import org.apache.spark.sql.SparkSession
object WordCount {def main(args: Array[String]): Unit = {val spark = SparkSession.builder().master("local[*]").appName("word count").getOrCreate()val sc = spark.sparkContextval rdd = sc.textFile("data/input/words.txt")val counts = rdd.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)counts.collect().foreach(println)println("全部的单词数："+counts.count())counts.saveAsTextFile("data/output/word-count")}
}

准备好测试文件words.txt,将文件存放在scalaproject-->data-->input-->words.txt

hello me you her
hello me you
hello me
hello

运行WordCount程序

运行结果：

在IDEA运行spark程序（搭建Spark开发环境）

建议大家写在Linux上搭建好Hadoop的完全分布式集群环境和Spark集群环境，以下在IDEA中搭建的环境仅仅是在window系统上进行spark程序的开发学习，在window系统上可以不用安装hadoop和spark，spark程序可以通过pom.xml的文件配置，添加…...

编程日记 2023/11/2 23:04:03

计算 lim ⁡ x → ∞ ( 1 n 1 1 n 2 1 n 3 . . . 1 n 2 n − 1 1 n 2 n ) 计算\lim _{x\to \infty} (\frac{1}{n1} \frac{1}{n2}\frac{1}{n3} ... \frac{1}{n2n-1} \frac{1}{n2n} ) 计算x→∞lim(n11n21n31...n2n−11n2n1) 解： lim ⁡ x …...

编程日记 2023/11/2 23:03:02

C++构造函数和析构函数详解

一、构造函数 1、概念构造函数是特殊的成员函数，需要注意的是，构造函数虽然名叫做构造，但是构造函数的主要任务并不是开空间创建对象，而是初始化对象。 2、特征函数名与类名相同。无返回值对象实例化时编译器自动调用对应的…...

编程日记 2023/11/2 23:00:59

MySQL数据库干货_16—— SQL99标准中的查询

SQL99标准中的查询 MySQL5.7 支持部分的SQL99 标准。 SQL99中的交叉连接(CROSS JOIN) 示例： 使用交叉连接查询 employees 表与 departments 表。 select * from employees cross join departments;SQL99中的自然连接(NATURAL JOIN) 自然连接连接只能发生在两…...

编程日记 2023/11/2 22:59:58

LLM大语言模型训练中常见的技术：微调与嵌入

微调（Fine-Tuning）： 微调是一种用于预训练语言模型的技术。在预训练阶段，语言模型（如GPT-3.5）通过大规模的文本数据集进行训练，从而学会了语言的语法、语义和世界知识。然后，在微调阶…...

编程日记 2023/11/2 22:58:57

每日一练 | 网络工程师软考真题Day47

阅读以下关于Linux文件系统和Samba效劳的说明，答复以下【问题1】至【问题3】。【说明】 Linux系统采用了树型多级目录来管理文件，树型结构的最上层是根目录，其他的所有目录都是从根目录生成的。通过Samba可以实现基于Linux操作系统的效劳器和…...

编程日记 2023/11/2 22:57:56

Kafka - 监控工具 Kafka Eagle：实时洞察Kafka集群的利器

文章目录引言Kafka Eagle简介Kafka Eagle的特点Kafka Eagle的优势使用Kafka Eagle的步骤结论引言在现代大数据架构中，Apache Kafka已成为一个不可或缺的组件，用于可靠地处理和传输大规模的数据流。然而，随着Kafka集群规模的不断增长&…...

编程日记 2023/11/2 22:56:55

infercnv hpc东南服务器 .libpath 最终使用monocle2环境安装

安装不成功就用conda安装 conda install -c bioconda bioconductor-infercnv Installing infercnv There are several options for installing inferCNV. Choose whichever you prefer: Option A: Install infercnv from BioConductor (preferred) From within R, run the…...

编程日记 2023/11/2 22:55:54

【音视频 | Ogg】RFC3533 ：Ogg封装格式版本 0(The Ogg Encapsulation Format Version 0)

😁博客主页😁：🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑：🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 🤣本文内容🤣&a…...

编程日记 2023/11/2 22:54:53

Hadoop时代落幕，开源大数据将何去何从？

Hadoop时代落幕，谁是大数据的新宠儿？ 1、 1、...

编程日记 2023/11/2 22:52:51

作为一名程序员面临哪些挑战？应该如何应对？

在现今互联网失业潮的大环境下，每一位程序员都面临着被淘汰的风险，但逃避没有用，今天我们就来总结这些挑战与风险，找准自己的方向与定位，做好职业规划，希望这些信息能对大家有所帮助。一、面临的挑战老…...

编程日记 2023/11/2 22:50:47

flink的安装与使用（ubuntu）

组件版本虚拟机：ubuntu-20.04.6-live-server-amd64.iso flink：flink-1.18.0-bin-scala_2.12.tgz jdk：jdk-8u291-linux-x64.tar flink 下载 1、官网：https://flink.apache.org/downloads/ 2、清华镜像：https://mirr…...

编程日记 2023/11/2 22:49:46

容器：软件性能测试的最佳环境

容器总体上提供了一种经济的和可扩展的方法来测试产品在实际情况下的性能，同时还能保持较低的资源成本和开销成本。软件性能和可伸缩性是我们谈论应用程序开发时经常遇到的话题。一个很大的原因是应用程序的性能和可伸缩性直接影响其在市场上的成功。一个应用程序…...

编程日记 2023/11/2 22:48:45

【Qt控件之QMovie】详解

Qt控件之QMovies 概述公共类型属性公共函数公共槽函数信号静态公共成员示例使用场景概述 QMovie类是一个方便的类，用于播放具有QImageReader的动画。此类用于显示没有声音的简单动画。如果您想显示视频和媒体内容，请改用Qt多媒体框架Qt Multimedia mul…...

编程日记 2023/11/2 22:47:43

Star History 九月开源精选｜开源 GitHub Copilot 替代

虽然大火了近一年，但是截至目前 AI 唯一破圈的场景是帮助写代码（谷歌云旗下的 DORA 年度报告也给 AI 泼了盆冷水）。不过对于软件开发来说，生成式人工智能绝对已经是新的标配。本期 Star History 收集了一些开源 GitHub Copilot …...

编程日记 2023/11/2 22:46:41

【Rabbit MQ】Rabbit MQ 消息的可靠性 —— 生产者和消费者消息的确认，消息的持久化以及消费失败的重试机制

文章目录前言：消息的可靠性问题一、生产者消息的确认1.1 生产者确认机制1.2 实现生产者消息的确认1.3 验证生产者消息的确认二、消息的持久化2.1 演示消息的丢失2.2 声明持久化的交换机和队列2.3 发送持久化的消息三、消费者消息的确认3.1 配置消费者消息确认3.2…...

编程日记 2023/11/2 22:45:40

C++设计模式_25_Interpreter 解析器

Interpreter 解析器被归为“领域规则”模式。Interpreter模式比较适合简单的文法表示，应用场景是比较有限的，解决问题的思路和场景都是一样的。文章目录 1. “领域规则”模式1.1 典型模式2. 动机( Motivation)3. 代码演示Interpreter 解析器模式4. 模式定义5. 结构( Structu…...

编程日记 2023/11/2 22:44:39

能源化工过程-故障诊断数据集初探-田纳西-伊斯曼过程数据集

1. 田纳西-伊斯曼过程（TE）数据集简介整个TE数据集由训练集和测试集构成，TE集中的数据由22次不同的仿真运行数据构成，TE集中每个样本都有52个观测变量。d00.dat至d21.dat为训练集样本，d00_te.dat至d21_te.dat为测试集样本。d00.dat和d00_te.dat为正常工况下的样本。d00.d…...

编程日记 2023/11/2 22:43:38

【Linux】安装配置解决CentosMobaXterm的使用及Linux常用命令以及命令模式

目录 Centos的介绍 centos安装配置&MobaXterm 创建安装编辑配置编辑 MobaXterm使用 Linux常用命令&模式常用命令 vi或vim编辑器三种模式命令模式编辑模式末行模式拍照备份 Centos的介绍 CentOS（Community Enterprise Op…...

编程日记 2023/11/2 22:42:37

一台服务器安装两个mysql、重置数据库用于测试使用

文章目录一、切数据库数据存储文件夹已经存在数据库数据文件夹新建数据库数据文件夹二、安装第二个mysql安装新数据库初始化数据库数据启动数据库关闭数据库三、mysqld_multi单机多实例部署参考文档一、切数据库数据存储文件夹这个方法可以让你不用安装新的数据库&#x…...

编程日记 2023/11/2 22:41:34

KubeSphere 容器平台高可用：环境搭建与可视化操作指南

Linux_k8s篇欢迎来到Linux的世界，看笔记好好学多敲多打，每个人都是大神！ 题目：KubeSphere 容器平台高可用：环境搭建与可视化操作指南版本号: 1.0,0 作者: 老王要学习日期: 2025.06.05 适用环境: Ubuntu22 文档说…...

编程新知 2025/11/8 14:01:18

React 第五十五节 Router 中 useAsyncError的使用详解

前言 useAsyncError 是 React Router v6.4 引入的一个钩子，用于处理异步操作（如数据加载）中的错误。下面我将详细解释其用途并提供代码示例。一、useAsyncError 用途处理异步错误：捕获在 loader 或 action 中发生的异步错误替…...

编程新知 2025/10/27 7:52:30

Zustand 状态管理库：极简而强大的解决方案

Zustand 是一个轻量级、快速和可扩展的状态管理库，特别适合 React 应用。它以简洁的 API 和高效的性能解决了 Redux 等状态管理方案中的繁琐问题。核心优势对比基本使用指南 1. 创建 Store // store.js import create from zustandconst useStore create((set)…...

编程新知 2025/11/7 2:08:28

3.3.1_1 检错编码（奇偶校验码）

从这节课开始，我们会探讨数据链路层的差错控制功能，差错控制功能的主要目标是要发现并且解决一个帧内部的位错误，我们需要使用特殊的编码技术去发现帧内部的位错误，当我们发现位错误之后，通常来说有两种解决方案。第一…...

编程新知 2025/11/7 20:35:35

服务器硬防的应用场景都有哪些？

服务器硬防是指一种通过硬件设备层面的安全措施来防御服务器系统受到网络攻击的方式，避免服务器受到各种恶意攻击和网络威胁，那么，服务器硬防通常都会应用在哪些场景当中呢？ 硬防服务器中一般会配备入侵检测系统和预防系统&#x…...

编程新知 2025/7/23 18:46:38

如何为服务器生成TLS证书

TLS（Transport Layer Security）证书是确保网络通信安全的重要手段，它通过加密技术保护传输的数据不被窃听和篡改。在服务器上配置TLS证书，可以使用户通过HTTPS协议安全地访问您的网站。本文将详细介绍如何在服务器上生成一个TLS证…...

编程新知 2025/9/11 5:41:27

Neo4j 集群管理：原理、技术与最佳实践深度解析

Neo4j 的集群技术是其企业级高可用性、可扩展性和容错能力的核心。通过深入分析官方文档，本文将系统阐述其集群管理的核心原理、关键技术、实用技巧和行业最佳实践。 Neo4j 的 Causal Clustering 架构提供了一个强大而灵活的基石，用于构建高可用、可扩展且一致的图数据库服务…...

编程新知 2025/7/4 0:49:28

从零实现STL哈希容器：unordered_map/unordered_set封装详解

本篇文章是对C学习的STL哈希容器自主实现部分的学习分享希望也能为你带来些帮助~ 那咱们废话不多说，直接开始吧！ 一、源码结构分析 1. SGISTL30实现剖析 // hash_set核心结构 template <class Value, class HashFcn, ...> class hash_set {ty…...

编程新知 2025/11/8 8:00:59

3-11单元格区域边界定位(End属性)学习笔记

返回一个Range 对象，只读。该对象代表包含源区域的区域上端下端左端右端的最后一个单元格。等同于按键 End 向上键(End(xlUp))、End向下键(End(xlDown))、End向左键(End(xlToLeft)End向右键(End(xlToRight)) 注意：它移动的位置必须是相连的有内容的单元格…...

编程新知 2025/11/7 19:35:16

大语言模型（LLM）中的KV缓存压缩与动态稀疏注意力机制设计

随着大语言模型（LLM）参数规模的增长，推理阶段的内存占用和计算复杂度成为核心挑战。传统注意力机制的计算复杂度随序列长度呈二次方增长，而KV缓存的内存消耗可能高达数十GB（例如Llama2-7B处理100K token时需50GB内存&a…...

编程新知 2025/9/20 22:30:25