当前位置：首页 > news >正文

IDEA2022 配置spark开发环境

news 2026/2/8 20:09:48

本人强烈建议在 linux环境下学习 spark！！！

Introduction

Apache Spark是一个快速且通用的分布式计算引擎，可以在大规模数据集上进行高效的数据处理，包括数据转换、数据清洗、机器学习等。在本文中，我们将讨论如何在Windows上配置Spark开发环境，以及如何进行开发和测试等。

安装 Java 和 Spark

为了在Windows上使用Spark开发环境，你需要先安装Java和Spark，并配置环境变量。你可以从Oracle官网下载最新版本的Java Development Kit（JDK），然后安装它。在安装完成后，你需要将Java的安装目录添加到系统环境变量中，以便Spark可以找到Java。接下来，你可以从Apache Spark官网下载适用于Windows的二进制文件，并解压到本地目录。

使用 Pyspark 或 Spark shell

在下载Spark二进制文件后，你可以使用Pyspark或Spark shell在本地或集群上进行开发。Pyspark是一个Python API，可以使开发者用Python编写Spark应用程序。Spark shell是一个交互式环境，可以允许你使用Scala、Java或Python来调试和测试Spark代码。你可以在命令行中输入“pyspark”或“spark-shell”命令来启动相应的环境。

安装 Winutils 工具

Winutils是一个用于在Windows上运行Hadoop的工具，它提供了一些必要的组件和环境变量，以便Spark可以在Windows上运行。你需要从Apache官网下载Winutils二进制文件，并解压到本地目录。接下来，你需要将Winutils的安装目录添加到系统环境变量中，以便Spark可以找到它。
切记：下载与自己hadoop对应的版本，并将原本hadoop/bin替换掉！

Conclusion

在开发和部署Spark应用程序时，确保你了解Spark的最佳实践和安全性措施，以避免潜在的安全漏洞和性能问题。你可以使用一些第三方的库来扩展你的Spark开发环境，例如Pyrolite和SparkR。此外，你还可以考虑使用一些数据可视化工具来帮助你更好地了解和展示你的数据，例如Tableau和PowerBI等。最后，要时刻注意更新你的环境和依赖库，以保持最新的功能和性能优化。

使用集成开发环境（IDE）

除了使用Pyspark或Spark shell，你还可以考虑使用一些集成开发环境（IDE）来提高开发效率，例如PyCharm或IntelliJ IDEA等。这些IDE提供了更强大的代码编辑、自动补全和调试功能，可以帮助你更快地开发和测试Spark应用程序。此外，一些IDE还提供了一些有用的插件，可以帮助你更好地管理你的项目和依赖库。

安装下列插件：

data scala
maven

在集群上运行 Spark 应用程序

在使用集群时，确保你有足够的资源来支持你的开发和测试，例如足够的内存和处理器。你可以使用一些集群管理工具，例如Apache Hadoop、Apache Mesos或者Apache YARN等来管理和分配资源。在部署Spark应用程序时，你需要将你的应用程序打包成一个jar文件，并将其提交到集群中运行。你可以使用一些工具，例如Apache Maven或SBT等来打包和管理你的应用程序。
如果你已经在Windows上配置了Spark开发环境，可以考虑使用sbt来打包和管理你的应用程序，而不是使用maven打包和管理。这可以帮助你更好地管理你的依赖库和构建过程，并提高你的开发效率。另外，你还需要时刻注意更新你的环境和依赖库，以保持最新的功能和性能优化。
附上：SBT的使用教程

创建mvn项目：

create

扩展你的 Spark 开发环境

你可以使用一些第三方的库来扩展你的Spark开发环境，例如Pyrolite和SparkR。Pyrolite是一个Python库，可以让你在Python中使用Java类和对象，从而方便你与Java代码进行交互。SparkR是一个R语言的API，可以让你用R语言编写Spark应用程序。此外，你还可以使用一些数据可视化工具来帮助你更好地了解和展示你的数据，例如Tableau和PowerBI等。

更新你的环境和依赖库

最后，在开发Spark应用程序时，你需要时刻注意更新你的环境和依赖库，以保持最新的功能和性能优化。你可以使用一些工具，例如Apache Maven或SBT等来管理你的依赖库，并定期更新它们。此外，你还需要定期更新你的Spark版本和相关组件，以获得最新的功能和修复潜在的漏洞。

Bugs 修复

scalac: Error: Error compiling the sbt component 'compiler-interface-2.11.8-61.0'
sbt.internal.inc.CompileFailed: Error compiling the sbt component 'compiler-interface-2.11.8-61.0'at sbt.internal.inc.AnalyzingCompiler$.handleCompilationError$1(AnalyzingCompiler.scala:436)at sbt.internal.inc.AnalyzingCompiler$.$anonfun$compileSources$5(AnalyzingCompiler.scala:453)at sbt.internal.inc.AnalyzingCompiler$.$anonfun$compileSources$5$adapted(AnalyzingCompiler.scala:448)at sbt.io.IO$.withTemporaryDirectory(IO.scala:490)at sbt.io.IO$.withTemporaryDirectory(IO.scala:500)at sbt.internal.inc.AnalyzingCompiler$.$anonfun$compileSources$2(AnalyzingCompiler.scala:448)at sbt.internal.inc.AnalyzingCompiler$.$anonfun$compileSources$2$adapted(AnalyzingCompiler.scala:440)at sbt.io.IO$.withTemporaryDirectory(IO.scala:490)at sbt.io.IO$.withTemporaryDirectory(IO.scala:500)at sbt.internal.inc.AnalyzingCompiler$.compileSources(AnalyzingCompiler.scala:440)at org.jetbrains.jps.incremental.scala.local.CompilerFactoryImpl$.org$jetbrains$jps$incremental$scala$local$CompilerFactoryImpl$$getOrCompileInterfaceJar(CompilerFactoryImpl.scala:162)at org.jetbrains.jps.incremental.scala.local.CompilerFactoryImpl.$anonfun$getScalac$1(CompilerFactoryImpl.scala:58)at scala.Option.map(Option.scala:242)at org.jetbrains.jps.incremental.scala.local.CompilerFactoryImpl.getScalac(CompilerFactoryImpl.scala:51)at org.jetbrains.jps.incremental.scala.local.CompilerFactoryImpl.createCompiler(CompilerFactoryImpl.scala:20)at org.jetbrains.jps.incremental.scala.local.CachingFactory.$anonfun$createCompiler$3(CachingFactory.scala:21)at org.jetbrains.jps.incremental.scala.local.Cache.$anonfun$getOrUpdate$2(Cache.scala:17)at scala.Option.getOrElse(Option.scala:201)at org.jetbrains.jps.incremental.scala.local.Cache.getOrUpdate(Cache.scala:16)at org.jetbrains.jps.incremental.scala.local.CachingFactory.createCompiler(CachingFactory.scala:21)at org.jetbrains.jps.incremental.scala.local.LocalServer.doCompile(LocalServer.scala:40)at org.jetbrains.jps.incremental.scala.local.LocalServer.compile(LocalServer.scala:27)at org.jetbrains.jps.incremental.scala.remote.Main$.compileLogic(Main.scala:206)at org.jetbrains.jps.incremental.scala.remote.Main$.$anonfun$handleCommand$1(Main.scala:193)at org.jetbrains.jps.incremental.scala.remote.Main$.decorated$1(Main.scala:183)at org.jetbrains.jps.incremental.scala.remote.Main$.handleCommand(Main.scala:190)at org.jetbrains.jps.incremental.scala.remote.Main$.serverLogic(Main.scala:166)at org.jetbrains.jps.incremental.scala.remote.Main$.nailMain(Main.scala:106)at org.jetbrains.jps.incremental.scala.remote.Main.nailMain(Main.scala)at jdk.internal.reflect.GeneratedMethodAccessor3.invoke(Unknown Source)at java.base/jdk.internal.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)at java.base/java.lang.reflect.Method.invoke(Method.java:568)at com.facebook.nailgun.NGSession.runImpl(NGSession.java:312)at com.facebook.nailgun.NGSession.run(NGSession.java:198)

解决办法：
fix
检查此处配置！

Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties

将SPARK_HOME/conf 目录下的 log4j.properties.template 重命名为 log4j.properties

23/03/02 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13
23/03/02 18:29:34 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:278)at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:300)at org.apache.hadoop.util.Shell.<clinit>(Shell.java:293)at org.apache.hadoop.util.StringUtils.<clinit>(StringUtils.java:76)at org.apache.hadoop.mapred.FileInputFormat.setInputPaths(FileInputFormat.java:362)at <br>org.apache.spark.SparkContext$$anonfun$hadoopFile$1$$anonfun$33.apply(SparkContext.scala:1015)at org.apache.spark.SparkContext$$anonfun$hadoopFile$1$$anonfun$33.apply(SparkContext.scala:1015)at <br>org.apache.spark.rdd.HadoopRDD$$anonfun$getJobConf$6.apply(HadoopRDD.scala:176)at <br>org.apache.spark.rdd.HadoopRDD$$anonfun$getJobConf$6.apply(HadoopRDD.scala:176)<br>at scala.Option.map(Option.scala:145)<br>at org.apache.spark.rdd.HadoopRDD.getJobConf(HadoopRDD.scala:176)<br>at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:195)<br>at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239)<br>at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237)<br>at scala.Option.getOrElse(Option.scala:120)<br>at org.apache.spark.rdd.RDD.partitions(RDD.scala:237)<br>at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35)<br>at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239)<br>at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237)<br>at scala.Option.getOrElse(Option.scala:120)<br>at org.apache.spark.rdd.RDD.partitions(RDD.scala:237)<br>at org.apache.spark.SparkContext.runJob(SparkContext.scala:1929)<br>at org.apache.spark.rdd.RDD.count(RDD.scala:1143)<br>at com.org.SparkDF.FrameDemo$.main(FrameDemo.scala:14)<br>at com.org.SparkDF.FrameDemo.main(FrameDemo.scala)<br>

以编程方式设置 HADOOP_HOME 环境变量：

System.setProperty（“hadoop.home.dir”， “full path to the folder with winutils”）;

总结

在本文中，我们讨论了如何在Windows上配置Spark开发环境，并介绍了如何使用Pyspark或Spark shell进行开发和测试。此外，我们还讨论了如何使用集成开发环境（IDE）和扩展你的Spark开发环境。最后，我们提醒你时刻注意更新你的环境和依赖库，以保持最新的功能和性能优化。如果你正在学习Spark开发，希望这篇文章能够帮助你更好地开始你的Spark开发之旅。

IDEA2022 配置spark开发环境

本人强烈建议在 linux环境下学习 spark！！！ Introduction Apache Spark是一个快速且通用的分布式计算引擎，可以在大规模数据集上进行高效的数据处理，包括数据转换、数据清洗、机器学习等。在本文中，我们将…...

编程日记 2023/3/3 19:08:59

趣味答题竞赛小程序开发功能的详细介绍

随着人们对知识学习的要求越来越高，答题已经成为了一项重要的学习和考核方式。而为了让答题变得更加有趣和富有挑战性，我们推出了趣味答题竞赛小程序。下面，我们将详细介绍这个小程序的开发功能。 1.个人淘汰赛在个人淘汰赛中，…...

编程日记 2023/3/3 19:07:36

【独家】华为OD机试提供C语言题解 - 获取最大软件版本号

最近更新的博客华为od 2023 | 什么是华为od，od 薪资待遇，od机试题清单华为OD机试真题大全，用 Python 解华为机试题 | 机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南）华为od机试，独家整理已参加机试人员的实战技巧文章目录最近更新的博客使用说明获取…...

编程日记 2023/3/3 19:06:19

k8s编程operator实战之云编码平台——⑤项目完成、部署

文章目录1、效果展示2、保存用户状态和访问用户服务实现方案2.1 如何保存用户的状态2.1.1 解决保留安装的插件问题2.2 如何访问到用户在工作空间中启动的http服务2.2.1 code-server如何帮我们实现了用户程序的代理3、Operator功能实现3.1 使用KubeBuilder创建项目3.1.1 完善kin…...

编程日记 2023/3/3 19:05:04

C语言杂记（指针篇）

指针篇指针就是地址，地址就是指针指针变量就是存放地址的变量 *号只有定义的时候表示定义指针变量，其他表示从地址里面取内容通过指针的方法使main函数中的data1和data2发生数据交换。 #include <stdio.h> void chang_data(int *data1,int *da…...

编程日记 2023/3/3 19:03:43

ES window 系统环境下连接问题

环境问题：（我采用的版本是 elasticsearch-7.9.3）注意开始修正之前的配置：前提：elasticsearch.yml增加或者修正一下配置：xpack.security.enabled: truexpack.license.self_generated.type: basicxpack.secu…...

编程日记 2023/3/3 19:02:29

hexo部署github搭建个人博客完整详细带图版（更新中）

文章目录0. 前置内容1. hexo创建个人博客2. GitHub创建仓库3. hexo部署到GitHub4. 常用命令newcleangenerateserverdeploy5. 添加插件5.1 主题5.2 博客基本信息5.3 创建新的菜单5.4 添加搜索功能5.5 添加阅读时间字数提示5.6 打赏功能5.7 切换主题5.8 添加不蒜子统计5.9 添加百…...

编程日记 2023/3/3 19:01:15

SpringBoot集成DruidDataSource实现监控 SQL 性能

一、快速入门 1.1 基本概念我们都使用过连接池，比如C3P0、DBCP、hikari、Druid，虽然 HikariCP 的速度稍快，但 Druid 能够提供强大的监控和扩展功能。Druid DataSource 是阿里巴巴开发的号称为监控而生的数据库连接池，它不仅可以…...

编程日记 2023/3/3 19:00:04

maven镜像源及代理配置

在公司使用网络一般需要设置代理， 我在idea中创建springboot工程时，发现依赖下载不了，原以为只要浏览器设置代理，其他的网络访问都会走代理，经过查资料设置了以下几个地方后工程创建正常，在此记录给大家参考…...

编程日记 2023/3/3 18:58:49

【Java面试篇】Spring中@Transactional注解事务失效的常见场景

文章目录Transactional注解的失效场景☁️前言🍀前置知识🍁场景一：Transactional应用在非 public 修饰的方法上🍁场景二： propagation 属性设置错误🍁场景三：rollbackFor属性设置错误&#x1f3…...

编程日记 2023/3/3 18:57:39

【C】分配内存的函数

#include <stdlib.h>//分配所需的内存空间，并返回一个指向它的指针。 void *malloc(size_t size);//分配所需的内存空间，并返回一个指向它的指针。并且calloc负责把这块内存空间用字节0填//充，而malloc并不负责把分配的内存空间清零 vo…...

编程日记 2023/3/3 18:56:24

IDEA 断点总是进入class文件没有进入源文件解决

前言 idea 断点总是进入class文件没有进入源文件解决问题在源文件里打了断点，断点模式启动时却进入了class文件里的断点，而没有进入到java源文件里的断点。比如：我在 A.java 里打了断点，调试时却进入到了 jar 包里的 A.clas…...

编程日记 2023/3/3 18:55:14

【flink】 flink入门教程demo 初识flink

文章目录通俗解释什么是flink及其应用场景flink处理流程及核心APIflink代码快速入门flink重要概念什么是flink？ 刚接触这个词的同学可能会觉得比较难懂，网上搜教程也是一套一套的官话， 如果大家熟悉stream流，那或许会比较好理解…...

编程日记 2023/3/3 18:53:59

LeetCode 1487. 保证文件名唯一

【LetMeFly】1487.保证文件名唯一力扣题目链接：https://leetcode.cn/problems/making-file-names-unique/ 给你一个长度为 n 的字符串数组 names 。你将会在文件系统中创建 n 个文件夹：在第 i 分钟，新建名为 names[i] 的文件夹。由于两个…...

编程日记 2023/3/3 18:52:44

详细剖析｜袋鼠云数栈前端框架Antd 3.x 升级 4.x 的踩坑之路

袋鼠云数栈从2016年发布第⼀个版本开始，就始终坚持着以技术为核⼼、安全为底线、提效为⽬标、中台为战略的思想，坚定不移地⾛国产化信创路线，不断推进产品功能迭代、技术创新、服务细化和性能升级。在数栈过去的产品迭代中受限于当前组件的…...

编程日记 2023/3/3 18:51:10

【C++PrimerPlus】第三章处理数据

文章目录前言内容目录3.1 简单变量3.1.2 变量名3.1.2 整形3.1.3 整形short,int,long,long long3.1.4 无符号类型3.1.5 选择整形类型3.1.6 整形字面值3.1.7 C如何确定常量的类型3.1.8 char类型：字符和小整数3.1.9 bool类型3.2 const修饰符3.3浮点数3.3.1 书写浮点数3…...

编程日记 2023/3/3 18:49:36

【基础算法】单链表的OJ练习(1) # 反转链表 # 合并两个有序链表 #

文章目录前言反转链表合并两个有序链表写在最后前言上一章讲解了单链表 -> 传送门 <- ，后面几章就对单链表进行一些简单的题目练习，目的是为了更好的理解单链表的实现以及加深对某些函数接口的熟练度。本章带来了两个题目。一是反转链表&#x…...

编程日记 2023/3/3 18:48:19

离散数学笔记（1）命题逻辑

文章目录1.命题符号化及联结词基本概念本节题型2.命题公式及分类基本概念本节题型1.命题符号化及联结词基本概念命题的定义：能够判断真假的陈述句称为命题。备注：感叹句、疑问句、祈使句和类似于xy>5之类真值不唯一的句子都不是命题。真值的真假…...

编程日记 2023/3/3 18:47:03

IDEA Android 网格布局(GridLayout）示例(计算器界面布局)

网格布局(GridLayout） 示例程序效果（实现类似vivo手机自带计算器UI） 真机和模拟器运行效果： 简述： GridLayout(网格布局)和TableLayout（表格布局）有类似的地方，通俗来讲可以理解为…...

编程日记 2023/3/3 18:45:43

【蓝桥杯嵌入式】拓展板之数码管显示

文章目录硬件电路连接方式函数实现文章福利硬件电路通过上述原理图，可知拓展板上的数码管是一个共阴数码管，也就是说某段数码管接上高电平时，就会点亮。上述原理图还给出一个提示，即：三个数码管分别与三个74HC59…...

编程日记 2023/3/3 18:44:15

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板，载入页面后，会显示引导弹窗，适用于引导用户使用页面，点击完成后，会显示下一个引导弹窗，直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…...

编程新知 2026/2/8 4:37:29

定义集线器接口 IOnlineUserHub public interface IOnlineUserHub {/// 在线用户列表Task OnlineUserList(OnlineUserList context);/// 强制下线Task ForceOffline(object context);/// 发布站内消息Task PublicNotice(SysNotice context);/// 接收消息Task ReceiveMessage(…...

编程新知 2025/9/10 5:36:56

1688商品列表API与其他数据源的对接思路

将1688商品列表API与其他数据源对接时，需结合业务场景设计数据流转链路，重点关注数据格式兼容性、接口调用频率控制及数据一致性维护。以下是具体对接思路及关键技术点： 一、核心对接场景与目标商品数据同步场景：将1688商品信息…...

编程新知 2025/11/30 16:55:32

跨链模式：多链互操作架构与性能扩展方案

跨链模式：多链互操作架构与性能扩展方案 ——构建下一代区块链互联网的技术基石一、跨链架构的核心范式演进 1. 分层协议栈：模块化解耦设计现代跨链系统采用分层协议栈实现灵活扩展（H2Cross架构）： 适配层&#xf…...

编程新知 2026/2/5 14:15:13

LLM基础1_语言模型如何处理文本

基于GitHub项目：https://github.com/datawhalechina/llms-from-scratch-cn 工具介绍 tiktoken：OpenAI开发的专业"分词器" torch：Facebook开发的强力计算引擎，相当于超级计算器理解词嵌入：给词语画"…...

编程新知 2025/9/25 5:16:24

通过 Ansible 在 Windows 2022 上安装 IIS Web 服务器

拓扑结构这是一个用于通过 Ansible 部署 IIS Web 服务器的实验室拓扑。前提条件： 在被管理的节点上安装WinRm 准备一张自签名的证书开放防火墙入站tcp 5985 5986端口准备自签名证书 PS C:\Users\azureuser> $cert New-SelfSignedCertificate -DnsName &…...

编程新知 2026/2/4 16:43:10

Cilium动手实验室: 精通之旅---13.Cilium LoadBalancer IPAM and L2 Service Announcement

Cilium动手实验室: 精通之旅---13.Cilium LoadBalancer IPAM and L2 Service Announcement 1. LAB环境2. L2公告策略2.1 部署Death Star2.2 访问服务2.3 部署L2公告策略2.4 服务宣告 3. 可视化 ARP 流量3.1 部署新服务3.2 准备可视化3.3 再次请求 4. 自动IPAM4.1 IPAM Pool4.2 …...

编程新知 2026/2/5 17:29:21

Elastic 获得 AWS 教育 ISV 合作伙伴资质，进一步增强教育解决方案产品组合

作者：来自 Elastic Udayasimha Theepireddy (Uday), Brian Bergholm, Marianna Jonsdottir 通过搜索 AI 和云创新推动教育领域的数字化转型。我们非常高兴地宣布，Elastic 已获得 AWS 教育 ISV 合作伙伴资质。这一重要认证表明，Elastic 作为 …...

编程新知 2026/2/7 16:38:17