当前位置：首页 > news >正文

Windows环境本地配置pyspark环境详细教程

news 2026/2/28 8:40:29

一、背景简记
二、本地单机spark环境配置详细步骤
- 第一步：python环境安装
- 第二步：安装jdk及配置环境变量
- - 安装包下载安装
  - 环境变量配置
- 第三步：安装Spark
- - 安装包下载安装
  - 配置环境变量
- 第四步：安装hadoop
- - 安装包下载安装
  - 配置环境变量
- 第五步：环境测试
- - 测试hadoop环境变量是否配置成功
  - spark环境变量是否生效与本地spark是否安装成功
  - 测试winutils.exe 版本是否与操作系统兼容
- 第六步：python环境安装pyspark
三、本地远程集群相关配置操作方式
- 配置本地window的hosts文件连接集群
- Windows下Spyder远程连接pyspark配置
- Windows下pyspark连接Hbase操作
四、本地spyder测试本地pyspark
五、结语
参考教程

一、背景简记

windows环境是绝大部分比较熟悉的操作系统，作为想开始入门学习spark的数据人员来说，想在python的基础上，进一步掌握学习spark的技术。那在windows环境配置好pyspark，不失为一种最优的学习方式。本文也是基于此，将个人在windows环境配置pyspark的过程进行详细记录，以便后续在其它电脑上快速配置。当然，如果能够帮助到和自己同样需求的其它朋友，当然也不甚荣幸。下面开始正题。

本文提到的所有软件，已整理放在csdn资源处，当然也可以关注微信公众号【慕匠心】，回复关键字【spark】获取下载方式。

二、本地单机spark环境配置详细步骤

注意：所有软件的安装目录，尽量避免留有任何空格，以免后期方式各种不可预期的问题
在这里插入图片描述

第一步：python环境安装

现在我们习以为常的安装python环境的方式，就是通过安装anaconda来实现，因此具体的annconda的过程不做记录，整体简单，当然，网上也有很多详细的安装教程。anaconda下载地址：https://repo.anaconda.com/archive/，博主所用的anaconda版本为：Anaconda3-2023.09-0-Windows-x86_64.exe，对应的python版本是3.11.11。
如下图所示：
在这里插入图片描述

注意事项：可以查看下系统的环境变量Path，确认下Anaconda路径有没有添加进去，如下图标注所示：

在这里插入图片描述

第二步：安装jdk及配置环境变量

安装包下载安装

jdk的下载地址：https://www.oracle.com/java/technologies/downloads/#java8，根据电脑系统情况，选择下载对应的安装包。
在这里插入图片描述
博主安装的jdk安装包：jdk-8u172-windows-x64.exe，对应的jdk版本：1.8.0。上面的截图对应的版本也可以。

下载后安装包后，直接双击安装即可。安装完成后，命令行中执行：java -version ，确认是否配置成功，如下图所示：
在这里插入图片描述

环境变量配置

jdk安装好后，有几个环境变量需要配置：

新增环境变量JAVA_HOME
JAVA_HOME： D:\JDK(该值根据安装路径，修改即可）

在这里插入图片描述

Path路径新增信息：
Path： %JAVA_HOME%\bin（直接粘贴该路径即可）

在这里插入图片描述

如果没有CLASSPATH环境变量，则新增
CLASSPATH： .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\bin;（直接粘贴该路径即可）

在这里插入图片描述

第三步：安装Spark

安装包下载安装

spark安装包下载地址：https://archive.apache.org/dist/spark/，博主所用的spark版本为：spark-3.5.0-bin-hadoop3.tgz，将其解压放在个人想存放的目录中。

配置环境变量

spark安装包解压后，记住解压存放地址，配置环境变量会用到。

新建环境变量：SPARK_HOME
SPARK_HOME： D:\bigdataenv\spark-3.5.0-bin-hadoop3(该值根据存放路径，修改即可）

在这里插入图片描述

新建环境变量：HADOOP_HOME
HADOOP_HOME： D:\bigdataenv\spark-3.5.0-bin-hadoop3 (现有的spark安装包都配置了hadoop，所以路径和SPARK_HOME路径相同）

在这里插入图片描述

Path路径新增信息：
Path： %SPARK_HOME%\bin（直接粘贴该路径即可）

在这里插入图片描述

新增环境变量：PYSPARK_DRIVER_PYTHON
PYSPARK_DRIVER_PYTHON： ipython

在这里插入图片描述
PYSPARK_DRIVER_PYTHON，设置成ipython后，pyspark交互模式变为ipython的交互模式，如下图所示（需要安装完pyspark后才有）：

第四步：安装hadoop

安装包下载安装

hadoop安装包下载地址：https://archive.apache.org/dist/hadoop/common/，选择与spark对应的版本。博主所用的hadoop版本为：hadoop-3.0.0.tar.gz，将其解压放在个人想存放的目录中。
在这里插入图片描述

配置环境变量

hadoop安装包解压后，记住解压存放地址，配置环境变量会用到。

新建环境变量：HADOOP_HOME
HADOOP_HOME： D:\bigdataenv\hadoop-3.0.0(该值根据存放路径，修改即可）

在这里插入图片描述

Path路径新增信息：
Path： %HADOOP_HOME%\bin（直接粘贴该路径即可）

在这里插入图片描述
此时bin目录（ D:\bigdataenv\hadoop-3.0.0\bin）下可能没有 hadoop.dll及winutils.exe文件，

需要进行下载winutils ：https://soft.3dmgame.com/down/204154.html
解压文件，选择hadoop版本对应的文件夹bin目录下的hadoop.dll和winutils.exe文件
将hadoop.dll和winutils.exe 拷贝到D:\bigdataenv\hadoop-3.0.0\bin 、C:\Windows\System32、D:\bigdataenv\spark-3.5.0-bin-hadoop3\bin 下（两个文件各拷贝一份到三个目录中）

在这里插入图片描述

第五步：环境测试

测试hadoop环境变量是否配置成功

测试方式：在cmd输入 hadoop version,出现如下界面，说明hadoop环境变量配置成功。

在这里插入图片描述

spark环境变量是否生效与本地spark是否安装成功

测试方式：继续在上述命令行中执行 spark-shell，出现如下界面结果，说明spark系统环境变量配置成功。

在这里插入图片描述

如有报错，可参看博文《windows下Pyspark开发环境搭建》解决方式。

测试winutils.exe 版本是否与操作系统兼容

测试方式：在命令行中执行：cd /d %SPARK_HOME%\bin切换到指定目录，然后执行：winutils.exe ls，结果如下图所示。

在这里插入图片描述
如果有弹窗提示，可以从网上再找下对应hadoop版本的winutils.exe即可。

第六步：python环境安装pyspark

如果已安装的python版本和本文提供的版本不一致，可以新建一个python版本环境。当然，保险起见，无论是否一致，都可以在anaconda中新建一个python环境，如下图所示，可以建立指定版本的python环境；

在这里插入图片描述

然后，启动Anaconda Prompt ，执行 conda activate 新建的环境名称 ，如下图所示，确认新环境启动成功。

在这里插入图片描述

然后执行：pip install pyspark py4j ，安装pyspark和py4j模块（因博主已安装，所以提示如下图）

在这里插入图片描述

三、本地远程集群相关配置操作方式

因暂无可直连配置的集群，因此参考博文《windows下Pyspark开发环境搭建》[^2] 信息，暂时整理记录如下，以便后续使用。

配置本地window的hosts文件连接集群

将集群各节点IP对应别名，配置在windows下的hosts文件中，从而可以本地直连使用集群环境。

第一步：查看linux集群各节点信息。执行命令：cat /etc/hosts

在这里插入图片描述

第二步：配置到windows下的hosts文件。本地host文件目录 : C:\Windows\System32\Drivers\etc\hosts 添加集群节点信息

在这里插入图片描述

第三步：对每个节点做如下同样的测试，保证各节点ping通。

在这里插入图片描述

第四步：将集群相关配置文件同步window本地。由于要远程连接Linux集群，需要远程服务器上以下四个配置文件同步到**%SPARK_HOME%\conf**目录下，四个配置文件如下：

core-site.xml --由于hdfs是基本框架，两个都个同步
hdfs-site.xml
yarn-site.xml --作远程操作要使用
hive-site.xml --有hive操作则要同步

第五步：设置环境变量YARN_CONF_DIR。环境变量设置结果如下：

**第六步：测试远程连接spark。**命令 pyspark --master yarn --deploy-mode client --name ‘test’，如下，则说明成功了。

在这里插入图片描述

第七步：如果报错，则设置环境变量YARN_CONF_DIR。环境变量设置结果：YARN_CONF_DIR ：%SPARK_HOME%\conf

在这里插入图片描述

Windows下Spyder远程连接pyspark配置

针对全局：

将 %SPARK_HOME%\python\lib 目录下 py4j-0.10.6-src.zip 与 pyspark.zip解压缩；
然后放到anaconda目录 D:\ProgramData\anaconda3\Lib\site-packages 目录下即可。

针对指定环境：
在放在指定环境的Lib\site-packages 目录下。（ps：pip install py4j pyspark后，该目录下也会有配置信息，可以启动对应环境的spyder，即可调用）

Windows下pyspark连接Hbase操作

连接Hbase需要集群相关的配置文件与jar包。

第一步：将集群上的hbase-site.xml配置文件同步到本地windows的 %SPARK_HOME%\conf 目录下

在这里插入图片描述

第二步：将连接hbase的集群相关jar同步到 %SPARK_HOME%\jars目录下

将集群上CDH的安装目录下对应hbase 的lib库目录下的jar饱全部同步下来，如下是我集群的目录：

/data/opt/cloudera-manager/cloudera/parcels/CDH-5.14.0-1.cdh5.14.0.p0.24/lib/hbase/lib/
/data/opt/cloudera-manager/cloudera/parcels/CDH-5.14.0-1.cdh5.14.0.p0.24/lib/hbase

不清楚在哪个安装目录，用以下命令在确定： find /data/ -name hbase*.jar

在这里插入图片描述

第三步：将metrics-core-2.2.0.jar 同步下来

在这里插入图片描述

第四步：将SHC编译好的shc-core-spark2.3.0-hbase1.2.0.jar也放在%SPARK_HOME%\jars目录下，并上传到集群上spark2安装目录下，这样就不需要在启动部署spark程序时指定jar包。

/data/opt/cloudera-manager/cloudera/parcels/SPARK2/lib/spark2/jars/

在这里插入图片描述

测试spyder连接测试集群是否成功。测试代码：

from pyspark.sql import SparkSession
import time
from pyspark import SQLContextprint("开始启动会话..................")
spark=SparkSession.builder \.master("yarn-client") \.appName('test spyder') \.config("spark.some.config.option", "some-value") \.config("spark.dynamicAllocation.enabled", "false") \.config("hive.exec.dynamic.partition.mode", "nonstrict") \.config("spark.executor.instances", "3")\.enableHiveSupport()\.getOrCreate()
print("完成启动会话..................")dep = "org.apache.spark.sql.execution.datasources.hbase"
#查询表结构
catalog = """{"table":{"namespace":"default", "name":"student"},"rowkey":"key","columns":{"rowkey":{"cf":"rowkey", "col":"key", "type":"string"},"age":{"cf":"info", "col":"age", "type":"string"},"name":{"cf":"info", "col":"name", "type":"string"}}}
"""sql_sc = SQLContext(spark)
#从hbage表查询数据
df = sql_sc.read.options(catalog = catalog).format(dep).load()
#将表数据注册为临时表，并展示出来
df.createOrReplaceTempView("test1")
spark.sql("select * from test1").show()
spark.stop()

结果如下，则说明配置成功。
在这里插入图片描述

四、本地spyder测试本地pyspark

测试脚本1：

from pyspark.sql import SparkSession
import timeprint("开始启动会话..................")
ss = SparkSession.builder \.appName("Test PySpark") \.master("local[*]") \.getOrCreate()
print("完成启动会话..................")print("开始parallelize启动..................")
sc=ss.sparkContext
data=sc.parallelize(range(1000),7)
print(data.count())
print("结束parallelize..................")ss.stop()

测试结果如下，说明成功了。
在这里插入图片描述

五、结语

本地学习使用pyspark，用上述描述的第二节内容**《二、本地单机spark环境配置详细步骤》**即可配置完成本地环境。每一次安装，可能都会遇到新问题，多尝试查找网上给的一些解决方案，终会找到出路！希望本文也可以给路过的你，有所帮助。
在这里插入图片描述

参考教程

《windows搭建pyspark环境详细教程》
《windows下Pyspark开发环境搭建》
https://repo.anaconda.com/archive/
https://soft.3dmgame.com/down/204154.html
https://archive.apache.org/dist/hadoop/common/
https://www.oracle.com/java/technologies/downloads/#java8

目录

一、背景简记

二、本地单机spark环境配置详细步骤

第一步：python环境安装

第二步：安装jdk及配置环境变量

安装包下载安装

环境变量配置

第三步：安装Spark

安装包下载安装

配置环境变量

第四步：安装hadoop

安装包下载安装

配置环境变量

第五步：环境测试

测试hadoop环境变量是否配置成功

spark环境变量是否生效与本地spark是否安装成功

测试winutils.exe 版本是否与操作系统兼容

第六步：python环境安装pyspark

三、本地远程集群相关配置操作方式

配置本地window的hosts文件连接集群

Windows下Spyder远程连接pyspark配置

Windows下pyspark连接Hbase操作

四、本地spyder测试本地pyspark

五、结语

参考教程

相关文章：