PySpark单机模式安装教程
目录
1. 环境准备
1.1 安装要求
1.2 检查Python和Java环境
2. 下载并解压Spark
2.1 下载Spark
2.2 解压安装包
3. 配置环境变量
4. 配置Spark
5. 启动Spark Shell
6. 运行测试
7. 关闭Spark Shell
8. 常见问题
8.1 兼容性问题
8.2 环境变量配置
总结
1. 环境准备
1.1 安装要求
- 操作系统:Linux(推荐)、Windows或MacOS
- Python:Python 3.6或以上
- Java环境:JDK 1.8或以上
1.2 检查Python和Java环境
Spark依赖于Java环境,请先确认是否已安装JDK。可通过以下命令检查:
java -version
python3 --version
若未安装,请根据系统选择安装JDK 8以上的版本。安装完成后,设置JAVA_HOME环境变量。
export JAVA_HOME=/path/to/jdk export PATH=$JAVA_HOME/bin:$PATH
通过Anaconda安装 ,因为这个软件不仅有python还有其他的功能,比单纯安装python功能要强大。
# 上传
cd /opt/modules
# 添加执行权限
chmod u+x Anaconda3-2021.05-Linux-x86_64.sh
# 执行
sh ./Anaconda3-2021.05-Linux-x86_64.sh
# 过程
#第一次:【直接回车,然后按q】Please, press ENTER to continue>>>
#第二次:【输入yes】Do you accept the license terms? [yes|no][no] >>> yes
#第三次:【输入解压路径:/opt/installs/anaconda3】[/root/anaconda3] >>> /opt/installs/anaconda3#第四次:【输入yes,是否在用户的.bashrc文件中初始化
Anaconda3的相关内容】Do you wish the installer to initialize Anaconda3by running conda init? [yes|no][no] >>> yes
更新环境变量:
# 刷新环境变量
source /root/.bashrc
# 激活虚拟环境,如果需要关闭就使用:conda deactivate
conda activate
配置环境变量并再次刷新:
# 编辑环境变量
vi /etc/profile
# 添加以下内容
# Anaconda Home
export ANACONDA_HOME=/opt/installs/anaconda3
export PATH=$PATH:$ANACONDA_HOME/bin
创建软连接:
# 创建软连接
ln -s /opt/installs/anaconda3/bin/python3 /usr/bin/python3
# 验证
echo $ANACONDA_HOME
2. 下载并解压Spark
2.1 下载Spark
前往 Apache Spark官网 下载Spark安装包。选择预编译好的版本(如“Pre-built for Apache Hadoop 3.2 and later”),并下载 .tgz 文件。
2.2 解压安装包
使用以下命令解压下载的Spark安装包:
# 解压
cd /opt/modules
tar -zxf spark-3.1.2-bin-hadoop3.2.tgz -C /opt/installs
# 重命名
cd /opt/installs
mv spark-3.1.2-bin-hadoop3.2 spark-local
# 创建软链接
ln -s spark-local spark
3. 配置环境变量
编辑~/.bashrc或/etc/profile文件,加入以下环境变量:
export SPARK_HOME=/opt/installs/spark
export PATH=$SPARK_HOME/bin:$PATH
更新环境变量:
source /etc/profile
4. 配置Spark
单机模式安装相对简单,不需要配置Master和Worker。默认情况下,Spark会自动启用单机模式运行。您可以根据需求修改conf/spark-env.sh或conf/spark-defaults.conf配置文件。
5. 启动Spark Shell
Spark安装完成后,可以启动Spark Shell来测试环境:
/opt/installs/spark/bin/pyspark --master local[2]
若成功启动,将看到Spark Shell的命令行提示,表示安装成功。
6. 运行测试
在Spark Shell中可以输入以下代码进行简单测试:
map算子实现分布式转换
需求:将一个包含 1~ 10 共10个元素的列表,使用Spark实现分布式处理,将每个元素的平方输出
运行后应输出2, 4, 6, 8, 10,说明Spark单机模式安装成功。
# 定义一个列表
list1 = [1,2,3,4,5,6,7,8,9,10]
# 将列表通过SparkContext将数据转换为一个分布式集合RDD
inputRdd = sc.parallelize(list1)# 将RDD中每个分区的数据进行处理
rsRdd = inputRdd.map(lambda x : x**2)# 将结果RDD的每个元素进行输出
rsRdd.foreach(lambda x : print(x))
7. 关闭Spark Shell
在测试完成后,可以通过以下命令退出Spark Shell:
quit
8. 常见问题
8.1 兼容性问题
若出现Python和Java版本兼容性问题,可尝试降低Java或Spark版本,确保它们相互兼容。
8.2 环境变量配置
确认JAVA_HOME和SPARK_HOME等环境变量正确配置,并已通过source /etc/profile生效。
总结
至此,您已经成功在单机模式下安装并运行了Spark。这种模式适合小规模数据处理和学习实验。对于更高的性能需求,建议使用集群模式。
相关文章:
PySpark单机模式安装教程
目录 1. 环境准备 1.1 安装要求 1.2 检查Python和Java环境 2. 下载并解压Spark 2.1 下载Spark 2.2 解压安装包 3. 配置环境变量 4. 配置Spark 5. 启动Spark Shell 6. 运行测试 7. 关闭Spark Shell 8. 常见问题 8.1 兼容性问题 8.2 环境变量配置 总结 1. 环境准备…...
DEVOPS: 认证与调度
概述 不知道大家有没有意识到一个现实,就是大部分时候,我们已经不像以前一样通过命令行,或者可视窗口来使用一个系统了现在我们上微博、或者网购,操作的其实不是眼前这台设备,而是一个又一个集群 通常,这样…...
ICPC区域赛成都站【赛后回顾+总结】
传送门 前言赛后总结赛后回顾赛后感悟 前言 首先,这是本人本赛季第一场XCPC区域赛,也是本人算竞生涯中第一场XCPC区域赛(之前只打过邀请赛和省赛)。 赛后总结 然后赛后总结一下:我队天崩开局,我队出师不利…...
保险大模型革新:全面自动化倒计时
摘 要 大模型于保险业不仅是一个技术升级的过程,更是一种商业模式的变革 未来将会是一切都连接着AI的世界——科技杂志《连线》创始主编凯文凯利(KevinKelly)曾在《5000天后的世界》中预测。 ChatGPT催生大模型热潮已将近两年,…...
《使用Gin框架构建分布式应用》阅读笔记:p212-p233
《用Gin框架构建分布式应用》学习第12天,p212-p233总结,总22页。 一、技术总结 1.JavaScript知识点 (1)class、method (2)function, arrow function, (3)fetch() (4)Promise, then() 2.bootstrap 第5章主要涉及前端技术的运用,作为后…...
点云聚类学习 KMeans/DBSCAN
点云聚类学习--KMeans/DBSCAN OverviewKMeansDBSCAN简单对比 Overview 最近做的东西会处理一些Lidar的点云数据,虽然之前在看Autoware的时候有了解一些聚类的基本原理和实现,但还是稍微再学习一下聚类方法吧,这里就简单记录一下(…...
反悔贪心
Problem - C - Codeforces(初识反悔贪心) 题目: 思路: 代码: #include <bits/stdc.h> #define fi first #define se secondusing namespace std; typedef pair<int,int> PII;string a, b, ans; bool vis…...
汽车软件融合分析
随着汽车智能化、互联化的不断发展,软件在汽车中的重要性日益彰显。从硬件定义汽车,到软件定义汽车,再到AI定义汽车,汽车产业的变革正在加速进行。在这一变革中,软件融合成为了一个重要的趋势。本文将从多个角度对汽车…...
机器人和智能的进化速度远超预期-ROS-AI-
危机 通常,有危险也有机遇才称之为危机。 从2020年启动转型自救,到2021年发现危险迫在眉睫,直到2024年也没有找到自己满意的出路。 共识 中产阶级知识分子共有的特性和一致的推断。 200年前的推断,在如今得到了验证。 机器人…...
5天学习RAG路线图,你信吗?
RAG是"Retrieval Augmented Generation"的缩写,让我们来拆解这个术语,了解RAG的本质: R -> Retrieval(检索) A -> Augmented(增强) G -> Generation(生成&…...
JIME智创:抖音创作者的AI绘画与视频生成创作神器
在短视频和社交内容创作的时代,创意和速度成了成功的关键。无论是视频博主、图文创作者还是品牌推广人,他们都面临着如何快速生成高质量图片与视频素材的挑战。JIME智创正是针对这一需求推出的AI创作工具,专为抖音的图文和视频创作者设计&…...
基于SpringBoot和PostGIS的世界各国邻国可视化实践
目录 前言 一、空间数据查询基础 1、空间数据库基础 2、空间相邻查询 二、SpringBoot后台功能设计 1、后台查询接口的实现 2、业务接口设计 三、Leaflet进行WebGIS开发 1、整体结构介绍 2、相邻国家展示可视化 四、成果展示 1、印度及其邻国 2、乌克兰及其邻国 3、…...
Halcon相机外参自理解
外参描述了相机在世界坐标系中的位置和朝向,即它将世界坐标转换为相机坐标的几何变换。具体来说,外参包括一个 旋转矩阵 R R R 和一个 平移向量 t t t,它们共同构成了将世界坐标变换到相机坐标系的刚体变换 相机标定的Pose0代表了相机在外界…...
C#语言入门:从基础到进阶
C#(发音为"C sharp")是微软公司推出的一种面向对象的编程语言,它由Anders Hejlsberg和他的团队在.NET框架下开发。C#语言结合了C和Java的特性,并添加了新的功能,使其成为当今最流行的编程语言之一。 C#的特…...
网络爬虫的定义
网络爬虫,即Web Spider,是一个很形象的名字。 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。 网络蜘蛛是通过网页的链接地址来寻找网页的。 从网站某一个页面(通常是首页)开始,读取网页…...
一个月调研分析标的“英伟达”
放在现在依然成立 一、移动网兴起至今的最佳股票与人工智能时代的目标 9 年移动网兴起至今,若选一只股票长期持有,最佳解是 ARM(涨了 20 倍),因为无论系统层和应用层谁胜出,底层一定是芯片,而…...
Spring Boot 与 EasyExcel 携手:复杂 Excel 表格高效导入导出实战
数据的并行导出与压缩下载:EasyExcel:实现大规模数据的并行导出与压缩下载 构建高效排队导出:解决多人同时导出Excel导致的服务器崩溃 SpringBoot集成EasyExcel 3.x: 前言 在企业级应用开发中,常常需要处理复杂的 …...
什么是严肃游戏,严肃游戏本地化的特点是什么?
“严肃游戏”是一种交互式数字体验,不仅用于娱乐,还用于教育、培训或解决问题。与主要关注乐趣和参与度的传统游戏不同,严肃游戏的目标不仅仅是娱乐,比如教授特定技能、模拟现实生活场景或提高对重要问题的认识。它们用于医疗保健…...
ceph补充介绍
SDS-ceph ceph介绍 crushmap 1、crush算法通过计算数据存储位置来确定如何存储和检索,授权客户端直接连接osd 2、对象通过算法被切分成数据片,分布在不同的osd上 3、提供很多种的bucket,最小的节点是osd # 结构 osd (or device) host #主…...
2024/11/1 408 20题
b d c c a b d c c...
会议纪要秒变问答库!WeKnora即时知识系统实战教程
会议纪要秒变问答库!WeKnora即时知识系统实战教程 1. 为什么你需要一个"不跑题"的会议助手? 想象这些常见的工作场景: 项目复盘会上,有人问"三个月前那次迭代的排期是怎样的?",所有…...
Fish Speech 1.5教育场景应用:AI教师语音生成+多语种课件配音案例
Fish Speech 1.5教育场景应用:AI教师语音生成多语种课件配音案例 1. 引言:教育语音合成的痛点与解决方案 你有没有遇到过这样的情况?深夜备课到凌晨,还要为明天的课程录制语音讲解;或者需要制作多语言版本的教学内容…...
【Guava】并发编程ListenableFutureService
在技术领域,我们常常被那些闪耀的、可见的成果所吸引。今天,这个焦点无疑是大语言模型技术。它们的流畅对话、惊人的创造力,让我们得以一窥未来的轮廓。然而,作为在企业一线构建、部署和维护复杂系统的实践者,我们深知…...
别急着升级Win11 24H2!先看看这10个必做的性能调优(附保姆级截图)
别急着升级Win11 24H2!先看看这10个必做的性能调优(附保姆级截图) 每次Windows大版本更新都像开盲盒——有人欢呼性能飞跃,有人抱怨卡顿加剧。24H2作为微软首个深度整合AI能力的年度更新,系统底层调度逻辑发生了显著变…...
如何用免费工具3步完成华硕游戏本终极性能调校:完整指南
如何用免费工具3步完成华硕游戏本终极性能调校:完整指南 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Strix, …...
N16 LCD
一、LCD简介LCD 液晶显示屏。i.MX6ULL 里驱动它的模块叫:eLCDIF Enhanced LCD Interface(增强型 LCD 接口,芯片内置的硬件控制器)分辨率:1920 * 1080 1280*720色域:帧率/刷新率:LCD 扫…...
BCompare_Keygen 授权激活实战指南:从评估错误到专业版授权的全面解决方案
BCompare_Keygen 授权激活实战指南:从评估错误到专业版授权的全面解决方案 【免费下载链接】BCompare_Keygen Keygen for BCompare 5 项目地址: https://gitcode.com/gh_mirrors/bc/BCompare_Keygen 【问题定义】Beyond Compare 评估期结束的核心痛点 当Bey…...
Hermes性能优化:如何提高邮件生成速度和降低资源消耗
Hermes性能优化:如何提高邮件生成速度和降低资源消耗 【免费下载链接】hermes Golang package that generates clean, responsive HTML e-mails for sending transactional mail 项目地址: https://gitcode.com/gh_mirrors/he/hermes Hermes是一个Golang包&a…...
容器环境下各种兼容模式+多实例
注意: #多实例端口不同数据目录不同容器名不同 1. -p 主机端口:容器端口 容器端口永远是 54321(不用改) 主机端口必须不一样:4321、4322、4323... 一个端口只能给一个数据库用,就像一个门不能同时进两个人。2. -v 主机…...
Factory IO + S7-PLCSIM V18 仿真避坑指南:如何解决传感器信号丢失和传送带卡料问题
Factory IO与S7-PLCSIM V18工业仿真实战:传感器优化与传送带故障排除指南 在工业自动化仿真领域,Factory IO与西门子S7-PLCSIM V18的组合已经成为工程师验证智能工厂逻辑的高效工具链。这套解决方案能够完整模拟从物料加工到仓储的完整产线,但…...
