当前位置: 首页 > article >正文

Pyspark环境搭建及案例(Windows)

Windows环境下开发pyspark程序一、环境准备Anaconda Python 虚拟环境1. 安装 Anaconda推荐下载地址https://www.anaconda.com/products/distribution安装时选择“Add Anaconda to PATH”会更方便。2、新建虚拟环境使用conda新建一个虚拟环境用于PySpark开发Python虚拟环境windows✅ 推荐使用python3.12兼容性好适合新项目。conda create -p D: \APP\Anaconda\envs\spark_env python3.122 、查看虚拟环境是否创建成功conda env list3、激活环境 并安装 PySpark 与必要依赖conda activate 环境名 #激活环境 pip install pyspark # 安装pyspark pip install psutil # 安装psutil二、安装hadoop \ winutils下载hadoop一镜像网站下载推荐镜像下载https://mirrors.aliyun.com/apache/hadoop/core/hadoop-3.4.2/下载文件hadoop-3.4.2.tar.gz或.zip解压到本地例如E:\hadoop-3.4.2二官方网站下载1、到官方网站下载 hadoop 这里我下载的是3.4.2版本2、点击下载3、双击安装包 解压到自己的磁盘中下载winutils Windows 下的 Hadoop 工具GitHub/Gitee 下载Gitee 镜像国内推荐https://gitee.com/nkuhyx/winutils 注意选择与你 Hadoop 版本匹配的bin文件夹1、配置winutils解压文件选择hadoop版本(我这里是选择3.3.0版本的)对应的文件夹bin目录下的hadoop.dll和winutils.exe文件将hadoop.dll和winutils.exe 拷贝到E:\hadoop-3.4.2\bin 、C:\Windows\System32下两个文件各拷贝一份到两个目录中三、配置环境变量1、配置系统变量HADOOP_HOME2、配置系统变量 path路径 添加%HADOOP_HOME%\bin4、环境测试打开cmdhadoop version四、解决问题1、问题1解决方法查看Java版本确定java 环境变量是否配置成功 这里最好用jdk8 也就是jdk 1.8. Hadoop 官方文档明确支持 JDK 8Hadoop 官方推荐的 Java 版本是 Java 8JDK 1.8官方文档Apache Hadoop 3.4.3 – Hadoop Cluster Setup 中明确写Java 8 is the only officially supported version for Hadoop 3.x.❌ JDK 9包括 11、17、22不再支持存在兼容性问题JDK 8 下载Temurinhttps://adoptium.net/temurin/releases/?version81找到hadoop\etc\hadoop这个目录下的hadoop-env.cmd这个命令脚本。修改JAVA_HOME我的JAVA的安装路径为D:\JDK1.8检查问题解决2、问题 2WinUtils.dll not found报错java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.✅ 解决方法确保 winutils.exe 和 hadoop.dll 已复制到E:\hadoop-3.4.2\bin\C:\Windows\System32\确保 Hadoop 路径配置正确HADOOP_HOME重启 CMD重新运行命令五、验证 PySpark 是否可用测试代码from pyspark.sql import SparkSession # 创建 SparkSession spark SparkSession.builder \ .appName(LocalTest) \ .master(local[*]) \ .getOrCreate() # 创建一个简单 DataFrame data [(Alice, 25), (Bob, 30)] df spark.createDataFrame(data, [Name, Age]) # 显示数据 df.show() # 停止 SparkSession spark.stop()输出--------| Name|Age|--------|Alice| 25|| Bob| 30|六、总结检查项是否完成使用 Anaconda 创建虚拟环境✔️激活环境并安装pyspark、psutil✔️下载 Hadoop 3.4.2 并解压至指定路径✔️下载 winutils3.4.2 版本对应✔️复制winutils.exe和hadoop.dll到 bin 和 System32✔️配置HADOOP_HOME和PATH✔️配置JAVA_HOME指向 JDK 8✔️运行hadoop version测试成功✔️PySpark 测试代码运行通过✔️推荐资源不想下载可以直接从我网盘网盘获取 资源链接Hadoop 官方文档https://hadoop.apache.org/docs/stable/JDK 8 下载Temurinhttps://adoptium.net/temurin/releases/?version8winutilsGitee 镜像https://gitee.com/nkuhyx/winutilsHadoop 3.4.2 下载https://mirrors.aliyun.com/apache/hadoop/core/hadoop-3.4.2/

相关文章:

Pyspark环境搭建及案例(Windows)

Windows环境下开发pyspark程序 一、环境准备:Anaconda Python 虚拟环境 1. 安装 Anaconda(推荐) 下载地址:https://www.anaconda.com/products/distribution 安装时选择“Add Anaconda to PATH”会更方便。 2、新建虚拟环境 使…...

终极指南:如何用buger/jsonparser实现10倍性能的Go JSON解析

终极指南:如何用buger/jsonparser实现10倍性能的Go JSON解析 【免费下载链接】jsonparser One of the fastest alternative JSON parser for Go that does not require schema 项目地址: https://gitcode.com/gh_mirrors/js/jsonparser buger/jsonparser是Go…...

Zemax光学设计(三)——从艾里斑到系统分辨率:衍射极限的实战解析

1. 艾里斑:光学的终极像素 当你用手机拍夜景时,为什么远处的路灯总变成模糊的光团?这背后隐藏着光学系统的基本限制——艾里斑。我在设计微型内窥镜镜头时,曾花了三周时间优化像差,最终却发现图像清晰度卡在一个无法突…...

巧用Google Maps与ScreenToGif:零行程数据也能轻松生成动态路线图

1. 从零开始制作动态路线图的必备工具 最近有个朋友问我:"想给客户展示项目选址的交通路线,但实地考察还没开始,怎么做出专业的动态路线图?"这让我想起自己两年前第一次做商业提案时的窘境——当时为了展示物流配送路线…...

FunASR Docker部署避坑大全:从SSL证书报错到热词不生效,一次解决所有常见问题

FunASR Docker实战排障指南:从证书配置到热词优化的深度解决方案 当你第一次尝试在Docker环境中部署FunASR语音识别服务时,那些看似简单的命令行参数背后可能藏着无数个"坑"。本文不会重复官方文档的基础操作,而是聚焦于五个最具代…...

OpenAirInterface (OAI) 实战:如何用USRP搭建你的第一个5G仿真环境(附避坑指南)

OpenAirInterface (OAI) 实战:如何用USRP搭建你的第一个5G仿真环境(附避坑指南) 当5G技术从实验室走向商业化时,开源软件无线电平台OpenAirInterface(OAI)正成为开发者验证创新想法的关键工具。不同于商业设…...

Cursor Pro功能解锁全攻略:从免费版到专业体验的完整指南

Cursor Pro功能解锁全攻略:从免费版到专业体验的完整指南 【免费下载链接】cursor-free-vip [Support 0.45](Multi Language 多语言)自动注册 Cursor Ai ,自动重置机器ID , 免费升级使用Pro 功能: Youve reached your …...

如何用XHS-Downloader解决内容采集难题?3大维度提升效率90%

如何用XHS-Downloader解决内容采集难题?3大维度提升效率90% 【免费下载链接】XHS-Downloader 小红书(XiaoHongShu、RedNote)链接提取/作品采集工具:提取账号发布、收藏、点赞、专辑作品链接;提取搜索结果作品、用户链接…...

西门子PLC存储区全解析:从M区到DB块的实战避坑指南

西门子PLC存储区全解析:从M区到DB块的实战避坑指南 第一次接触西门子PLC编程时,面对M区、L区和DB块这些存储区概念,我完全摸不着头脑。记得有次调试设备,明明在线监控看到M0.0已经置位,但程序就是不执行相应动作&#…...

Benchmark.js 配置选项终极指南:如何优化你的 JavaScript 性能测试环境

Benchmark.js 配置选项终极指南:如何优化你的 JavaScript 性能测试环境 【免费下载链接】benchmark.js A benchmarking library. As used on jsPerf.com. 项目地址: https://gitcode.com/gh_mirrors/be/benchmark.js Benchmark.js 是一款专业的 JavaScript 性…...

效率倍增:基于快马平台集成最新openclaw构建自动化采集工具

最近在做一个数据采集项目时,发现手动写爬虫实在太费时间了。每次都要重复处理请求头、代理设置、数据清洗这些基础工作,效率特别低。后来发现了openclaw这个工具包的新版本,正好结合InsCode(快马)平台快速搭建了一个自动化采集工具&#xff…...

终极指南:如何构建现代化微服务架构 - Zend Framework Expressive完整教程

终极指南:如何构建现代化微服务架构 - Zend Framework Expressive完整教程 【免费下载链接】zendframework Official Zend Framework repository 项目地址: https://gitcode.com/gh_mirrors/ze/zendframework 在当今快速发展的微服务架构时代,PHP…...

Qwen3-TTS作品分享:听AI朗读你的日记、诗歌和故事

Qwen3-TTS作品分享:听AI朗读你的日记、诗歌和故事 1. 为什么你需要一个会"读心"的语音合成工具 想象一下这样的场景:深夜写完日记,点击播放键,听到一个温暖的声音将你的文字娓娓道来;创作完一首诗&#xf…...

嵌入式AI新篇章:Qwen3-ASR-0.6B在边缘计算设备上的部署与优化

嵌入式AI新篇章:Qwen3-ASR-0.6B在边缘计算设备上的部署与优化 1. 引言:当语音识别遇见边缘计算 想象一下,你对着一个巴掌大的智能音箱说话,它几乎在你话音落下的瞬间就理解了你的意思,并且完全不需要连接云端。或者&…...

Local AI MusicGen商业应用:电商视频智能配乐

Local AI MusicGen商业应用:电商视频智能配乐 你是不是也遇到过这样的烦恼?制作电商短视频时,翻遍了免费音乐库,要么版权有问题,要么风格不搭,要么就是千篇一律的背景音。自己配乐?没那个时间和…...

Metro性能监控终极指南:如何快速分析和优化React Native打包构建过程

Metro性能监控终极指南:如何快速分析和优化React Native打包构建过程 【免费下载链接】metro 🚇 The JavaScript bundler for React Native 项目地址: https://gitcode.com/gh_mirrors/me/metro Metro作为React Native的官方JavaScript打包工具&a…...

Qwen3.5-2B实战入门:20亿参数多模态模型图文对话快速上手指南

Qwen3.5-2B实战入门:20亿参数多模态模型图文对话快速上手指南 1. 认识Qwen3.5-2B Qwen3.5-2B是一款轻量级多模态基础模型,属于Qwen3.5系列的小参数版本(20亿参数)。这个模型特别适合在资源有限的设备上运行,比如个人…...

别再傻等DockerHub了!手把手教你配置阿里云镜像加速,5分钟搞定MySQL 8.0拉取

国内开发者必备:5分钟配置Docker镜像加速全攻略 每次在终端输入docker pull后,看着进度条像蜗牛一样缓慢移动,或者干脆直接报错Error response from daemon,这种体验对国内开发者来说再熟悉不过了。DockerHub的服务器远在海外&am…...

HelixDB部署与运维:从本地开发到生产环境的完整流程

HelixDB部署与运维:从本地开发到生产环境的完整流程 【免费下载链接】helix-db HelixDB is a powerful, graph-vector database built entirely in Rust for millisecond query latency and ease of use. 项目地址: https://gitcode.com/gh_mirrors/he/helix-db …...

nli-distilroberta-base参数解析与调优指南:关键配置项详解

nli-distilroberta-base参数解析与调优指南:关键配置项详解 1. 引言 如果你正在使用nli-distilroberta-base模型进行自然语言推理任务,可能会遇到这样的困惑:为什么同样的模型在不同机器上运行速度差异这么大?为什么有时候推理结…...

避坑指南:微信支付V3 SDK自动更新证书失败的5种常见原因及修复方法

微信支付V3证书自动更新失败排查手册:从原理到实战修复 微信支付的V3版本SDK以其自动证书更新机制著称,但不少开发者在集成过程中都遭遇过AutoUpdateCertificatesVerifier的失败问题。证书更新失败不仅会导致支付功能中断,还可能引发验签错误…...

从CFG到PDG:5个真实案例解析程序依赖图在安全审计中的应用

从CFG到PDG:5个真实案例解析程序依赖图在安全审计中的应用 在软件安全领域,漏洞检测的精准度往往取决于代码分析的深度。传统控制流图(CFG)虽然能描绘执行路径,却难以捕捉数据流转的潜在风险。程序依赖图(P…...

MusePublic Art Studio效果展示:复杂提示词(多主体/空间关系/光照条件)解析能力

MusePublic Art Studio效果展示:复杂提示词(多主体/空间关系/光照条件)解析能力 1. 创作工具新体验 MusePublic Art Studio让AI图像生成变得像使用画笔一样简单。这个工具专门为创作者设计,不需要懂任何代码技术,通过…...

Java结构化并发崩溃了?手把手教你用VirtualThread+StructuredTaskScope定位线程泄漏与作用域越界(附JDK21真机调试录屏)

第一章:Java结构化并发崩溃了?手把手教你用VirtualThreadStructuredTaskScope定位线程泄漏与作用域越界(附JDK21真机调试录屏)Java 21 正式引入结构化并发(Structured Concurrency),其核心组件 …...

终极音乐解锁方案:在浏览器中实现加密音乐文件高效转换完整指南

终极音乐解锁方案:在浏览器中实现加密音乐文件高效转换完整指南 【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库: 1. https://github.com/unlock-music/unlock-music ;2. https://git.unlock-music.dev/um/web 项目地…...

Layerdivider:零基础上手图像分层工具的完整指南

Layerdivider:零基础上手图像分层工具的完整指南 【免费下载链接】layerdivider A tool to divide a single illustration into a layered structure. 项目地址: https://gitcode.com/gh_mirrors/la/layerdivider 为什么自动分层总是不尽如人意?设…...

S2-Pro企业级监控告警集成:与Prometheus和Grafana的实战

S2-Pro企业级监控告警集成:与Prometheus和Grafana的实战 1. 为什么企业级AI服务需要监控告警 AI服务在生产环境运行时,就像一辆24小时行驶的汽车,需要仪表盘来显示各项关键指标。想象一下,如果你开车时看不到油量表、水温计和速…...

如何永久保存微信聊天记录:免费工具实现数据可视化与年度报告生成

如何永久保存微信聊天记录:免费工具实现数据可视化与年度报告生成 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trendi…...

Godot-MCP:如何通过双向语义桥梁解决游戏开发中的创意断层问题

Godot-MCP:如何通过双向语义桥梁解决游戏开发中的创意断层问题 【免费下载链接】Godot-MCP An MCP for Godot that lets you create and edit games in the Godot game engine with tools like Claude 项目地址: https://gitcode.com/gh_mirrors/god/Godot-MCP …...

别再纠结了!.NET后台任务调度,Hangfire和Quartz.NET到底怎么选?

Hangfire与Quartz.NET深度抉择指南:从业务场景到技术实现的精准匹配 在.NET生态系统中,后台任务调度是几乎所有企业级应用都无法绕开的核心需求。无论是电商平台的订单状态更新、金融系统的日终批处理,还是内容管理系统的定时数据同步&#x…...