解决Python升级导致PySpark任务异常方案
背景
上一篇文章中写了 Linux 多Python版本统一和 PySpark 依赖 python 包方案,但是最近升级 Linux 服务器 上 Python 版本(3.6.8 -> 3.7.16,手动编译Python官方的二进制源码)之后,发现之前文章提到 python3 -m venv /path 方式打包 python.zip 包后,之前 pyspark 任务运行出现 Fatal Python error: initfsencoding: Unable to get the locale encoding。ModuleNotFoundError: No module named 'encodings 异常,导致任务失败。尝试多次编译Python源码和尝试网上提供的解决方案,发现还是不行。
后续发现可以通过 conda 虚拟环境打包方案,可以解决上面出现的问题。
解决方案
# 官方下载 Python 版本,并手动编译
tar -xvf Python-3.7.16.tar.xzcd Python-3.7.16./configure --prefix=/usr/local/python3.7.16 --enable-shared --with-ssl && make && make install# linux 服务器 Python 版本软连接变更(根据自己连接调整)
cd /usr/bin# 软连接如果存在,则删除
ln -s /usr/local/python3.7.16/bin/python3.7 python3.7rm -rf python3ln -s python3.7 python3python3 -V#根据需要创建通用软连接
ln -s /usr/local/python3.7.16 /usr/local/python3#依赖的 python3.zip 下面这个方法打包有问题,encodings 包有缺失问题。所以 下面采用 conda 虚拟环境打包
#Pyspark 任务运行出现类似这样异常 Fatal Python error: initfsencoding: Unable to get the locale encoding。ModuleNotFoundError: No module named 'encodingspython3 -m venv /home/root/python3.7.16-venv/#通过 conda 来打包 python3.zip,解决之前方法打包遗漏问题,官方下载安装 Miniconda3软件包# 添加执行权限
chmod +x Miniconda3-latest-Linux-x86_64.sh
#安装
./Miniconda3-latest-Linux-x86_64.sh# 使环境变量生效,后续不用再注释掉 ~/.bashrc 中新增的 conda 配置
source ~/.bashrc# 激活环境
source activate py37_env# 退出环境
conda deactivate# 查看环境位置
conda env list# 进入环境目录(通常在)
cd /root/miniconda3/envs/py37_env# 创建打包目录
mkdir -p ~/python37_pack
cd ~/python37_pack# 复制必要文件
cp -r ../lib .
cp -r ../bin .# 打包
zip -r python37.zip *mv /usr/local/python3/python3.zip /usr/local/python3/python3.zip.bak.$(date +%Y-%m-%d)
cp python37.zip /usr/local/python3/# 注释 conda 环境变量,conda 默认环境Python版本比较高
echo $PATH#如果linux 服务器上安装的Python版本跟 conda 自身Python 版本不一致,注释掉 类似以下的 Conda 相关配置即可[root@-centos miniconda3]# pwd
/root/miniconda3
[root@-centos miniconda3]# ./bin/python3 -V
Python 3.12.9
[root@-centos miniconda3]# python3 -V
Python 3.7.16vim ~/.bashrc[root@-centos miniconda3]# cat ~/.bashrc
# .bashrc# User specific aliases and functionsalias rm='rm -i'
alias cp='cp -i'
alias mv='mv -i'# Source global definitions
if [ -f /etc/bashrc ]; then. /etc/bashrc
fi# >>> conda initialize >>>
# !! Contents within this block are managed by 'conda init' !!
#__conda_setup="$('/root/miniconda3/bin/conda' 'shell.bash' 'hook' 2> /dev/null)"
#if [ $? -eq 0 ]; then
# eval "$__conda_setup"
#else
# if [ -f "/root/miniconda3/etc/profile.d/conda.sh" ]; then
# . "/root/miniconda3/etc/profile.d/conda.sh"
# else
# export PATH="/root/miniconda3/bin:$PATH"
# fi
#fi
#unset __conda_setup
# <<< conda initialize <<<source ~/.bashrc
# PySpark 验证最小demofrom pyspark.sql import SparkSessionspark = SparkSession.builder.getOrCreate()
rdd = spark.sparkContext.parallelize([1, 2, 3])
print(rdd.map(lambda x: x * 2).collect())
spark.stop()#手动提交命令 client 或 cluster 都行
spark-submit --master yarn --deploy-mode cluster --archives file:///usr/local/python3/python3.zip#python3 --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./python3/bin/python3 /xxx/test.py
相关文章:
解决Python升级导致PySpark任务异常方案
背景 上一篇文章中写了 Linux 多Python版本统一和 PySpark 依赖 python 包方案,但是最近升级 Linux 服务器 上 Python 版本(3.6.8 -> 3.7.16,手动编译Python官方的二进制源码)之后,发现之前文章提到 python3 -m v…...
Linux中线程创建,线程退出,线程接合
线程的简单了解 之前我们了解过 task_struct 是用于描述进程的核心数据结构。它包含了一个进程的所有重要信息,并且在进程的生命周期内保持更新。我们想要获取进程相关信息往往从这里得到。 在Linux中,线程的实现方式与进程类似,每个线程都…...
机器视觉检测中,2D面阵相机和线扫相机的区别
2D面阵相机和线扫相机是工业视觉系统中常用的两种相机类型,各有其特点和应用场景。 2D面阵相机 特点: 成像方式:通过二维传感器一次性捕捉整个场景的图像。 分辨率:分辨率由传感器的像素数决定,常见的有百万像素到几千…...
LeetCode 热题 100_N 皇后 (62_51_困难_C++)(递归(回溯))
LeetCode 热题 100_N 皇后(62_51) 题目描述:输入输出样例:题解:解题思路:思路一(递归(回溯)): 代码实现代码实现(思路一(递…...
Winform(C#) 项目保存页面
上一张我们已经实现了TCP和串口页面的数据展示,和保存控件 我们这一章,实现如何去,控制保存。 一、控件展示 CheckBox TextBox Button label Name: checkSaveImage checkDelete txtSaveDays txtSaveImagePath btnSelectIm…...
【LeetCode: LCR 126. 斐波那契数 + 动态规划】
🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…...
OSPF(开放路径最短优先)
ospf优先级:内部优先级默认为10,外部优先级默认为150 1.ospf的三张表 (1)邻居表 <记录邻居状态和关系> (2)拓扑表 <链路状态数据库> (3)路由表 <对链路状态数据库进…...
JAVA EE初阶 - 预备知识(四)
一、API API 即应用程序编程接口(Application Programming Interface),是一组定义、协议和工具,用于不同软件组件、应用程序或系统之间进行交互和通信。以下从多个方面详细介绍 API: 基本概念 接口规范:A…...
如何解决服务器端口被攻击:全面防护与快速响应
服务器端口被攻击是网络安全中常见的问题之一,尤其是当服务器暴露在公共网络上时,容易成为黑客的目标。攻击者可能通过扫描开放端口、利用漏洞或发动拒绝服务(DoS/DDoS)攻击来破坏服务器的正常运行。本文将详细介绍如何检测、防御…...
golang panic原理
数据结构与底层实现 Goroutine结构体 stack(栈内存范围) 结构体类型,包含 lo(低地址)和 hi(高地址)两个 uintptr 字段,描述 Goroutine 的栈内存区间 [lo, hi)。初始栈大小为 2KB&a…...
scratch猜年龄互动小游戏 2024年12月scratch四级真题 中国电子学会 图形化编程 scratch四级真题和答案解析
scratch猜年龄互动小游戏 2024年12月电子学会图形化编程Scratch等级考试四级真题 一、题目要求 老爷爷的年龄是1-100的随机数,老爷爷询问“请猜猜我的年龄是多少?”,输入年龄,老爷爷会回答"大了"或者"小了,直到最后成功猜出年龄。 1、准备工作 (1)删…...
【Elasticsearch】查询规则_query_rules
1.Query Rules 的定义与作用 Query Rules 是 Elasticsearch 提供的一种功能,允许用户根据预定义的规则动态调整搜索结果。它通过匹配查询的元数据(如用户输入、地理位置、用户兴趣等),对搜索结果进行定制化调整,例如固…...
Git备忘录(三)
设置用户信息: git config --global user.name “itcast” git config --global user.email “ helloitcast.cn” 查看配置信息 git config --global user.name git config --global user.email $ git init $ git remote add origin gitgitee.com:XXX/avas.git $ git pull or…...
用户的声音 | 文档结构化信息提取方案测评:LLM、开源模型部署与云端API,谁是合适选择?
文档预处理之文本化 近日,我们收到来自专业用户的使用心得,浅析结构化信息提取技术、技术选型及一些个人测试。 结构化信息提取的重要性 数据作为大模型时代的核心生产资料,其结构化处理能力直接影响AI系统的实用价值。尽管知识图谱、RAG等…...
vite调试node_modules下面插件
在使用vite进行开发的时候,我们可能想要修改node_modules中插件的源码.特别是集成一个SDK,需要调试去判断问题时,或者研究第三方源码时后; vite默认是走缓存的,所以当修改后不会看到你打印的日志,这个时候有几种方法可以选择; 方式…...
ES12 weakRefs的用法和使用场景
ES12 (ECMAScript 2021) 特性总结:WeakRef 1. WeakRef 概述 描述 WeakRef 是 ES12 引入的一个新特性,用于创建对对象的弱引用。弱引用不会阻止垃圾回收器回收对象,即使该对象仍然被弱引用持有。WeakRef 通常与 FinalizationRegistry 结合使…...
【Python】集合set详细讲解(语法、操作、集合运算、性能、使用场景)
文章目录 1. 语法1.1 使用 {} 定义1.2 使用 set() 定义 2. 特点3. 常用操作3.1 访问元素3.2 查找数据3.3 添加元素3.3.1 add() 方法3.3.2 update()方法 3.4 删除元素3.4.1 remove()方法3.4.2 discard()方法3.4.3 pop()方法3.4.4 clear()方法 3.5 集合运算3.5.1 并集:…...
网络安全大数据架构 网络安全之数据安全
🍅 点击文末小卡片 ,免费获取网络安全全套资料,资料在手,涨薪更快 网络安全和数据安全 从狭义来说,网络安全指网络系统的硬件、软件及其系统中的数据受到保护,不因偶然的或恶意的原因遭到破坏、更改、泄露&…...
(前端基础)CSS(一)
了解 Cascading Style Sheet:层叠级联样式表 CSS:表现层(美化网页)如:字体、颜色、边框、高度、宽度、背景图片、网页定位、网页浮动 css优势: 内容和表现分离网页结构表现统一,可以实现复用…...
Redis数据类型全景解析:从底层编码到应用反模式
一、核心数据类型矩阵 1.1 基础类型对比表 类型底层结构最大容量时间复杂度典型场景StringSDS/Embstr/Raw512MBO(1)读写缓存/计数器ListQuickList(ziplist)2^32-1元素头尾操作O(1)消息队列Hashziplist/hashtable2^32-1键值对O(1)平均对象存储Setintset/hashtable2^32-1成员O(…...
5分钟极速安装:通达信缠论插件ChanlunX让技术分析智能化
5分钟极速安装:通达信缠论插件ChanlunX让技术分析智能化 【免费下载链接】ChanlunX 缠中说禅炒股缠论可视化插件 项目地址: https://gitcode.com/gh_mirrors/ch/ChanlunX 你是否还在为复杂的缠论分析而头疼?面对K线图中的顶底分型、笔段划分、中枢…...
你的USB声卡不止能听歌:手把手教你用Python+libusb玩转UAC设备控制(获取/设置采样率、音量)
用Python操控USB声卡:从采样率调节到音频流捕获的完整指南 当我在工作室调试多麦克风阵列时,发现手动调节每个USB麦克风的采样率不仅耗时,还容易出错。那一刻我意识到,如果能用Python脚本批量控制这些设备,工作效率将大…...
Android布局避坑指南:TableLayout的列拉伸收缩,以及FrameLayout的层级覆盖问题怎么解?
Android布局优化实战:TableLayout列宽控制与FrameLayout层级管理 1. 理解TableLayout的核心机制 TableLayout作为Android传统布局容器之一,其表格化特性在数据展示类界面中仍有独特价值。但许多开发者常陷入一个误区——认为它和HTML表格一样具有灵活的列…...
斐波那契准晶压缩算法:高效数据压缩新方法
1. 项目概述斐波那契准晶压缩算法是一种基于数学序列与准晶几何结构的新型数据压缩技术。这个算法最吸引我的地方在于它巧妙地将自然界中存在的准晶排列规律应用到了数据编码领域。传统压缩算法大多基于离散余弦变换或哈夫曼编码,而斐波那契准晶压缩则开辟了一条全新…...
MySQL 查询缓存与执行计划交互机制
MySQL 查询缓存与执行计划交互机制探析 在数据库性能优化中,MySQL的查询缓存与执行计划是两大关键机制。查询缓存通过存储SELECT语句及其结果集,减少重复计算;而执行计划则是优化器生成的查询路径,直接影响查询效率。两者的交互机…...
LinkSwift:开源网盘直链解析工具的技术实现与应用
LinkSwift:开源网盘直链解析工具的技术实现与应用 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘…...
元宇宙移动端开发指南:从零开始构建AR/VR虚拟世界的完整教程
元宇宙移动端开发指南:从零开始构建AR/VR虚拟世界的完整教程 【免费下载链接】android_guides Extensive Open-Source Guides for Android Developers 项目地址: https://gitcode.com/gh_mirrors/an/android_guides GitHub 加速计划的 android_guides 项目提…...
Windows Cleaner:3分钟告别C盘爆红,让你的电脑重获新生!
Windows Cleaner:3分钟告别C盘爆红,让你的电脑重获新生! 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服! 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 你是否曾经打开电脑&a…...
从两个“低级错误”反思Verilog代码规范:你的工程里可能也有这些隐患
从两个“低级错误”反思Verilog代码规范:你的工程里可能也有这些隐患 在数字电路设计领域,Verilog作为主流硬件描述语言,其代码质量直接影响着项目的成败。然而,许多团队在开发过程中常常陷入"救火式"调试的困境——花费…...
Vite打包压缩插件vite-plugin-pack-orchestrator,自动搞定压缩、校验、自动哈希命名
📦 Vite 构建压缩插件:vite-plugin-pack-orchestrator 🤔 为什么又造一个轮子? 市面上已经有一些 Vite 打包插件,比如 vite-plugin-zip-pack、vite-plugin-compress 等,能用,但总差那么点意思…...
