当前位置: 首页 > news >正文

使用Shell传参解决DataPhin中PySpark不支持中文的问题

使用Shell传参解决DataPhin中PySpark不支持中文的问题

背景

笔者开发PySpark任务时【别问为神马不用Java和Scala打Jar包的方式,PySpark不需要打包所以开发效率极高,早点搞完早点下班】,遇到一个令所有SQL Boy都很头疼的问题,那就是一旦Python脚本中出现中文,该PySpark任务就报错且无法运行。所以人才们当然是异常机智,先搞个中间表把中文改成拼音,PySpark跑完了再搞个Hive On Tez任务把拼音改回中文,这种笨办法只适合于中文值的种类屈指可数的场景。

由于PySpark任务不能像Hive On Tez任务那样由DataPhin自动解析血缘和依赖,还不支持中文,所以SQL Boy们也是一度灰常嚣张,总觉得Hive On Tez任务就是最好的任务。只有遇到Tez极其严重的性能问题,才会想起来Spark的好处。

作为曾经的平台开发攻城狮,自然是不能让这股风气蔓延,不然大家都变成SQL Boy了,还和Oracle数据库开发攻城狮有啥区别。。。势必解决这个问题。

解决方式

既然Py文件中不能写中文,而我又要用中文,那么借鉴Java开发中常见的前后端Json传参的方式,我也可以Shell给Py文件动态传参,这样Py文件中就完美的规避了中文的明文,自然Py不会报错,而参数值又可以让Python调用系统方法拿到。所以可以这么尝试:

echo "START"
cat > zhiyong.py <<E0F 
# -*- coding: UTF-8-*import sys 
reload(sys)
sys.setdefaultencoding('utf-8')from pyspark.sql import SparkSession 
spark = SparkSession \.builder	\.appName("project_week_his_incre_daily_prod")	\.config("hive.exec.dynamic.partition","true")	\.config("hive.exec.dynamic.partition.mode","nonstrict")	\.getOrCreate()str_bizdate=sys.argv[1]str_param1=sys.argv[4].strip()
str_param2=sys.argv[5].strip()
str_param3=sys.argv[6].strip()sq11="""select '""" + str_param3 + """' as str_param3"""
spark.sql(sql1).show()EOFhive_db1="hive_db_name1"
hive_db2="hive_db_name2"
STR1="中文1"
STR2="中文2"
STR3="中文3"spark-submit --master yarn --deploy-modeclient --driver-memory 4G --executor-memory 4G --executor-cores 1 --conf spark.dynamicAllocation.enabled=true --conf spark.dynamicAllocation.minExecutors=10 --conf spark.dynamicAllocation.maxExecutors=50 --confspark.memory.fraction=0.95 --confspark.shuffle.service.enabled=true --conf spark.ui.port=4180 --conf spark.port.maxRetries=128--conf spark.rpc.timeout=600s --conf spark.debug.maxToStringFields=4096 --conf spark.sql.crossJoin.enabled=true --conf spark.sgl.broadcastTimeout=600s --conf spark.sql.autoBroadcastJoinThreshold=-1 zhiyong.py ${bizdate} hive_db1 hive_db2 $STR1 $STR2 $STR3

经过验证,果然可以show出传入的中文参数!!!

原理

这个cat重定向的py文件不支持直接写中文,大概率是Encoder的问题。但是Shell本身可以正常写中文参数,说明Linux Node的中文语言包和character set正常,那么只需要在外层的Shell预先构建变量,再通过spark-submit提交这个py文件时传入这些内容为中文的String参数,即可在Python脚本中动态获取到变量的值,再去拼接SQL字符串给Spark的算子使用。Python文件中依旧不能有明文的中文。

SQL和拼接的其它中文字符串的注释可以用#注释掉,写在Shell的头上。

进一步排查

这么做,给SQL Boy们使用已经足够了,毕竟他们之前只搞过Oracle数据库开发当然也就只会SQL,除此之外没啥会的东西了。

但是从平台开发的视角,其实还是可以做进一步的分析。笔者的PyCharm一般是用Python3.7,这么搞PySpark任务即便有中文也跑的很欢快。出现这种情况,首先发现租来的阿里云DataPhin还是老掉牙的Python2.6,那么:

echo "START"
cat > zhiyong.py <<E0F 
# -*- coding: UTF-8-*

给Py文件的头上+个这玩意儿,期望当然是可以识别中文。

但是本地、扔服务器都可以跑有中文参数/SQL的PySpark任务,就是扔DataPhin跑不起来。。。

于是手动cat生成的py文件,发现了惊天大秘密:DataPhin解析有问题,把#的这一行当Linux的注释给filter了。。。

属实无语的操作。。。

所以更改脚本的解析方式,或者把基础环境的python升级到3.7都是个比shell传参更好的主意。平台的事情,就不是SQL Boy能解决的了。

转载请注明出处:https://lizhiyong.blog.csdn.net/article/details/129699142

在这里插入图片描述

相关文章:

使用Shell传参解决DataPhin中PySpark不支持中文的问题

使用Shell传参解决DataPhin中PySpark不支持中文的问题 背景 笔者开发PySpark任务时【别问为神马不用Java和Scala打Jar包的方式&#xff0c;PySpark不需要打包所以开发效率极高&#xff0c;早点搞完早点下班】&#xff0c;遇到一个令所有SQL Boy都很头疼的问题&#xff0c;那就…...

【CDH】cloudera manger 如何开启Debug 日志调试模式

前言 在安装 Cloudera Manger 时&#xff0c;遇到报错&#xff0c;需要开启Debug 日志级别来排查下问题原因。这里记录下 CM 如何开启 Debug 级别。 方法一&#xff1a;为整个服务启动DEBUG 如果 CM 无法启动&#xff0c;则可以为整个服务器启用 DEBUG 或 TRACE。 警告&…...

SQL Server 用户授权与回收

创建xxbbbb账号&#xff0c;账号可以在Company_report20221019.dbo.qfacccmprf表中进行select、 insert,update,delete --创建登录账号 create login xxbbbb with password12345#---创建用户 use Company_report20221019 create user xxbbbb for login xxbbbb---将qfacccmprf表…...

电脑出现乱码的原因以及解决方法

在日常使用电脑的过程中&#xff0c;经常会遇到电脑出现乱码&#xff0c;那么为什么会出现乱码呢&#xff1f;出现乱码又该怎么解决呢&#xff1f;下面我们一起来了解一下。 出现乱码的原因 系统乱码&#xff1a;主要是Windows中显示乱码&#xff0c;比如菜单、桌面、启动界面…...

网络工程师笔记

第一天&#xff1a; 编码就是转化为数字信号&#xff1b;调制就是转化为模拟信号&#xff1b; 调制&#xff1a; 1、基带调制&#xff08;不改变频率&#xff0c;只改变波形&#xff09; 2、带通调制&#xff08;迁移到较高的频段进行传输&#xff09; &#xff08;1&…...

linux用户添加用户组与目录切换用户组的操作记录

linux用户添加到多个组 usermod -G groupname username (这种会把用户从其他组中去掉&#xff0c;只属于该组) 如&#xff1a;usermod -G git git (git只属于git组) usermod -a -G groupname username (把用户添加到这个组&#xff0c;之前所属组不影响) 如&#xff1a;usermod…...

在CentOS 7上使用二进制文件安装单节点Kubernetes的详细步骤:

确保您的系统已经安装了Docker和etcd。如果没有&#xff0c;请按照以下命令安装它们&#xff1a; yum install docker etcd 启动Docker服务并将其设置为开机自启&#xff1a; systemctl start docker systemctl enable docker 下载所需的Kubernetes二进制文件。您可以从以下网…...

iCollections for mac 8.0.6.80608 保持Mac桌面的整洁

应用介绍 iCollections允许您在桌面上创建区域&#xff0c;以便您可以排序和排列图标。这可以帮助您将相关项目保持在一起&#xff0c;以便文件&#xff08;图片&#xff0c;文档&#xff0c;屏幕截图&#xff0c;应用程序等&#xff09;井井有条且易于查找。 小麦测试可以按照…...

学习HM微博项目第8天

步骤&#xff1a;发微博01-导航栏内容 -> 发微博02-自定义TextView -> 发微博03-完善TextView和发送微博按钮 -> 发微博04-显示工具条 -> 发微博05-封装工具条和相册 -> 发微博06-发送微博 发微博01-导航栏内容 APP的演示操作&#xff1a; 从APP的演示操作中可…...

十五、存储过程与函数

一、存储过程概述 1、简介 含义&#xff1a;存储过程的英文是 Stored Procedure 。它的思想很简单&#xff0c;就是一组经过 预先编译 的 SQL 语句的封装 执行过程&#xff1a;存储过程预先存储在 MySQL 服务器上&#xff0c;需要执行的时候&#xff0c;客户端只需要向服务器…...

php实现助记词转TRX,ETH 私钥和钱包地址

TRX助记词转地址网上都是Java&#xff0c;js或其他语言开发的示例&#xff0c;一个简单的功能需要依赖其他环境来实现表示不能忍&#xff0c;毕竟php是世界上最好的语言。【狗头】 一、知识准备 要实现助记词转TRX私钥和地址&#xff0c;先需要知道助记词和私钥钱包地址之间的…...

浅析可观测系统中sdk的不同引入方式的利与弊

文章前提是不考虑sw的方式引入&#xff0c;同时不考虑在nginx等自动注入js脚本的方式&#xff0c;那么基本就是两种大的形式&#xff1a;cdn引入和本地引入其中cdn引入有两种&#xff1a;cdn同步cdn异步本地引入有两种&#xff1a;npm本地js文件参考知识提前先补充一张图片正文…...

Google Earth导入经纬高(txt文件)

目录 一、提取GNSS数据生成txt文本文件 二、Google Earth导入txt文件 1、启动Google Earth 2、打开vig_result.txt...

Unity客户端开发工程师的进阶之路

UWA技能成长系统是UWA根据学员的职业发展目标&#xff0c;提供技能学习的推荐路径&#xff0c;再将所需学习内容按难易等多维度&#xff0c;设计分成多个学习阶段&#xff0c;可以循序渐进地进行学习。 进入技能成长体系&#xff0c;目标选择高级客户端开发工程师&#xff08;U…...

2023年全国最新高校辅导员精选真题及答案34

百分百题库提供高校辅导员考试试题、辅导员考试预测题、高校辅导员考试真题、辅导员证考试题库等&#xff0c;提供在线做题刷题&#xff0c;在线模拟考试&#xff0c;助你考试轻松过关。 72.心理发展的特点是&#xff08;&#xff09;。 A.方向性与不可逆性 B.连续性与阶段性…...

chatGPT身份指令

充当 Linux 终端 我想让你充当 Linux 终端。我将输入命令&#xff0c;您将回复终端应显示的内容。我希望您只在一个唯一的代码块内回复终端输出&#xff0c;而不是其他任何内容。不要写解释。除非我指示您这样做&#xff0c;否则不要键入命令。当我需要用英语告诉你一些事情时&…...

基于springboot实现私人健身与教练预约管理系统【源码+论文】分享

基于springboot实现私人健身与教练预约管理系统演示开发语言&#xff1a;Java 框架&#xff1a;springboot JDK版本&#xff1a;JDK1.8 服务器&#xff1a;tomcat7 数据库&#xff1a;mysql 5.7 数据库工具&#xff1a;Navicat11 开发软件&#xff1a;eclipse/myeclipse/idea M…...

网络技术领域术语大全,含中英文及缩写,强烈建议收藏!

你好&#xff0c;这里是网络技术联盟站。 今天给大家分享的是网络技术领域相关的术语大全&#xff0c;在文末&#xff0c;我已经将本文整理成一个pdf文档了&#xff0c;大家可以下载到本地以便查阅。 自主访问控(DAC:Discretionary Access Control) 自主访问控制(DAC)是一个…...

C++源码剖析——vector和array

前言&#xff1a;之前看过侯老师的《STL源码剖析》但是那已经是多年以前的&#xff0c;现在工作中有时候查问题和崩溃都需要了解实际工作中使用到的STL的实现。因此计划把STL的源码再过一遍。   摘要&#xff1a;本文描述了llvm中libcxx的std::vector的实现。   关键字&…...

学习linux编程(一)

本文导航一. Linux基础知识杂记0. terminal操作快捷键等1. 为什么vfork的子进程里用return&#xff0c;整个程序会挂掉&#xff0c;而且exit不会(zz)2. 进程内存管理详解3. 关于堆和自由存储区概念的区别4. cache和buffer的区别5. C实现线程池6. 静态函数和虚函数的区别7. C里是…...

关于iview组件中使用 table , 绑定序号分页后序号从1开始的解决方案

问题描述&#xff1a;iview使用table 中type: "index",分页之后 &#xff0c;索引还是从1开始&#xff0c;试过绑定后台返回数据的id, 这种方法可行&#xff0c;就是后台返回数据的每个页面id都不完全是按照从1开始的升序&#xff0c;因此百度了下&#xff0c;找到了…...

【Java_EE】Spring MVC

目录 Spring Web MVC ​编辑注解 RestController RequestMapping RequestParam RequestParam RequestBody PathVariable RequestPart 参数传递 注意事项 ​编辑参数重命名 RequestParam ​编辑​编辑传递集合 RequestParam 传递JSON数据 ​编辑RequestBody ​…...

重启Eureka集群中的节点,对已经注册的服务有什么影响

先看答案&#xff0c;如果正确地操作&#xff0c;重启Eureka集群中的节点&#xff0c;对已经注册的服务影响非常小&#xff0c;甚至可以做到无感知。 但如果操作不当&#xff0c;可能会引发短暂的服务发现问题。 下面我们从Eureka的核心工作原理来详细分析这个问题。 Eureka的…...

Xen Server服务器释放磁盘空间

disk.sh #!/bin/bashcd /run/sr-mount/e54f0646-ae11-0457-b64f-eba4673b824c # 全部虚拟机物理磁盘文件存储 a$(ls -l | awk {print $NF} | cut -d. -f1) # 使用中的虚拟机物理磁盘文件 b$(xe vm-disk-list --multiple | grep uuid | awk {print $NF})printf "%s\n"…...

算法岗面试经验分享-大模型篇

文章目录 A 基础语言模型A.1 TransformerA.2 Bert B 大语言模型结构B.1 GPTB.2 LLamaB.3 ChatGLMB.4 Qwen C 大语言模型微调C.1 Fine-tuningC.2 Adapter-tuningC.3 Prefix-tuningC.4 P-tuningC.5 LoRA A 基础语言模型 A.1 Transformer &#xff08;1&#xff09;资源 论文&a…...

在Ubuntu24上采用Wine打开SourceInsight

1. 安装wine sudo apt install wine 2. 安装32位库支持,SourceInsight是32位程序 sudo dpkg --add-architecture i386 sudo apt update sudo apt install wine32:i386 3. 验证安装 wine --version 4. 安装必要的字体和库(解决显示问题) sudo apt install fonts-wqy…...

VM虚拟机网络配置(ubuntu24桥接模式):配置静态IP

编辑-虚拟网络编辑器-更改设置 选择桥接模式&#xff0c;然后找到相应的网卡&#xff08;可以查看自己本机的网络连接&#xff09; windows连接的网络点击查看属性 编辑虚拟机设置更改网络配置&#xff0c;选择刚才配置的桥接模式 静态ip设置&#xff1a; 我用的ubuntu24桌…...

安宝特案例丨Vuzix AR智能眼镜集成专业软件,助力卢森堡医院药房转型,赢得辉瑞创新奖

在Vuzix M400 AR智能眼镜的助力下&#xff0c;卢森堡罗伯特舒曼医院&#xff08;the Robert Schuman Hospitals, HRS&#xff09;凭借在无菌制剂生产流程中引入增强现实技术&#xff08;AR&#xff09;创新项目&#xff0c;荣获了2024年6月7日由卢森堡医院药剂师协会&#xff0…...

C++.OpenGL (20/64)混合(Blending)

混合(Blending) 透明效果核心原理 #mermaid-svg-SWG0UzVfJms7Sm3e {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-SWG0UzVfJms7Sm3e .error-icon{fill:#552222;}#mermaid-svg-SWG0UzVfJms7Sm3e .error-text{fill…...

虚拟电厂发展三大趋势:市场化、技术主导、车网互联

市场化&#xff1a;从政策驱动到多元盈利 政策全面赋能 2025年4月&#xff0c;国家发改委、能源局发布《关于加快推进虚拟电厂发展的指导意见》&#xff0c;首次明确虚拟电厂为“独立市场主体”&#xff0c;提出硬性目标&#xff1a;2027年全国调节能力≥2000万千瓦&#xff0…...