本地调试spark,访问kerberos鉴权的hdfs、hive
文章目录
- 准备连接hive的配置
- 申请kerberos tgt
- 在scala项目启动本地spark
- 本地Jupyter Notebook启动pyspark
解决在wsl下进行开发、调试时,需要连接kerberos鉴权的hdfs、hive的问题
准备连接hive的配置
core-site.xml、hdfs-site.xml、yarn-site.xml、hive-site.xml复制到本地;
不知道为什么yarn-site.xml里的配置也必须存在,即使不使用yarn运行spark
申请kerberos tgt
在/etc/krb5.conf记录账户域名对应的授权服务地址,注意配置default_ccache_name(Ticket Granting Ticket存放路径)的格式,让java程序能够自动读取到tgt
[libdefaults]dns_lookup_realm = falseticket_lifetime = 24hrenew_lifetime = 7dforwardable = truerdns = falsepkinit_anchors = FILE:/etc/pki/tls/certs/ca-bundle.crtspake_preauth_groups = edwards25519default_realm = COMPANY.UAT.COM# default_ccache_name = KEYRING:persistent:%{uid}default_ccache_name = FILE:/tmp/krb5cc_%{uid}
[realms]
COMPANY.UAT.COM = {kdc = 10.0.0.1admin_server = 10.0.0.1
}
申请当前操作系统用户的进程都可使用的tgt(Ticket Granting Ticket)
# 24小时过期,每天要执行一次
kinit -kt /etc/kerberos/hive.keytab hive@COMPANY.UAT.COM
使用klist命令可以看到已申请的tgt存储在/tmp/krb5cc_%{uid}文件里;
java默认会访问/etc/krb5.conf记录的授权服务地址,使用/tmp/krb5cc_%{uid}文件里的tgt信息,申请访问具体服务的ticket
在scala项目启动本地spark
连接配置文件全放到项目的src/test/resources后,可执行单元测试
import org.scalatest.funsuite.AnyFunSuite
import org.apache.spark.sql.SparkSessionclass SparkTest extends AnyFunSuite with BeforeAndAfterAll {val catalogImpl: String = "hive"lazy val spark: SparkSession = SparkSession.builder().appName("scala test").master("local[1]").enableHiveSupport()// 如果不使用kinit命令预先申请tgt,也可让spark自行申请// .config("spark.kerberos.keytab", "/etc/kerberos/hive.keytab")// .config("spark.kerberos.principal", "hive@COMPANY.UAT.COM") .getOrCreate()test("select hive") {val df = spark.sql("select * from default.temp_test1 limit 10")df.printSchema()df.show()}test("sleep") {// 挂起测试线程,可在localhost:4040访问spark控制台,确认是否加载了hdfs、spark相关配置Thread.sleep(1000000)}
}
本地Jupyter Notebook启动pyspark
vscode的Jupyter插件自动为一个打开的.ipynb文件在本地启动一个对应的ipykernel_launcher,并支持为每个.ipynb文件指定python venv;
修改spark启动配置后,需要点击重启ipykernel的按钮,再重新运行启动spark的代码单元格。
在指定的python venv下,安装pyspark:
pip3 install pyspark==3.2.4
连接配置文件全放到本地/apps/conf/SPARK目录内
from pyspark.sql import SparkSession
import os
# spark-submit能够读取环境变量SPARK_CONF_DIR指定的配置目录
os.environ["SPARK_CONF_DIR"] = "/apps/conf/SPARK"
# pyspark调用spark-submit,启动driver
# 查看driver的java进程: ps -ef | grep pyspark-shell
spark = (SparkSession.builder.appName("pyspark test").master("local[1]").enableHiveSupport()# 下载hive相关依赖包.config("spark.sql.hive.metastore.version", "3.1.3").config("spark.sql.hive.metastore.jars", "maven").config("spark.jars.repositories", "https://maven.aliyun.com/repository/public").getOrCreate()
)
在后续notebook代码单元格里随意编辑、执行spark代码
df1 = spark.sql("SHOW TABLES IN default")
df1.show()
相关文章:
本地调试spark,访问kerberos鉴权的hdfs、hive
文章目录 准备连接hive的配置申请kerberos tgt在scala项目启动本地spark本地Jupyter Notebook启动pyspark 解决在wsl下进行开发、调试时,需要连接kerberos鉴权的hdfs、hive的问题 准备连接hive的配置 core-site.xml、hdfs-site.xml、yarn-site.xml、hive-site.xml复…...
Ubuntu 安装包下载(以20版本 阿里镜像站为例子)
Ubuntu安装包下载 上一篇文章写了一些国内常用的镜像站,这篇以阿里云镜像站Ubuntu20版本为例。 https://mirrors.aliyun.com/ubuntu-releases/ 1.点击自己想要下载的版本 2.点击以amd64.iso为结尾的文件,这个是安装文件,如果是桌面端&…...
会声会影Corel VideoStudio2025旗舰版最新中文旗舰版新功能讲解及使用会声会影使用教程
会声会影Corel VideoStudio2025旗舰版一款功能丰富的视频编辑软件。具有拖放式标题、转场、覆叠和滤镜,色彩分级、动态分屏视频和新增强的遮罩创建器,超越基本编辑,实现影院级效果。优化分屏剪辑功能,简化多时间轴编辑的工作流程&…...
【人工智能】OpenAI发布GPT-o1模型:推理能力的革命性突破,这将再次刷新编程领域的格局!
在人工智能领域,推理能力的提升一直是研究者们追求的目标。就在两天前,OpenAI正式发布了其首款具有推理能力的大语言模型——o1。这款模型的推出,不仅标志着AI技术的又一次飞跃,也为开发者和用户提供了全新的工具来解决复杂问题。…...
2024年TCGA基因表达数据下载(最新版)
文章目录 前言一、如何使用TCGA数据库获取公共数据?二、使用步骤1.点击Cohort Builder2.数据筛选3. Repository4.数据下载4.1 继续选择筛选条件4.2 添加cart并进入4.3 下载 总结 前言 TCGA 全称 The Cancer Genome Atlas ,即癌症基因组图谱。它是一个大型的癌症研…...
1. 运动控制指令概要(omron 机器自动化控制器)
机器自动化控制器——第一章 运动控制指令概要 1-1 运动控制指令PLCopen运动控制用功能块运动控制指令概要▶ 运动控制指令的种类▶ 状态变化▶ 运动控制指令的启动和状态▶ 异常处理▶ 执行运动控制指令时输入变量的变更(指令重启)▶ 通过选择缓存模式执行指令多重启动▶ 通过…...
依赖注入(Dependency Injection)
依赖注入是一种设计原则,主要用于减少类之间的紧耦合度,通过将对象的选择和创建逻辑外包给一个容器来实现动态注入。 适用场景: 当需要将对象的生命周期管理和依赖关系外包给外部容器时(如Spring DI容器)。当应用程序…...
PHP环境搭建
PHP环境搭建教程 PHP 是一种流行的后端开发语言,用于构建动态网站和 Web 应用程序。在开发和部署 PHP 项目之前,您需要设置一个适当的 PHP 环境。本教程将帮助您在不同操作系统上快速搭建 PHP 环境。 1. 环境准备 1.1 操作系统 本教程将介绍在以下操作…...
小叶OJ 2716: 过河问题 ← 贪心算法
【题目来源】http://xiaoye.ac.cn/problem.php?id2716【题目描述】 有 n 个人要渡河,但只有一条小船,这条小船一次只能坐下最多两个人,并且只有一副船桨。每个人划船的速度不一样,如果两个人一起上船,由于重量变大&am…...
LeetCode509:斐波那契数列
代码如下 class Solution { public:int fib(int n) {//这个是为了特殊n,当n 0时, 当 n 1时。if(n 0) return 0;if(n 1) return 1;//第一次开dp专题,连dp数组都忘记定义了。只写了下面,哭vector<int> dp(n 1, 0);dp[…...
5G前传-介绍
1. 引用 知识分享系列一:5G基础知识-CSDN博客 5G前传的最新进展-CSDN博客 灰光和彩光_通信行业5G招标系列点评之二:一文读懂5G前传-光纤、灰光、彩光、CWDM、LWDM、MWDM...-CSDN博客 术语: 英文缩写描述BBU:Building Baseba…...
【Python机器学习】循环神经网络(RNN)——超参数
几乎所有模型都可以根据数据和样本进行调整,它们都有各自的优势和相应的利弊权衡方式。寻找最优超参数集通常是一个棘手的问题,但是人类的直觉和经验可以为我们提供解决问题的方法。比如之前的例子: #设置任意输入序列的最大长度 maxlen100 …...
【Android 13源码分析】WindowContainer窗口层级-1-初识窗口层级树
在安卓源码的设计中,将将屏幕分为了37层,不同的窗口将在不同的层级中显示。 对这一块的概念以及相关源码做了详细分析,整理出以下几篇。 【Android 13源码分析】WindowContainer窗口层级-1-初识窗口层级树 【Android 13源码分析】WindowCon…...
Node.js的学习2——内置模块(一)
Node.js的内置模块 module模块global全局变量Console控制台Errors错误模块捕获异常异步方法通过回调函数传递异常事件触发器对象异常捕获 module模块 使用module模块可以查看Node.js所有的内置模块、在所有模块中都可以使用的全局变量、程序在运行过程中可能会出现的四类错误。…...
信息安全工程师(5)域名与域名解析
一、域名 1. 定义与功能 域名(Domain Name)是互联网上用于标识网站或服务器地址的名称,由一串由点分隔的字符组成,如“example.com”。域名的主要功能是提供一种便于记忆和输入的地址形式,以代替难以记忆的IP地址。域名…...
idear导入他人项目如何快速运行
最近idear经常导入别人的项目,结果永远在加载依赖项。网上查了一堆资料,什么jdk问题,环境变量问题,maven仓库路径问题,总之就是没啥用。那有没有什么简单粗暴的办法,能够导入项目后快速运行呢。 解决方法&a…...
直流无刷电机霍尔线序自学习解释
直流无刷电机霍尔线序自学习 步骤详解 1. 初始连接 连接电机的三相线:A、B、C。连接霍尔传感器线:HA、HB、HC。 2. 输入电压组合与霍尔信号记录 电机的电压输入组合和霍尔信号记录是电机控制系统中至关重要的一部分,它们决定了电机的运转…...
C++学习笔记(26)
七 、显示字符串中的字符 从界面上输入一个字符串(C 风格),把字符串中的每个字符显示出来,如果输入的是"abc",要求: 1)正序显示:a b c 2)逆序显示:…...
安卓14剖析SystemUI的ShadeLogger/LogBuffer日志动态控制输出dumpsy机制
背景: 看SystemUI的锁屏相关代码时候发现SystemUI有一个日志打印相关的方法调用,相比于常规的Log.i直接可以logcat查看方式还是比较新颖。 具体日志打印代码如下: 下面就来介绍一下这个ShadeLogger到底是如何打印的。 分析源码࿱…...
华为CNA VRM搭建(使用vmware worfstartion搭建)
创建虚拟机: 自定义→高级 选择硬件兼容性:默认安装版本,如果未来想要将此虚拟机安装到其他电脑,其他电脑版本过低,此时可以向下兼容,这里我们默认版本 稍后安装操作系统: CNA采用Euler OS系统…...
工作学习太枯燥?让BongoCat虚拟桌宠为你的桌面注入活力
工作学习太枯燥?让BongoCat虚拟桌宠为你的桌面注入活力 【免费下载链接】BongoCat 🐱 跨平台互动桌宠 BongoCat,为桌面增添乐趣! 项目地址: https://gitcode.com/gh_mirrors/bong/BongoCat 在数字化办公与学习日益普及的今…...
从90V到430V宽压输入,手把手教你用Mathcad设计一个12V/1A的DCM反激电源(附避坑指南)
从90V到430V宽压输入:基于Mathcad的12V/1A DCM反激电源设计实战 面对工业设备、新能源系统等场景中波动剧烈的输入电压,设计一款稳定可靠的隔离电源始终是硬件工程师的挑战。本文将带您从零开始,用Mathcad工具完整实现90-430V宽压输入、12V/1…...
突破英雄联盟回放困境:ROFL播放器的全方位解决方案
突破英雄联盟回放困境:ROFL播放器的全方位解决方案 【免费下载链接】ROFL-Player (No longer supported) One stop shop utility for viewing League of Legends replays! 项目地址: https://gitcode.com/gh_mirrors/ro/ROFL-Player 当你想回顾上周那场惊心动…...
跨设备移动计算的挑战与突破:Portable-VirtualBox实现系统随身化方案
跨设备移动计算的挑战与突破:Portable-VirtualBox实现系统随身化方案 【免费下载链接】Portable-VirtualBox Portable-VirtualBox is a free and open source software tool that lets you run any operating system from a usb stick without separate installatio…...
我的第一个AI同事:用不到100行Python代码,让GPT-4帮你自动写周报和整理会议纪要
我的第一个AI同事:用不到100行Python代码,让GPT-4帮你自动写周报和整理会议纪要 每天下午5点,我的邮箱总会准时弹出十几封会议邀请,而周五的周报deadline就像悬在头顶的达摩克利斯之剑。直到某个加班的深夜,当我第23次…...
猫抓资源嗅探工具高效解决方案:从问题诊断到高级配置
猫抓资源嗅探工具高效解决方案:从问题诊断到高级配置 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 你是否遇到过这样的情况ÿ…...
Thor命令行工具包终极指南:从零构建高效CLI应用的完整教程
Thor命令行工具包终极指南:从零构建高效CLI应用的完整教程 【免费下载链接】thor Thor is a toolkit for building powerful command-line interfaces. 项目地址: https://gitcode.com/gh_mirrors/th/thor Thor是一个强大而简洁的Ruby命令行工具包࿰…...
基于ruoyi-flowable-plus与vform的审批流程动态审批人配置实战
1. 动态审批人配置的核心思路 在传统审批流程中,审批人通常是固定配置的,比如直接指定某个角色或具体人员。但在实际业务中,我们经常需要根据流程发起人的组织关系动态确定审批人。比如最常见的场景:需要由发起人的直属上级或部门…...
Maven证书验证难题:彻底绕过PKIX path building failed的实战指南
1. 遇到PKIX path building failed?别慌,这是证书验证的锅 最近在项目编译时突然蹦出个"PKIX path building failed"的错误,是不是让你一头雾水?这其实是Maven在下载依赖时遇到了证书验证问题。简单来说,就…...
Fish Speech 1.5语音延迟优化:2-5秒响应背后的推理加速技巧
Fish Speech 1.5语音延迟优化:2-5秒响应背后的推理加速技巧 1. 引言:从分钟级到秒级的突破 还记得早期的文本转语音系统吗?输入一段文字,等待几分钟才能听到结果,那种焦急的体验让很多开发者望而却步。如今ÿ…...
