当前位置：首页 > news >正文

数据湖仓一体(五)安装spark

news 2025/11/4 11:18:05

上传安装包到/opt/software目录并解压

[bigdata@node106 software]$ tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/services/

重命名文件

[bigdata@node106 services]$ mv spark-3.3.1-bin-hadoop3 spark-3.3.1

配置环境变量

[bigdata@node106 ~]$ sudo vim /etc/profile.d/bigdata_env.sh

export SPARK_HOME=/opt/services/spark-3.3.1
export $PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZK_HOME/bin:$KAFKA_HOME/bin:$SEA_HOME/bin:$HIVE_HOME/bin:$SPARK_HOME/bin

分发环境变量

[bigdata@node106 bin]$ sudo ./bin/xsync /etc/profile.d/bigdata_env.sh

刷新环境变量，5台机器上执行

[bigdata@node106 ~]$ source /etc/profile

配置spark-env.sh

HADOOP_CONF_DIR=/opt/services/hadoop-3.3.5/etc/hadoop
YARN_CONF_DIR=/opt/services/hadoop-3.3.5/etc/hadoop
export SPARK_DIST_CLASSPATH=$(hadoop classpath)
export SPARK_HISTORY_OPTS=" 
-Dspark.history.ui.port=18080  
-Dspark.history.fs.logDirectory=hdfs://mycluster:8020/spark-history  
-Dspark.history.retainedApplications=30"

配置spark-defaults.conf

spark.master                       yarn
spark.eventLog.enabled             true
spark.eventLog.dir                 hdfs://mycluster:8020/spark-history
spark.serializer                   org.apache.spark.serializer.KryoSerializer
spark.yarn.archive               hdfs://mycluster:8020/spark-archive/spark-archive.zip
spark.sql.warehouse.dir       hdfs://mycluster:8020/user/hudi/warehouse
spark.serializer                    org.apache.spark.serializer.KryoSerializer
spark.sql.extensions            org.apache.spark.sql.hudi.HoodieSparkSessionExtension
spark.sql.catalog.spark_catalog              org.apache.spark.sql.hudi.catalog.HoodieCatalog
spark.kryo.registrator                              org.apache.spark.HoodieSparkKryoRegistrar
spark.hadoop.yarn.timeline-service.enabled    false
spark.executor.cores     4
spark.executor.memory 3g
spark.executor.memoryOverhead 1g
spark.driver.memory     2g
spark.driver.memoryOverhead 1g
#启动动态分配
spark.dynamicAllocation.enabled    true
#启用Spark shuffle服务
spark.shuffle.service.enabled    true
#Executor个数初始值
spark.dynamicAllocation.initialExecutors    2
#Executor个数最小值
spark.dynamicAllocation.minExecutors    2
#Executor个数最大值
spark.dynamicAllocation.maxExecutors    4
#Executor空闲时长，若某Executor空闲时间超过此值，则会被关闭
spark.dynamicAllocation.executorIdleTimeout    60s
#积压任务等待时长，若有Task等待时间超过此值，则申请启动新的Executor
spark.dynamicAllocation.schedulerBacklogTimeout    1s
spark.yarn.queue hive 
spark.yarn.historyServer.address=node106:18080
spark.history.ui.port=18080
spark.history.fs.logDirectory=hdfs://mycluster:8020/spark-history

创建日志文件

[bigdata@node106 conf]$ hdfs dfs -mkdir /spark-history

创建运行依赖的文件夹

[bigdata@node106 conf]$ hdfs dfs -mkdir /spark-archive

上传mysql驱动包，hudi依赖的包

[bigdata@node106 software]$ cp mysql-connector-java-8.0.18.jar /opt/services/spark-3.3.1/jars/ 
[bigdata@node106 software]$ cp hudi-spark3.3-bundle_2.12-0.14.1.jar /opt/services/spark-3.3.1/jars/

压缩jar包并上传到hdfs

[bigdata@node106 jars]$ zip spark-archive.zip ./*

[bigdata@node106 jars]$ hdfs dfs -put ./spark-archive.zip /spark-archive

上传spark-3.3.1-yarn-shuffle.jar

[bigdata@node106 conf]$ cp $SPARK_HOME/yarn/spark-3.3.1-yarn-shuffle.jar  /opt/services/hadoop-3.3.5/share/hadoop/yarn/lib/

配置日志文件

[bigdata@node106 conf]$ cp log4j2.properties.template log4j2.properties

上传hive-site.xml到conf目录下，配置hudi存储目录和spark的server2服务

<property><name>hive.metastore.warehouse.dir</name><value>/user/hudi/warehouse</value></property><property><name>hive.server2.thrift.port</name><value>10001</value></property><property><name>hive.server2.thrift.bind.host</name><value>node106</value></property>

编写spark.sh脚本

[bigdata@node106 bin]$ vim spark.sh

#!/bin/bashif [ $# -lt 1 ]
thenecho "No Args Input...[start,stop]"exit ;
fi
case $1 in
"start")echo ==================== 启动history服务 =========================ssh node106 "$SPARK_HOME/sbin/start-history-server.sh"echo ==================== 启动server2服务 ====================ssh node106 "$SPARK_HOME/sbin/start-thriftserver.sh --master yarn"
;;
"stop")echo ==================== 关闭history服务 =========================ssh node106 "$SPARK_HOME/sbin/stop-history-server.sh"echo ==================== 关闭server2服务 ====================ssh node106 "$SPARK_HOME/sbin/stop-thriftserver.sh --master yarn"
;;
*)echo "Input Args Error...[start,stop]"
;;
esac

授权

[bigdata@node106 bin]$ chmod +x spark.sh

分发到其他机器

[bigdata@node106 bin]$ xsync  spark.sh

copy到其他机器

[bigdata@node107 bin]$ scp -r bigdata@node106:/opt/services/spark-3.3.1/ /opt/services/spark-3.3.1/   
[bigdata@node108 bin]$ scp -r bigdata@node106:/opt/services/spark-3.3.1/ /opt/services/spark-3.3.1/

启动spark

[bigdata@node106 bin]$ spark.sh start

数据湖仓一体(五)安装spark

上传安装包到/opt/software目录并解压 [bigdatanode106 software]$ tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/services/ 重命名文件 [bigdatanode106 services]$ mv spark-3.3.1-bin-hadoop3 spark-3.3.1 配置环境变量 [bigdatanode106 ~]$ sudo vim /etc/profile…...

编程日记 2024/7/13 23:28:32

项目收获总结--本地缓存方案选型及使用缓存的坑

本地缓存方案选型及使用缓存的坑一、摘要二、本地缓存三、本地缓存实现方案3.1 自己编程实现一个缓存3.2 基于 Guava Cache 实现本地缓存3.3 基于 Caffeine 实现本地缓存3.4 基于 Encache 实现本地缓存3.5 小结四、使用缓存的坑4.1 缓存穿透4.2 缓存击穿4.3 缓存雪崩4.4 数据…...

编程日记 2024/7/13 23:27:31

java使用poi-tl模版引擎导出word之if判断条件的使用

文章目录模版中if语句条件的使用1.数据为False或空集合2.非False或非空集合模版中if语句条件的使用如果区块对的值是 null 、false 或者空的集合，位于区块中的所有文档元素将不会显示，这就等同于if语句的条件为 false。语法示例：{{?stat…...

编程日记 2024/7/13 23:26:29

扩散的魔法：如何打造未来生物打印？

生物打印技术正在快速发展，它允许我们将生物材料、细胞和生长因子等生物活性成分精确地打印成具有特定形状和功能的结构。而扩散现象在生物打印中扮演着至关重要的角色，它影响着打印结构的特性、机械性能、生物功能和形态。为了更好地利用扩散现象&#…...

编程日记 2024/7/13 23:25:29

Bag of mice(概率dp)

https://www.luogu.com.cn/problem/CF148D 思路： 概率dp，设f[a][b]为白鼠为a个，黑鼠为b个时，赢的期望。 f[i][0]1; 1.当先手取到白鼠时 a/(ab); 2.当先手未取到白鼠，先手要向赢，后手也不能取到白鼠&am…...

编程日记 2024/7/13 23:22:26

Python的基础语法——持续更新版

1、type查看数据类型 # 直接输出结果 print(type("Hello")) # 先用变量存储 string_type type("Hello") print(string_type) 2、类型转化任何类型可以转化为字符串，但字符串不可以随意转化，要求字符串类内容都是数字 # 类型…...

编程日记 2024/7/13 23:20:23

百度智能云将大模型引入网络故障定位的智能运维实践

物理网络中，某个设备发生故障，可能会引起一系列指标异常的告警。如何在短时间内从这些告警信息中找到真正的故障原因，犹如大海捞针，对于运维团队是一件很有挑战的事情。在长期的物理网络运维工作建设中，百度智能云通…...

编程日记 2024/7/13 23:18:21

晚上定时编译android系统

1、问题可能偶然想晚上定时编译android系统 2、解决 at.sh #!/bin/sh# at -f at.sh now1min # at -lset -e set -xecho $SHELLecho at build begin /bin/date >> at_build.log/bin/bash -c source build/envsetup.sh >> at_build.log 2>&1; lunch xxx-us…...

编程日记 2024/7/13 23:16:19

轻薄鼠标的硬核选购攻略，很多人都在“高性价比”鼠标上栽跟头了

轻薄款设计的鼠标是目前鼠标市场的出货大头， 也是价格最卷的一类鼠标。比游戏鼠标或许更卷一些。这和当前的移动办公趋势关系很大。这类鼠标主要跟笔记本和iPad搭配。核心的使用场景是办公。因此轻薄和静音是这类鼠标的核心卖点。同时用户并不愿意付出太…...

编程日记 2024/7/13 23:11:15

Python制作签到系统

import datetime sign_in_records {} def sign_in(username): today datetime.date.today() if username not in sign_in_records: sign_in_records[username] [] sign_in_records[username].append(today) print(f"{username} 签到成功&#…...

编程日记 2024/7/13 23:10:14

面试题007-Java-Spring

面试题007-Java-Spring 目录面试题007-Java-Spring题目自测题目答案1. 简单介绍一下Spring？2. Spring有哪些模块？3. 什么是Spring IoC ?4. 什么是依赖注入？有哪几种方式可以进行依赖注入？5. 什么是Spring AOP ？6. 什…...

编程日记 2024/7/13 23:09:13

后端之路——登录校验前言（Cookie\ Session\ JWT令牌）

前言：Servlet 【登录校验】这个功能技术的基础是【会话技术】，那么在讲【会话技术】的时候必然要谈到【Cookie】和【Session】这两个东西，那么在这之前必须要先讲一下一个很重要但是很多人都会忽略的一个知识点：【Servlet】什么是…...

编程日记 2024/7/13 23:08:12

【蓄势·致远】同为科技（TOWE）2024年年中会议

2024年7月2日-8日，同为科技（TOWE）召开2024年年中工作会议。会议回顾上半年总体工作情况，分析研判发展形势，规划部署下半年工作。为期一周的工作会议，由同为科技（TOWE）创始人、董事长…...

编程日记 2024/7/13 23:07:11

通过git将文件push到github 远程仓库

1.先git clone 代码地址 git clone htttp://github.com/用户名/test.git 2. 添加文件例如：touch 1.txt 3.将文件添加到暂存区 git add 1.txt 4.提交 git commit -m "commit 1.txt" 5.与远程仓库建立关联 git remote add 远程仓库名远程仓库…...

编程日记 2024/7/13 23:06:10

如何判断服务器是否被攻击

如何判断服务器是否被攻击一、异常流量模式一种判断服务器是否遭到攻击的方法是监控网络流量。异常的流量模式，例如流量突然剧增或减少，都可能是攻击的迹象。通常，大量的入站流量表明分布式拒绝服务（DDoS）攻击的可能…...

编程日记 2024/7/13 23:03:05

泽众一站式性能测试平台P-One监控指标的意义

在当今数字化和信息化高度发展的时代，企业把保障系统稳定运行、优化业务流程和提升用户体验摆在首要位置。然而，在现如今复杂的分布式系统中，各个组件和服务之间的交互频繁且紧密，当系统出现性能瓶颈时，传统的监测手段…...

编程日记 2024/7/13 23:02:04

前端Canvas入门——一些注意事项

创建渐变的三种方法： createLinearGradient() - 线性渐变 createRadialGradient() - 径向渐变（放射性渐变） createConicGradient() - 锥形渐变这三种的核心观点都是： 创建一个gradient对象，然后调用addColorStop()方法…...

编程日记 2024/7/13 22:59:02

移动互联安全扩展要求测评项

安全物理环境-无线接入点的位置选择应为无线接入设备的安装选择合理位置，避免过度覆盖和电磁干扰。无线接入设备的安装位置选择不当，易被攻击者利用，特别是攻击者会通过无线信号过度覆盖的弱点进行无线渗透攻击，因此要选择合理…...

编程日记 2024/7/13 22:57:00

【代码随想录】【算法训练营】【第64天】 [卡码117]软件构建 [卡码47]参加科学大会

前言思路及算法思维，指路代码随想录。题目来自卡码网。 day 64，周三，继续ding~ 题目详情 [卡码117] 软件构建题目描述卡码117 软件构建解题思路前提： 思路： 重点： 代码实现 C语言 [卡码…...

编程日记 2024/7/13 22:55:58

【python算法学习1】用递归和循环分别写下 fibonacci 斐波拉契数列，比较差异

问题： fibonacci 斐波拉契数列，用递归和循环的方法分别写,比较递归和循环的思路和写法的差别最直接的思路，是写递归方法循环方法的稍微有点绕，我觉得问题主要是出在，总结循环的通项公式更麻烦，难在数学…...

编程日记 2024/7/13 22:54:57

Opencv中的addweighted函数

一.addweighted函数作用 addweighted（）是OpenCV库中用于图像处理的函数，主要功能是将两个输入图像（尺寸和类型相同）按照指定的权重进行加权叠加（图像融合），并添加一个标量值&#x…...

编程新知 2025/11/3 23:52:34

STM32标准库-DMA直接存储器存取

文章目录一、DMA1.1简介1.2存储器映像1.3DMA框图1.4DMA基本结构1.5DMA请求1.6数据宽度与对齐1.7数据转运DMA1.8ADC扫描模式DMA 二、数据转运DMA2.1接线图2.2代码2.3相关API 一、DMA 1.1简介 DMA（Direct Memory Access）直接存储器存取 DMA可以提供外设…...

编程新知 2025/10/19 13:26:36

linux 错误码总结

1，错误码的概念与作用在Linux系统中，错误码是系统调用或库函数在执行失败时返回的特定数值，用于指示具体的错误类型。这些错误码通过全局变量errno来存储和传递，errno由操作系统维护，保存最近一次发生的错误信息。值得注意的是，errno的值在每次系统调用或函数调用失败时…...

编程新知 2025/9/16 22:48:47

python如何将word的doc另存为docx

将 DOCX 文件另存为 DOCX 格式（Python 实现） 在 Python 中，你可以使用 python-docx 库来操作 Word 文档。不过需要注意的是，.doc 是旧的 Word 格式，而 .docx 是新的基于 XML 的格式。python-docx 只能处理 .docx 格式…...

编程新知 2025/8/5 19:18:33

【C语言练习】080. 使用C语言实现简单的数据库操作

080. 使用C语言实现简单的数据库操作 080. 使用C语言实现简单的数据库操作使用原生APIODBC接口第三方库ORM框架文件模拟1. 安装SQLite2. 示例代码：使用SQLite创建数据库、表和插入数据3. 编译和运行4. 示例运行输出：5. 注意事项6. 总结080. 使用C语言实现简单的数据库操作在…...

编程新知 2025/9/22 21:37:01

UR 协作机器人「三剑客」：精密轻量担当（UR7e）、全能协作主力（UR12e）、重型任务专家（UR15）

UR协作机器人正以其卓越性能在现代制造业自动化中扮演重要角色。UR7e、UR12e和UR15通过创新技术和精准设计满足了不同行业的多样化需求。其中，UR15以其速度、精度及人工智能准备能力成为自动化领域的重要突破。UR7e和UR12e则在负载规格和市场定位上不断优化&#xf…...

编程新知 2025/10/30 23:46:06

ArcGIS Pro制作水平横向图例+多级标注

今天介绍下载ArcGIS Pro中如何设置水平横向图例。之前我们介绍了ArcGIS的横向图例制作：ArcGIS横向、多列图例、顺序重排、符号居中、批量更改图例符号等等（ArcGIS出图图例8大技巧），那这次我们看看ArcGIS Pro如何更加快捷的操作。…...

编程新知 2025/11/1 2:16:09

【碎碎念】宝可梦 Mesh GO : 基于MESH网络的口袋妖怪宝可梦GO游戏自组网系统

目录游戏说明《宝可梦 Mesh GO》 —— 局域宝可梦探索Pokmon GO 类游戏核心理念应用场景Mesh 特性宝可梦玩法融合设计游戏构想要素1. 地图探索（基于物理空间广播范围）2. 野生宝可梦生成与广播3. 对战系统4. 道具与通信5. 延伸玩法安全性设计技术选…...

编程新知 2025/10/25 21:41:56

Device Mapper 机制

Device Mapper 机制详解 Device Mapper（简称 DM）是 Linux 内核中的一套通用块设备映射框架，为 LVM、加密磁盘、RAID 等提供底层支持。本文将详细介绍 Device Mapper 的原理、实现、内核配置、常用工具、操作测试流程，并配以详细的…...

编程新知 2025/10/1 1:44:36

视频行为标注工具BehaviLabel（源码+使用介绍+Windows.Exe版本）

前言： 最近在做行为检测相关的模型，用的是时空图卷积网络（STGCN），但原有kinetic-400数据集数据质量较低，需要进行细粒度的标注，同时粗略搜了下已有开源工具基本都集中于图像分割这块&#xff0c…...

编程新知 2025/10/25 0:12:07

相关文章：