当前位置：首页 > news >正文

Hive 的安装与部署

news 2026/2/10 18:52:26

1 安装 MySql

为什么需要安装 MySql?

原因在于Hive 默认使用的元数据库为 derby，开启 Hive 之后就会占用元数据库，且不与其他客户端共享数据，如果想多窗口操作就会报错，操作比较局限。以我们需要将Hive 的元数据地址改为 MySql，可支持多窗口操作。

（1）检查当前系统是否安装过 Mysql，如果有，则删除

[huwei@hadoop101 ~]$ rpm -qa|grep mariadb
mariadb-libs-5.5.56-2.el7.x86_64
[huwei@hadoop101 ~]$ sudo rpm -e --nodeps  mariadb-libs

rpm -qa 用于列出系统中已安装的所有软件包的名称，CentOS 6系统自带的数据库 MySql，CentOS 7系统自带的数据库是 mariadb（本质上就是 MySQL），根据自己的系统来确定。

（2）将 MySql 安装包拷贝到 /opt/software 目录下

（3）解压 MySql 安装包

新建 mysql_rpm 文件夹，并将MySQL 安装包中的文件解压在此处

[huwei@hadoop101 software]$ mkdir mysql_rpm
[huwei@hadoop101 software]$ tar -xvf mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar -C ./mysql_rpm/

注意，mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar没有以gz结尾，不是压缩文件

（4）在安装目录下执行 rpm 安装

注意：按照顺序依次执行

[huwei@hadoop101 mysql_rpm]$ sudo rpm -ivh mysql-community-common-5.7.28-1.el7.x86_64.rpm
[huwei@hadoop101 mysql_rpm]$ sudo rpm -ivh mysql-community-libs-5.7.28-1.el7.x86_64.rpm
[huwei@hadoop101 mysql_rpm]$ sudo rpm -ivh mysql-community-libs-compat-5.7.28-1.el7.x86_64.rpm
[huwei@hadoop101 mysql_rpm]$ sudo rpm -ivh mysql-community-client-5.7.28-1.el7.x86_64.rpm
[huwei@hadoop101 mysql_rpm]$ sudo rpm -ivh mysql-community-server-5.7.28-1.el7.x86_64.rpm

（5）初始化数据库

[huwei@hadoop101 mysql_rpm]$ sudo mysqld --initialize --user=mysql

（6）查看临时生成的 root 用户的密码

[huwei@hadoop101 mysql_rpm]$ sudo cat /var/log/mysqld.log

在这里插入图片描述

复制保存临时密码

（7）启动 MySql 服务

[huwei@hadoop101 mysql_rpm]$ sudo systemctl start mysqld

（8）登录 MySql 数据库

[huwei@hadoop101 mysql_rpm]$ mysql -uroot -p

不建议直接在-p后直接输入密码，因为临时密码中可能含有一些特殊字符，shell 可能会把这些特殊字符解析导致出问题

在这里插入图片描述

（9）必须先修改 root 用户的密码，否则执行其他的操作会报错

这里我将 root 用户的密码改为 root

mysql> set password = password("root");

（10）修改 mysql 库下的 user 表中的 root 用户允许任意 ip 连接

此时我是在主机 hadoop101 上安装的 MySQL，如果我想在主机 hadoop102 上登录MySQL，是登录不上的

mysql> update mysql.user set host='%' where user='root';
mysql> flush privileges;

退出 MySQL 数据库

mysql> exit;

2 安装 Hive

（1）把 apache-hive-3.1.2-bin.tar.gz上传到 linux 的 /opt/software 目录下

（2）解压 apache-hive-3.1.2-bin.tar.gz 到 /opt/module/ 目录下面

[huwei@hadoop101 software]$ tar -zxvf /opt/software/apache-hive-3.1.2-bin.tar.gz -C /opt/module/

（3）修改 apache-hive-3.1.2-bin 的名称为 hive-3.1.2

[huwei@hadoop101 software]$ cd ../module/
[huwei@hadoop101 module]$ mv apache-hive-3.1.2-bin/ hive-3.1.2

（4）修改 /etc/profile.d/my_env.sh，添加环境变量

[huwei@hadoop101 module]$ sudo vim /etc/profile.d/my_env.sh

添加如下内容

# HIVE_HOME
export HIVE_HOME=/opt/module/hive-3.1.2
export PATH=$PATH:$HIVE_HOME/bin

使环境变量生效

[huwei@hadoop101 module]$ source /etc/profile

（5）解决日志Jar包冲突

[huwei@hadoop101 module]$ cd hive-3.1.2/lib/
[huwei@hadoop101 module]$ ll

在这里插入图片描述

hive 工作时底层是基于 hadoop 的，hadoop 里也有日志的 jar 包，二者可能会有冲突，将 hive 中的 log4j-slf4j-impl-2.10.0.jar删除，在hive运行时直接使用 hadoop 提供的日志 jar 包。

[huwei@hadoop101 lib]$ rm -rf log4j-slf4j-impl-2.10.0.jar

3 Hive 元数据配置到 MySql

（1）在 $HIVE_HOME/conf目录下新建 hive-site.xml 文件

[huwei@hadoop101 ~]$ vim $HIVE_HOME/conf/hive-site.xml

添加如下内容

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration><!-- jdbc连接的URL --><property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://hadoop101:3306/metastore?useSSL=false</value>
</property><!-- jdbc连接的Driver--><property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.jdbc.Driver</value>
</property><!-- jdbc连接的username--><property><name>javax.jdo.option.ConnectionUserName</name><value>root</value></property><!-- jdbc连接的password --><property><name>javax.jdo.option.ConnectionPassword</name><value>root</value>
</property><!-- Hive默认在HDFS的工作目录 --><property><name>hive.metastore.warehouse.dir</name><value>/user/hive/warehouse</value></property><!-- Hive元数据存储的验证 --><property><name>hive.metastore.schema.verification</name><value>false</value></property><!-- 元数据存储授权  --><property><name>hive.metastore.event.db.notification.api.auth</name><value>false</value></property>
</configuration>

（2）拷贝驱动

上传 JDBC 驱动至/opt/software/ ，然后将 MySql 的 JDBC 驱动拷贝到 Hive 的 lib 目录下

[huwei@hadoop101 software]$ cp /opt/software/mysql-connector-java-5.1.37.jar $HIVE_HOME/lib

（3）初始化元数据库

[huwei@hadoop101 ~]$ mysql -uroot -proot

由于在 hive-site.xml 文件中指定了存放元数据的数据库 metastore
在这里插入图片描述

所以新建 Hive 元数据库 metastore

mysql> create database metastore;
Query OK, 1 row affected (0.01 sec)mysql> quit;
Bye

初始化 Hive 元数据库

[huwei@hadoop101 ~]$ schematool -initSchema -dbType mysql -verbose

4 启动 Hive

（1）启动 hadoop 集群

[huwei@hadoop101 ~]$ hdp_cluster.sh start

从下面三种启动方式中选择一种即可

（3）普通方式启动 hive

[huwei@hadoop101 ~]$ hive

（4）元数据服务方式启动 hive

hive的元数据是存在 MySql 里的，如果不使用元数据服务的话，hive直接会操作MySql里的元数据，使用元数据服务的话，hive会操作元数据服务，元数据服务再去操作 MySql 里的元数据

① 在 hive-site.xml 文件中添加如下配置信息

[huwei@hadoop101 ~]$ cd /opt/module/hive-3.1.2/conf
[huwei@hadoop101 conf]$ vim hive-site.xml

    <!-- 指定存储元数据要连接的地址 --><property><name>hive.metastore.uris</name><value>thrift://hadoop101:9083</value></property>

② 启动 metastore

[huwei@hadoop101 ~]$ hive --service metastore

③ 新开启一个窗口，启动 hive

[huwei@hadoop101 ~]$ hive

（5）JDBC 方式启动 hive

这里是引用

① 在 hive-site.xml 文件中添加如下配置信息

[huwei@hadoop101 ~]$ cd /opt/module/hive-3.1.2/conf
[huwei@hadoop101 conf]$ vim hive-site.xml

    <!-- 指定hiveserver2连接的host --><property><name>hive.server2.thrift.bind.host</name><value>hadoop101</value></property><!-- 指定hiveserver2连接的端口号 --><property><name>hive.server2.thrift.port</name><value>10000</value></property>

② 启动 hiveserver2

[huwei@hadoop101 ~]$ hive --service hiveserver2

③ 新开启一个窗口，启动 beeline 客户端

[huwei@hadoop101 conf]$ beeline -u jdbc:hive2://hadoop101:10000 -n huwei

注意：-n后跟的是当前的用户名

在这里插入图片描述

（6）使用 hive

hive> show databases;
hive> show tables;
hive> create table test (id int);
hive> insert into test values(1);
hive> select * from test;

（7）编写启动 metastore 和 hiveserver2 脚本

前面第2、3种启动的方式导致需要打开多个 shell 窗口，编写启动 metastore 和 hiveserver2 脚本

[huwei@hadoop101 ~]$ cd bin
[huwei@hadoop101 bin]$ vim hiveservice.sh

#!/bin/bash
HIVE_LOG_DIR=$HIVE_HOME/logs
if [ ! -d $HIVE_LOG_DIR ]
thenmkdir -p $HIVE_LOG_DIR
fi
#检查进程是否运行正常，参数1为进程名，参数2为进程端口
function check_process()
{pid=$(ps -ef 2>/dev/null | grep -v grep | grep -i $1 | awk '{print $2}')ppid=$(netstat -nltp 2>/dev/null | grep $2 | awk '{print $7}' | cut -d '/' -f 1)echo $pid[[ "$pid" =~ "$ppid" ]] && [ "$ppid" ] && return 0 || return 1
}function hive_start()
{metapid=$(check_process HiveMetastore 9083)cmd="nohup hive --service metastore >$HIVE_LOG_DIR/metastore.log 2>&1 &"cmd=$cmd" sleep 4; hdfs dfsadmin -safemode wait >/dev/null 2>&1"[ -z "$metapid" ] && eval $cmd || echo "Metastroe服务已启动"server2pid=$(check_process HiveServer2 10000)cmd="nohup hive --service hiveserver2 >$HIVE_LOG_DIR/hiveServer2.log 2>&1 &"[ -z "$server2pid" ] && eval $cmd || echo "HiveServer2服务已启动"
}function hive_stop()
{metapid=$(check_process HiveMetastore 9083)[ "$metapid" ] && kill $metapid || echo "Metastore服务未启动"server2pid=$(check_process HiveServer2 10000)[ "$server2pid" ] && kill $server2pid || echo "HiveServer2服务未启动"
}case $1 in
"start")hive_start;;
"stop")hive_stop;;
"restart")hive_stopsleep 2hive_start;;
"status")check_process HiveMetastore 9083 >/dev/null && echo "Metastore服务运行正常" || echo "Metastore服务运行异常"check_process HiveServer2 10000 >/dev/null && echo "HiveServer2服务运行正常" || echo "HiveServer2服务运行异常";;
*)echo Invalid Args!echo 'Usage: '$(basename $0)' start|stop|restart|status';;
esac

添加执行权限

[huwei@hadoop101 bin]$ chmod u+x hiveservice.sh

启动服务

[huwei@hadoop101 bin]$ hiveservice.sh start

在这里插入图片描述

此时，我们发现有两个 RunJar 进程，就是hive服务进程了

Hive 的安装与部署

目录 1 安装 MySql2 安装 Hive3 Hive 元数据配置到 MySql4 启动 Hive Hive 官网 1 安装 MySql 为什么需要安装 MySql? 原因在于Hive 默认使用的元数据库为 derby，开启 Hive 之后就会占用元数据库，且不与其他客户端共享数据，如果想多窗口操作…...

编程日记 2024/1/9 6:18:47

【HBase】——优化

1 RowKey设计重要：一条数据的唯一标识就是 rowkey，那么这条数据存储于哪个分区，取决于 rowkey 处于哪个一个预分区的区间内，设计 rowkey的主要目的 ，就是让数据均匀的分布于所有的 region 中，在一定程度…...

编程日记 2024/1/9 6:14:43

什么是跨域以及怎么处理跨域问题

文章目录什么是跨域？跨域问题常见场景怎么处理跨域1、配置代理2、CORS（跨域资源共享）3、JSONP（仅限 GET 请求）4、使用 WebSocket 注意事项： 什么是跨域？ 跨域（Cross-Origin&#x…...

编程日记 2024/1/9 6:10:39

【Linux Shell】11. 输入/输出重定向

文章目录【 1. 重定向简介】【 2. 输出重定向】【 3. 输入重定向】【 4. Here Document 】【 5. /dev/null 文件】【 1. 重定向简介】大多数 UNIX 系统命令从终端接受输入并将所产生的输出发送回到原来输入的终端。一个命令通常从标准输入的地方读取输入&#xff…...

编程日记 2024/1/9 6:09:39

查看表的结构 desc 表名;mysql> use study; Database changed mysql> create table Class(class_id int ,class_name varchar(128),class_teachar varchar(64)) ; Query OK, 0 rows affected (0.06 sec) mysql> show tables; ----------------- | Tables_in_study…...

编程日记 2024/1/9 6:08:38

＜设计模式修炼＞模板方法模式的使用场景和注意事项学习

介绍模板方法模式（Template Method Pattern），又叫模板模式(Template Pattern)，在一个抽象类公开定义了执行它的方法的模板。它的子类可以按需要重写方法实现，但调用将以抽象类中定义的方式进行。 2) 简单说&#xff…...

编程日记 2024/1/9 6:07:36

android 分享文件

1.在AndroidManifest.xml 中配置 FileProvider <providerandroid:name"android.support.v4.content.FileProvider"android:authorities"com.example.caliv.ffyy.fileProvider"android:exported"false"android:grantUriPermissions"true…...

编程日记 2024/1/9 6:06:36

UE5 C++（十一）— 碰撞检测

文章目录代理绑定BeginOverlap和EndOverlapHit事件的代理绑定碰撞设置代理绑定BeginOverlap和EndOverlap 首先，创建自定义ActorC类 MyCustomActor 添加碰撞组件 #include "Components/BoxComponent.h"public:UPROPERTY(VisibleAnywhere, BlueprintRea…...

编程日记 2024/1/9 6:05:35

时序数据库InfluxDB、TimeScaleDB简介

一、时序数据库作用、优点 1、作用： 时序数据库通常被用在监控场景，比如运维和 IOT（物联网）领域。这类数据库旨在存储时序数据并实时处理它们。比如。我们可以写一个程序将服务器上 CPU 的使用情况每隔 10 秒钟向 InfluxDB 中…...

编程日记 2024/1/9 6:02:32

复试 || 就业day05(2024.01.08)项目一

文章目录前言代码模拟梯度下降构建函数与导函数函数的可视化求这个方程的最小值（直接求导）求方程最小值（不令方程导为0）【梯度下降】eta0.1eta 0.2eta 50eta 0.01画出eta0.1时的梯度下降x的变化过程总结前言 💫你…...

编程日记 2024/1/9 5:58:27

基于商品列表的拖拽排序后端实现

目录一：实现思路二：实现步骤二：实现代码三：注意点一：实现思路后台实现拖拽排序通常需要与前端进行配合，对商品的列表拖拽排序，前端需要告诉后端拖拽的元素和拖动的位置。这里我们假…...

编程日记 2024/1/9 5:56:25

小游戏实战丨基于PyGame的贪吃蛇小游戏

文章目录写在前面PyGame贪吃蛇注意事项系列文章写在后面写在前面本期内容：基于pygame的贪吃蛇小游戏下载地址：https://download.csdn.net/download/m0_68111267/88700188 实验环境 python3.11及以上pycharmpygame 安装pygame的命令：…...

编程日记 2024/1/9 5:55:24

AOP(面向切面编程)基于XML方式配置

概念解释：（理解基本概念方可快速入手） 连接点（joinpoint） 被拦截到的点，因为Spring只支持方法类型的连接点，所以在Spring中连接点指的就是被拦截到的方法。切入点（pointcut&#x…...

编程日记 2024/1/9 5:54:23

多线程的概念

多线程同时执行多个任务，例如一个人一边听歌，一边跳舞继承Thread类实现多线程的方式定义一个MyThread类继承Thread类，重写里面的run方法 package com.itxs.demo01;/*** Classname : MyThread* Description : TODO 自定义线程继承Thread类*…...

编程日记 2024/1/9 5:48:15

DeepPurpose 生物化学深度学习库；蛋白靶点小分子药物对接亲和力预测虚拟筛选

参考： https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/107649770 https://github.com/kexinhuang12345/DeepPurpose ##安装 pip install DeepPurpose rdkitDeepPurpose包括：数据：关联TDC库下载，是同一作者开发的 https://blog.csdn.net/weixin_42357472/artic…...

编程日记 2024/1/9 5:47:14

Java实现责任链模式

责任链模式是一种设计模式，用于处理请求的解耦。在责任链模式中，多个对象都有机会处理请求，从而避免了请求发送者和接收者之间的直接依赖关系。每个处理者都可以决定是否处理请求以及将请求传递给下一个处理者。简介责任链模式由一条链组…...

编程日记 2024/1/9 5:46:12

rabbitmq延时队列相关配置

确保 RabbitMQ 的延时消息插件已经安装和启用。你可以通过执行以下命令来安装该插件： rabbitmq-plugins enable rabbitmq_delayed_message_exchange 如果提示未安装，以下是安装流程： 查看mq版本： 查看自己使用的 MQ（…...

编程日记 2024/1/9 5:45:11

【工具】推荐一个好用的代码画图工具

PlantUML 官网地址：https://plantuml.com/zh/ 跳转支持各种结构化数据画图支持代码调用jar包生成图片提供在线画图能力 https://www.plantuml.com/plantuml/uml/SyfFKj2rKt3CoKnELR1Io4ZDoSa70000 有兴趣可以尝试下 over~~...

编程日记 2024/1/9 5:44:10

Leetcode14-判断句子是否为全字母句（1832）

1、题目全字母句指包含英语字母表中每个字母至少一次的句子。给你一个仅由小写英文字母组成的字符串 sentence ，请你判断 sentence 是否为全字母句。如果是，返回 true ；否则，返回 false 。示例 1： 输入&am…...

编程日记 2024/1/9 5:42:08

HTTP和TCP代理原理及实现，主要是理解

Web 代理是一种存在于网络中间的实体，提供各式各样的功能。现代网络系统中，Web 代理无处不在。我之前有关 HTTP 的博文中，多次提到了代理对 HTTP 请求及响应的影响。今天这篇文章，我打算谈谈 HTTP 代理本身的一些原理，…...

编程日记 2024/1/9 5:40:06

基于服务器使用 apt 安装、配置 Nginx

🧾 一、查看可安装的 Nginx 版本首先，你可以运行以下命令查看可用版本： apt-cache madison nginx-core输出示例： nginx-core | 1.18.0-6ubuntu14.6 | http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages ng…...

编程新知 2026/1/9 12:53:59

JUC笔记(上)-复习涉及死锁 volatile synchronized CAS 原子操作

一、上下文切换即使单核CPU也可以进行多线程执行代码，CPU会给每个线程分配CPU时间片来实现这个机制。时间片非常短，所以CPU会不断地切换线程执行，从而让我们感觉多个线程是同时执行的。时间片一般是十几毫秒(ms)。通过时间片分配算法执行。…...

编程新知 2026/1/31 23:25:09

【碎碎念】宝可梦 Mesh GO : 基于MESH网络的口袋妖怪宝可梦GO游戏自组网系统

目录游戏说明《宝可梦 Mesh GO》 —— 局域宝可梦探索Pokmon GO 类游戏核心理念应用场景Mesh 特性宝可梦玩法融合设计游戏构想要素1. 地图探索（基于物理空间广播范围）2. 野生宝可梦生成与广播3. 对战系统4. 道具与通信5. 延伸玩法安全性设计技术选…...

编程新知 2025/12/12 6:01:17

Rapidio门铃消息FIFO溢出机制

关于RapidIO门铃消息FIFO的溢出机制及其与中断抖动的关系，以下是深入解析： 门铃FIFO溢出的本质在RapidIO系统中，门铃消息FIFO是硬件控制器内部的缓冲区，用于临时存储接收到的门铃消息（Doorbell Message）。…...

编程新知 2026/1/7 1:29:19

springboot整合VUE之在线教育管理系统简介

可以学习到的技能学会常用技术栈的使用独立开发项目学会前端的开发流程学会后端的开发流程学会数据库的设计学会前后端接口调用方式学会多模块之间的关联学会数据的处理适用人群在校学生，小白用户，想学习知识的有点基础，想要通过项…...

编程新知 2026/2/10 6:39:48

【笔记】WSL 中 Rust 安装与测试完整记录

#工作记录 WSL 中 Rust 安装与测试完整记录 1. 运行环境系统：Ubuntu 24.04 LTS (WSL2)架构：x86_64 (GNU/Linux)Rust 版本：rustc 1.87.0 (2025-05-09)Cargo 版本：cargo 1.87.0 (2025-05-06) 2. 安装 Rust 2.1 使用 Rust 官方安…...

编程新知 2026/1/26 14:15:48

深度学习水论文：mamba＋图像增强

🧀当前视觉领域对高效长序列建模需求激增，对Mamba图像增强这方向的研究自然也逐渐火热。原因在于其高效长程建模，以及动态计算优势，在图像质量提升和细节恢复方面有难以替代的作用。 🧀因此短时间内，就有不…...

编程新知 2026/1/26 4:52:47

三分算法与DeepSeek辅助证明是单峰函数

前置单峰函数有唯一的最大值，最大值左侧的数值严格单调递增，最大值右侧的数值严格单调递减。单谷函数有唯一的最小值，最小值左侧的数值严格单调递减，最小值右侧的数值严格单调递增。三分的本质三分和二分一样都是通过不断缩…...

编程新知 2026/1/31 2:50:32

uniapp 字符包含的相关方法

在uniapp中，如果你想检查一个字符串是否包含另一个子字符串，你可以使用JavaScript中的includes()方法或者indexOf()方法。这两种方法都可以达到目的，但它们在处理方式和返回值上有所不同。使用includes()方法 includes()方法用于判断一个字…...

编程新知 2025/9/28 19:00:18

深入浅出Diffusion模型：从原理到实践的全方位教程

I. 引言：生成式AI的黎明 – Diffusion模型是什么？ 近年来，生成式人工智能（Generative AI）领域取得了爆炸性的进展，模型能够根据简单的文本提示创作出逼真的图像、连贯的文本，乃至更多令人惊叹的…...

编程新知 2025/9/12 5:25:46

Hive 的安装与部署

目录

1 安装 MySql

2 安装 Hive

3 Hive 元数据配置到 MySql

4 启动 Hive

相关文章：

Hive 的安装与部署

【HBase】——优化

什么是跨域以及怎么处理跨域问题

【Linux Shell】11. 输入/输出重定向

数据库-简单表的操作And查看表的结构

＜设计模式修炼＞模板方法模式的使用场景和注意事项学习

android 分享文件

UE5 C++（十一）— 碰撞检测

时序数据库InfluxDB、TimeScaleDB简介

复试 || 就业day05(2024.01.08)项目一

基于商品列表的拖拽排序后端实现

小游戏实战丨基于PyGame的贪吃蛇小游戏

AOP(面向切面编程)基于XML方式配置

多线程的概念

DeepPurpose 生物化学深度学习库；蛋白靶点小分子药物对接亲和力预测虚拟筛选

Java实现责任链模式

rabbitmq延时队列相关配置

【工具】推荐一个好用的代码画图工具

Leetcode14-判断句子是否为全字母句（1832）

HTTP和TCP代理原理及实现，主要是理解

基于服务器使用 apt 安装、配置 Nginx

JUC笔记(上)-复习涉及死锁 volatile synchronized CAS 原子操作

【碎碎念】宝可梦 Mesh GO : 基于MESH网络的口袋妖怪宝可梦GO游戏自组网系统

Rapidio门铃消息FIFO溢出机制

springboot整合VUE之在线教育管理系统简介

【笔记】WSL 中 Rust 安装与测试完整记录

深度学习水论文：mamba＋图像增强

三分算法与DeepSeek辅助证明是单峰函数

uniapp 字符包含的相关方法

深入浅出Diffusion模型：从原理到实践的全方位教程