当前位置: 首页 > news >正文

Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测

章节内容

上一节我们完成了:

  • Hive中数据导出:HDFS
  • HQL操作
  • 上传内容至Hive、增删改查等操作

背景介绍

这里是三台公网云服务器,每台 2C4G,搭建一个Hadoop的学习环境,供我学习。
之前已经在 VM 虚拟机上搭建过一次,但是没留下笔记,这次趁着前几天薅羊毛的3台机器,赶紧尝试在公网上搭建体验一下。

注意,如果你和我一样,打算用公网部署,那一定要做好防火墙策略,避免不必要的麻烦!!!
请大家都以学习为目的,也请不要对我的服务进行嗅探或者攻击!!!

但是有一台公网服务器我还运行着别的服务,比如前几天发的:autodl-keeper 自己写的小工具,防止AutoDL机器过期的。还跑着别的Web服务,所以只能挤出一台 2C2G 的机器。那我的配置如下了:

  • 2C4G 编号 h121
  • 2C4G 编号 h122
  • 2C2G 编号 h123

在这里插入图片描述

Metastore

在Hive具体的使用中,首先面临的问题是如何定义表结构信息和结构化的数据映射成功。
所谓的映射指的是一种对应关系。在Hive中需要描述清楚表和文件之间的映射关系、列和字段之间的关系等等信息。
这描述映射关系的数据称为Hive的元数据。
所以此数据很重要,因为只有通过查询它才可以确定用户编写SQL和最终操作文件之间的关系。

Metastore三种形式

内嵌模式

内嵌模式是使用Derby数据库来存储元数据,而不需要额外起Metastore服务。数据库和Metastore服务都嵌入在主HiveServer进程中。
该方案为默认,但一次只能和一个客户端连接,适合实验,不适合生产。

在这里插入图片描述

本地模式

本地模式不需要单独启动Metastore服务,而是和Hive在同一个进程里的Metastore服务。也就是说当启动Hive服务时,内部会启动一个Metastore服务。
在这里插入图片描述

远程模式

远程模式下,需要的单独运行 Metastore服务,每个客户端都在配置文件里配置连接到该Metastore的信息。(推荐生产环境使用)
在这里插入图片描述

配置环境

集群规划

在这里插入图片描述

同步文件

之前我们完成了单节点的 Hive 部署和测试,现在要改成多集群的。
你可以使用类似于下面的方式,将 Hive 的安装包等内容发送到别的节点上。

将之前的 Hive 文件拷贝到 h121、h122、h123中。
也就是现在要求我们集群中的三台节点都要拥有Hive环境
你可以通过类似于 SCP 的指令完成文件的传输,或者用脚本分发工具也可以。

scp apache-hive-2.3.9-bin.tar.gz root@h121.wzk.icu:/opt/software

确保你的三台机器都有了Hive的环境,同时不要忘记配置环境变量。
你需要回到之前的章节,完整一系列的配置。不然后续无法进行。

h121节点

在这里插入图片描述

h122节点

在这里插入图片描述

h123节点

在这里插入图片描述

配置注意

这里多唠叨几句,h121、h122、h123的 hive-site.xml 的内容是一样的。

  • Hive 环境变量!!!
  • hive-site.xml 配置一样!!!
  • JDBC 驱动也别忘了!!!

在这里插入图片描述

启动服务

h121 & h123

在 h121 和 h123 上启动 MetaData 服务

# 启动 metastore 服务
nohup hive --service metastore &

在这里插入图片描述
在这里插入图片描述

# 查询9083端口(metastore服务占用的端口)
lsof -i:9083

可以看到服务已经正常的启动了, 查询到了端口服务。
在这里插入图片描述

h122

<!-- hive metastore 服务地址 -->
<property><name>hive.metastore.uris</name><value>thrift://h121.wzk.icu:9083,thrift://h123.wzk.icu:9083</value>
</property>

此时我们在 h122 上启动 Hive

hive
SELECT * FROM emp;

查看连接

我们分别在 h121、h122、h123 上查看端口的信息

lsof -i:9083

在这里插入图片描述

相关文章:

Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测

章节内容 上一节我们完成了&#xff1a; Hive中数据导出&#xff1a;HDFSHQL操作上传内容至Hive、增删改查等操作 背景介绍 这里是三台公网云服务器&#xff0c;每台 2C4G&#xff0c;搭建一个Hadoop的学习环境&#xff0c;供我学习。 之前已经在 VM 虚拟机上搭建过一次&am…...

215.Mit6.S081-实验三-page tables

在本实验室中&#xff0c;您将探索页表并对其进行修改&#xff0c;以简化将数据从用户空间复制到内核空间的函数。 一、实验准备 开始编码之前&#xff0c;请阅读xv6手册的第3章和相关文件&#xff1a; kernel/memlayout.h&#xff0c;它捕获了内存的布局。kernel/vm.c&…...

flask使用定时任务flask_apscheduler(APScheduler)

Flask-APScheduler描述: Flask-APScheduler 是一个 Flask 扩展&#xff0c;增加了对 APScheduler 的支持。 APScheduler 有三个内置的调度系统可供您使用&#xff1a; Cron 式调度&#xff08;可选开始/结束时间&#xff09; 基于间隔的执行&#xff08;以偶数间隔运行作业…...

ApiFox或postman怎么用params类型传输json或集合+json的String类型

你是否碰见过这样的接口? post请求然后传输的参数都要和查询时一样以param形式传参数,那String什么的都好说,传就直接进后台了,那json呢,集合呢,是不是直接给你返400呢. 1.传json如何处理 那我们看看怎么实现,如果你要传json数据,那需要将特殊字符转义,也叫url转码,否则传不…...

数据结构第16节 最大堆

最大堆是一种特殊的完全二叉树数据结构&#xff0c;其中每个父节点的键值都大于或等于其子节点的键值。在Java中&#xff0c;最大堆通常用于实现优先队列&#xff0c;堆排序算法&#xff0c;或者在需要快速访问最大元素的应用场景中。 让我们通过一个具体的案例来说明最大堆的…...

显卡、显卡驱动、cuda、cuDNN之间关系

显卡、显卡驱动、CUDA 和 cuDNN 是构成高性能计算和深度学习环境的关键组件&#xff0c;它们之间有着紧密的联系。下面是对这些组件及其关系的详细介绍&#xff1a; 显卡&#xff08;GPU&#xff09; 显卡&#xff0c;全称为图形处理器&#xff08;Graphics Processing Unit&…...

Rewrk一个更现代的http框架基准测试实用程序

Rewrk一个更现代的http框架基准测试实用程序。HTTP基准测试&#xff08;HTTP benchmarking&#xff09;是一种测量和评估HTTP服务器或应用程序性能指标的活动。其目的是在特定条件下模拟大量用户请求&#xff0c;以测量服务器或应用程序的响应能力、吞吐量、延迟等指标&#xf…...

【算法】排序算法介绍 附带C#和Python实现代码

1. 冒泡排序(Bubble Sort) 2. 选择排序(Selection Sort) 3. 插入排序(Insertion Sort) 4. 归并排序(Merge Sort) 5. 快速排序(Quick Sort) 排序算法是计算机科学中的一个基础而重要的部分,用于将一组数据按照一定的顺序排列。下面介绍几种常见的排序算法,…...

360安全浏览器就是不行-python秒破解

下面画框都很容易破解&#xff0c;大家试试...

Python实现傅里叶级数可视化工具

Python实现傅里叶级数可视化工具 flyfish 有matlab实现&#xff0c;我没matlab&#xff0c;我有Python&#xff0c;所以我用Python实现。 整个工具的实现代码放在最后,界面使用PyQt5开发 起源 傅里叶级数&#xff08;Fourier Series&#xff09;由法国数学家和物理学家让-巴…...

PDF 分割拆分 API 数据接口

PDF 分割拆分 API 数据接口 文件处理&#xff0c;PDF 高效的 PDF 分割工具&#xff0c;高效处理&#xff0c;可永久存储。 1. 产品功能 高效处理大文件&#xff1b;支持多语言字符识别&#xff1b;支持 formdata 格式 PDF 文件流传参&#xff1b;支持设置每个 PDF 文件的页数…...

【python】随机森林预测汽车销售

目录 引言 1. 数据收集与预处理 2. 划分数据集 3. 构建随机森林模型 4. 模型训练 5. 模型评估 6. 模型调优 数据集 代码及结果 独热编码 随机森林模型训练 特征重要性图 混淆矩阵 ROC曲线 引言 随机森林&#xff08;Random Forest&#xff09;是一种集成学习方法…...

Stable Diffusion教程|练丹师是如何炼丹的Lora模型训练

前言 还记得我们之前就讲过学习SD成为炼丹师不&#xff1f;那么今天就来手把手教大家炼丹&#xff0c;看看同一个角色或某种风格的小模型是如何制作出来的。 目录 1 炼丹介绍 2 环境准备 3 Lora模型训练 **一、**炼丹介绍 什么是炼丹&#xff1f; 早在学习SD地第一篇就…...

QT--SQLite

配置类相关的表&#xff0c;所以我使用sqlite,且QT自带该组件&#xff1b; 1.安装 sqlite-tools-win-x64-3460000、SQLiteExpert5.4.31.575 使用SQLiteExpert建好数据库.db文件&#xff0c;和对应的表后把db文件放在指定目录 ./db/program.db&#xff1b; 2.选择sql组件 3.新…...

【深度学习入门篇 ②】Pytorch完成线性回归!

&#x1f34a;嗨&#xff0c;大家好&#xff0c;我是小森( &#xfe61;ˆoˆ&#xfe61; )&#xff01; 易编橙终身成长社群创始团队嘉宾&#xff0c;橙似锦计划领衔成员、阿里云专家博主、腾讯云内容共创官、CSDN人工智能领域优质创作者 。 易编橙&#xff1a;一个帮助编程小…...

Syslog 管理工具

Syslog常被称为系统日志或系统记录&#xff0c;是一种用来在互联网协议&#xff08;TCP/IP&#xff09;的网上中传递记录档消息的标准&#xff0c;常用来指涉实际的Syslog 协议&#xff0c;或者那些提交syslog消息的应用程序或数据库。 系统日志协议&#xff08;Syslog&#x…...

硅纪元AI应用推荐 | 百度橙篇成新宠,能写万字长文

“硅纪元AI应用推荐”栏目&#xff0c;为您精选最新、最实用的人工智能应用&#xff0c;无论您是AI发烧友还是新手&#xff0c;都能在这里找到提升生活和工作的利器。与我们一起探索AI的无限可能&#xff0c;开启智慧新时代&#xff01; 百度橙篇&#xff0c;作为百度公司在202…...

Codeforces Round 954 (Div. 3)

&#x1f680;欢迎来到本文&#x1f680; &#x1f349;个人简介&#xff1a;陈童学哦&#xff0c;彩笔ACMer一枚。 &#x1f3c0;所属专栏&#xff1a;Codeforces 本文用于记录回顾本彩笔的解题思路便于加深理解。 &#x1f4e2;&#x1f4e2;&#x1f4e2;传送阵 A. X Axis解…...

【Django】报错‘staticfiles‘ is not a registered tag library

错误截图 错误原因总结 在django3.x版本中staticfiles被static替换了&#xff0c;所以这地方换位static即可完美运行 错误解决...

LeetCode 算法:二叉树的最近公共祖先 III c++

原题链接&#x1f517;&#xff1a;二叉树的最近公共祖先 难度&#xff1a;中等⭐️⭐️ 题目 给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义为&#xff1a;“对于有根树 T 的两个节点 p、q&#xff0c;最近公共祖先表示为一个节点…...

**管线流程**:模型矩阵 × 视图矩阵 × 投影矩阵 × 顶点 → GPU自动完成裁剪/光栅化

一、二进制、八进制、十六进制的转换方法&#xff08;通俗版&#xff09; 本质&#xff1a;都是“逢几进一”的计数法&#xff0c;只是“底数”不同&#xff08;2/8/16&#xff09;。 二进制&#xff08;Base-2&#xff09;&#xff1a;只用 0 和 1&#xff0c;是计算机硬件唯一…...

技术创业中的风险管理:从内核开发到商业稳定

技术创业中的风险管理&#xff1a;从内核开发到商业稳定 技术创业的风险挑战 作为一名从Linux内核开发者转型产品经理再到科技创业者的人&#xff0c;我深刻体会到风险管理在技术创业中的重要性。技术创业过程中充满了各种风险&#xff0c;从技术风险到商业风险&#xff0c;从市…...

【OpenClaw企业级智能体实战】第23篇:个人知识库+自动化工作流——让OpenClaw成为你的第二大脑(附second-brain+Obsidian+飞书三合一完整方案)

摘要:长期深耕技术领域的从业者,普遍深陷信息过载困境:海量技术文档、论文、行业动态分散在书签、收藏夹、零散笔记中,传统工具仅能完成信息存储,无法实现语义关联、智能检索与自动迭代。本文基于OpenClaw原生second-brain插件,深度打通Obsidian本地知识图谱与飞书团队协…...

Linux内核死锁检测与Lockdep工具详解

1. Linux内核死锁问题概述在Linux内核开发中&#xff0c;死锁是一个令人头疼的问题。想象一下这样的场景&#xff1a;两个进程就像两个固执的人&#xff0c;各自握着对方想要的东西&#xff0c;却都不愿意先放手&#xff0c;结果就是双方都卡在那里动弹不得。这就是死锁的典型表…...

AI生成教材新玩法,低查重让你的教材更有竞争力!

教材的格式问题常常让编写者感到困惑。比如&#xff0c;标题应该选择多大字号&#xff1f;参考文献是依据GB/T7714还是按照某些出版机构的标准&#xff1f;习题的排版又应选择单栏还是双栏&#xff1f;各种不同的要求让人感到眼花缭乱&#xff0c;而手动调整不仅耗时费力&#…...

linux source命令作用及使用场景

source 是 Linux/Unix 系统中的一个内置 Shell 命令&#xff0c;主要用于在当前 Shell 环境中执行脚本文件&#xff08;而非启动子 Shell&#xff09;&#xff0c;从而直接影响当前环境&#xff08;如变量、函数、别名等&#xff09;。以下是其详细作用及使用场景&#xff1a; …...

高可用外卖返利 CPS 平台:Java 后端异步回调处理机制深度解析

高可用外卖返利 CPS 平台&#xff1a;Java 后端异步回调处理机制深度解析 在构建外卖返利&#xff08;CPS&#xff09;系统时&#xff0c;异步回调&#xff08;Callback&#xff09;机制是连接用户授权、订单同步与佣金结算的神经中枢。美团、饿了么等平台的用户授权与订单状态…...

【DIY小记】解决MacOS上Edge浏览器bilibili全屏卡顿的问题

近日笔者发现自己Macbook-Pro播放B站视频&#xff0c;全屏的时候必然卡顿&#xff0c;退出全屏就没事。笔者电脑的参数是&#xff1a; 芯片&#xff1a;M3系统&#xff1a;Tahoe 26.4浏览器&#xff1a;Edge 到网上一查发现《Edge浏览器在MacOS 26(Tahoe)系统上看B站卡顿》一…...

AI技术原理--Transformer详解:搞懂AI核心架构

你可能用过GPT&#xff0c;但你知道GPT的全称是什么吗&#xff1f; GPT Generative Pre-trained Transformer Generative&#xff1a;生成式Pre-trained&#xff1a;预训练Transformer&#xff1a;网络结构 Transformer可以说是目前AI最重要的网络架构&#xff0c;它让GPT真正…...

Phi-4-mini-reasoning Chainlit插件开发:集成代码执行与结果可视化

Phi-4-mini-reasoning Chainlit插件开发&#xff1a;集成代码执行与结果可视化 1. 项目概述 Phi-4-mini-reasoning 是一个基于合成数据构建的轻量级开源模型&#xff0c;专注于高质量、密集推理的数据处理能力。作为Phi-4模型家族的一员&#xff0c;它特别强化了数学推理能力…...