Hive 基础知识
目录
- 1.基础概念
- 1.1 定义
- 1.2 组件
- 1.3 元数据
- 1.4 内部表和外部表
- 2. Hive与关系型数据库的对比
- 3. Hive 数据存储
- 4. 参考文献
1.基础概念
1.1 定义
Hive是一个基于Hadoop的数据仓库基础设施工具,它可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。Hive可以将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储。
1.2 组件
HiveQL:Hive Query Language(HiveQL)是Hive的查询语言,它类似于SQL。HiveQL允许开发人员使用SQL语法来查询和分析数据,包括SELECT、JOIN、GROUP BY、ORDER BY等操作。
元数据存储:Hive使用元数据来描述和存储数据的结构和属性。元数据存储可以使用不同的后端,如Derby、MySQL等。元数据包括表的定义、分区信息、列的数据类型等。
执行引擎:Hive支持多种执行引擎,包括MapReduce、Tez和Spark。这些执行引擎用于执行HiveQL查询,并将其转化为底层任务进行数据处理和计算。
数据存储:Hive使用Hadoop分布式文件系统(HDFS)作为底层数据存储。它支持将数据以表的形式组织起来,可以在表上定义分区、分桶等数据组织方式。
用户定义函数(UDF):Hive允许开发人员编写自定义函数来扩展HiveQL的功能。这些用户定义函数可以使用Java、Python等编程语言编写,并在Hive查询中使用。
数据导入和导出:Hive提供了用于将数据导入到Hive表中和从Hive表中导出数据的机制。可以使用Hive自带的命令或工具,或者通过外部工具和技术,如Sqoop和Flume,进行数据导入和导出操作。
1.3 元数据
Hive中的元数据是指描述和管理数据表的数据,包括表的结构、分区方式、存储路径、表的基本信息等。元数据描述了数据的存储、表结构、分区信息等,使得Hive可以更好地管理和访问数据。
在Hive中,元数据通常存储在关系型数据库中,例如MySQL、PostgreSQL等,由Hive Metastore进行管理。元数据的存储结构可以由用户自定义,也可以使用默认的存储结构。
除了描述表的基本信息,元数据还记录了表的分区信息、数据存储路径等,这些信息可以帮助Hive更好地执行查询和优化性能。在Hive中,元数据是进行SQL查询优化和提高查询性能的重要依据。
1.4 内部表和外部表
内部表(Managed Table):Hive的内部表是指由Hive管理的表,这些表的数据存储在Hive的数据仓库中,删除内部表时,Hive不仅会删除表的元数据,还会删除表的数据。
外部表(External Table):Hive的外部表是指那些存储在Hive数据仓库之外的数据表,例如存储在HDFS或其他文件系统中的表。对于外部表,Hive只负责提供元数据,而不管理实际的数据。当删除外部表时,Hive只会删除表的元数据,而不会删除表数据。需要注意的是,外部表中的数据无法被Hive直接管理,因此不能在Hive中对外部表执行如DML操作或创建索引等操作。
2. Hive与关系型数据库的对比
| Hive | RDBMS | |
|---|---|---|
| 查询语言 | HQL | SQL |
| 数据存储 | HDFS分布式文件系统 | 原始设备或本地文件 |
| 执行引擎 | MapReduce | Excutor |
| 执行延迟 | 高 | 低 |
| 数据规模 | 大规模 | 小规模 |
| 索引 | 没有索引 | 复杂索引 |
总的来说,Hive更适合大规模分布式数据处理和分析场景,而传统关系型数据库则更适合处理小型、结构化的事务性应用程序。
友情提示:本小节借鉴的是参考文献1
3. Hive 数据存储
Hive的数据存储基于Hadoop文件系统(HDFS),表中的数据在HDFS中都有相应的目录用来存储数据,每个表在HDFS中都有自己的目录,表的数据都存放在这个目录中。例如,如果有一个表temp_hive,那么在HDFS中会创建/user/hive/warehouse/temp_hive目录(这里假定hive.metastore.warehouse.dir配置为/user/hive/warehouse),temp_hive表所有的数据都存放在这个目录中。
Hive的存储结构主要包括数据库、文件、表、视图等,可以直接接入文本文件(.txt)中,在创建表的时候指定Hive数据的列分隔符和行分隔符。Hive的表和关系型数据库中的表在概念上很类似,每个表在HDFS中都有相应的目录用来存储表的数据。
4. 参考文献
1.Hive基础知识
相关文章:
Hive 基础知识
目录 1.基础概念1.1 定义1.2 组件1.3 元数据1.4 内部表和外部表 2. Hive与关系型数据库的对比3. Hive 数据存储4. 参考文献 1.基础概念 1.1 定义 Hive是一个基于Hadoop的数据仓库基础设施工具,它可以将结构化的数据文件映射为一张数据库表,并提供类SQL查…...
【数据结构】树的基础知识及三种存储结构
💐 🌸 🌷 🍀 🌹 🌻 🌺 🍁 🍃 🍂 🌿 🍄🍝 🍛 🍤 📃个人主页 :阿然成长日记 …...
ABB 3BHB003688R0101接口模块
通信接口:接口模块通常具有多种通信接口,如以太网、串行通信、Modbus、Profibus等,以便与其他设备和系统进行数据交换。 协议支持:它们支持各种通信协议,确保与不同制造商的设备和控制系统兼容。 数据转换和适配&…...
精简 jre 涉坑记录
主要参考:https://zhuanlan.zhihu.com/p/91496457 主要问题: 1)jre 中有 client 和 server 之分。参考:关于JDK的Server和Client模式的切换_jacksonary的博客-CSDN博客 2)对 copy 出来的 rt 进行打 zip 包时&#x…...
Java程序员学习算法路线规划总结
文章目录 前言:必须清楚得基本数据结构:1.需掌握哪些算法?2.学习步骤以及路线 前言:必须清楚得基本数据结构: 数组(Array) 链表(Linked List) 栈(Stack&…...
火山引擎 ByteHouse:两个关键技术,揭秘 OLAP 引擎中的数据导入技术
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 数据导入是衡量 OLAP 引擎性能及易用性的重要标准之一,高效的数据导入能力能够加速数据实时处理和分析的效率。 作为一款 OLAP 引擎,火山引…...
深挖“范围经济”穿越产业周期:TCL电子持续繁荣的密码
作者 | 曾响铃 文 | 响铃说 1878年,爱迪生创立了爱迪生电灯公司,14年后,摩根将该公司与另外两家合并成通用电气公司(GE)。 从一个小小的碳丝直流电灯泡开始,历经数次改弦更张,穿越两次世界大…...
Elasticsearch:使用 ESRE 和生成式 AI 了解 TLS 日志错误
作者:DAVID HOPE 本博客介绍了 Elasticsearch 相关性引擎 (ESRE) 及其 Elastic Learned Sparse Encoder 功能的新颖应用,特别是在日志分析中。 最近发布的 Elasticsearch Relevance Engine™ (ESRE™) 包含一系列重要功能,可增强搜索能力…...
Swing程序设计(3)JDialog窗体
文章目录 前言一、JDialog窗体的介绍二、JDialog窗体的使用 1.JDialog的常用构造方法2.实例展示及分析总结 前言 JDialog窗体是窗体中的另一种类型的窗体,指对话框窗体。与JFrame窗体类似,绝大部分对于JFrame窗体使用的方法,对于JDialog窗体也…...
类和对象(1)
文章目录 1.面向过程和面向对象初步认识2.类的引入3.类的定义4.类的访问限定符和封装4.1访问限定符4.2封装 5.类的作用域6.类的实例化6.2结构体内存对齐规则 7.this指针7.2this指针的特性 封装(补充) 1.面向过程和面向对象初步认识 C面向对象但不纯面向…...
学会用命令行创建uni-app项目并用vscode开放项目
(创作不易,感谢有你,你的支持,就是我前行的最大动力,如果看完对你有帮助,请留下您的足迹) 目录 创建 uni-app 项目 命令行创建 uni-app 项目 编译和运行 uni-app 项目: 用 VS Code 开发 uni…...
java.lang.ClassCastException: android.os.BinderProxy cannot be cast to ...
项目开发遇到下面这个报错了! 问题原因 直接说原因,就是因为进程间不能直接传递对象,应该传递该Binder对象的映射(代理对象),所以类型转换就出错了。如果在同一个进程中,直接传递对象没有关系&a…...
AIGC(生成式AI)试用 3 -- 专业主题
何为专业? 主要研究某种学业或从事某种事业 我的理解可能是在某个方向、某个行业,专业的更靠谱、说了更算、表达的更晰,结果更有说服力 本次提问:你我的专业 生成式AI知道你我的专业吗?生成式AI如何诠释你…...
rsyslog-日志管理 logrotate-日志轮转
日志的管理的方式,以及怎么自己写一个管理日志的小脚本,其实也不能算脚本 管理日志的进程 rsyslogd:绝大部分日志记录,和系统操作有关,安全,认证sshd,su,计划任务at,cron… httpd/nginx/mysql: …...
类和对象续
目录 包 自定义包 包的访问权限控制 常见的包 Static成员 静态成员变量 静态成员方法 代码块 构造块 静态块 重写 继承 继承是啥? 父类成员访问 子类中访问父类成员变量 两者不同名 两者同名 子类中访问父类对的成员方法 super 子类构造方法 …...
SpringCloud:Feign实现微服务之间相互请求
文章目录 🎉欢迎来到Java学习路线专栏~SpringCloud:Feign实现微服务之间相互请求 ☆* o(≧▽≦)o *☆嗨~我是IT陈寒🍹✨博客主页:IT陈寒的博客🎈该系列文章专栏:Java学习路线📜其他专栏…...
LeetCode 1359. Count All Valid Pickup and Delivery Options【动态规划,组合数学】1722
本文属于「征服LeetCode」系列文章之一,这一系列正式开始于2021/08/12。由于LeetCode上部分题目有锁,本系列将至少持续到刷完所有无锁题之日为止;由于LeetCode还在不断地创建新题,本系列的终止日期可能是永远。在这一系列刷题文章…...
[杂谈]-从硬件角度理解二进制数
从硬件角度理解二进制数 文章目录 从硬件角度理解二进制数1、概述2、模拟电路3、数字电路4、逻辑电平5、TTL 器件的电压水平6、总结 1、概述 二进制数以 2 为基数系统表示,该系统只有两 (2) 个不同的数值,即 0 和 1。就像最常见的那样,十进制…...
Fast-DDS 服务发现简要概述
阅读本文章需要对DDS基础概念有一些了解,一些内容来自Fast-DDS官方文档,一些是工作中踩过的坑。 1. 服务发现阶段 满足OMG标准的DDS服务发现分为两部分,分别是: PDP(Participant Discovery Protocol 参与者发现协议):参与者确认…...
基于spingboot的websocket订阅、广播、多人聊天室示例
概述 基于spingboot的websocket多人聊天系统。包括订阅,广播、点对点单人聊天,多人聊天室功能。 详细 一、运行效果 简单示例 广播 单人聊天 多人聊天室 二、相关代码 websocket配置 package com.iamgpj.demowebsocket.config;import com.iamgpj.d…...
RTX 4060笔记本也能玩转AI绘画?Nunchaku FLUX.1-dev量化版亲测体验报告
RTX 4060笔记本也能玩转AI绘画?Nunchaku FLUX.1-dev量化版亲测体验报告 1. 开箱即用的AI绘画体验 作为一名长期使用中端显卡的AI爱好者,当我第一次听说Nunchaku FLUX.1-dev量化版可以在RTX 4060笔记本上运行时,内心充满了怀疑。毕竟&#x…...
ChatDev SaaS平台终极指南:如何用AI多智能体技术10分钟开发专业软件
ChatDev SaaS平台终极指南:如何用AI多智能体技术10分钟开发专业软件 【免费下载链接】ChatDev 该项目利用由大型语言模型(LLM)驱动的多智能体协作技术,以自然语言概念为输入,实现定制化软件的开发过程。 项目地址: h…...
普里斯特利时间轴制作教程:使用chart-doctor创建精美历史时间线
普里斯特利时间轴制作教程:使用chart-doctor创建精美历史时间线 【免费下载链接】chart-doctor Sample files to accompany the FTs Chart Doctor column 项目地址: https://gitcode.com/gh_mirrors/ch/chart-doctor chart-doctor是GitHub加速计划中的一个实…...
LangChain4j的AiServices到底怎么用?一个注解让SpringBoot服务秒变AI智能体
LangChain4j的AiServices深度实践:用声明式编程重构SpringBoot智能服务 在Java生态中集成大语言模型(LLM)时,开发者常常面临一个架构难题:如何在保持代码整洁的同时,优雅地组织AI能力?LangChain…...
PHP Monitor自定义配置教程:设置预设、环境变量和应用集成
PHP Monitor自定义配置教程:设置预设、环境变量和应用集成 【免费下载链接】phpmon Lightweight, native Mac menu bar app that helps you manage multiple PHP installations, locate config files and more. Also interacts with Laravel Valet. 项目地址: htt…...
GIL-Free Python并发仅剩最后1%难题:我们用37小时逆向分析PyO3内存模型,找到共享引用计数的终极解法
第一章:GIL-Free Python并发的终极挑战与破局意义Python 的全局解释器锁(GIL)长期被视为多核 CPU 利用率的“天花板”。它确保同一时刻仅有一个线程执行 Python 字节码,虽简化了内存管理与 C 扩展开发,却在 CPU 密集型…...
EVA-01部署教程:Qwen2.5-VL-7B模型服务API封装+NERV风格响应协议
EVA-01部署教程:Qwen2.5-VL-7B模型服务API封装NERV风格响应协议 1. 引言:欢迎来到NERV指挥中心 想象一下,你面前有一个能“看懂”图片的智能助手,但它不是普通的聊天窗口,而是一个充满未来感的机甲驾驶舱。紫色的装甲…...
GLM-4-9B-Chat-1M惊艳效果:输入50万字小说,精准定位伏笔与人物关系图谱
GLM-4-9B-Chat-1M惊艳效果:输入50万字小说,精准定位伏笔与人物关系图谱 1. 百万长文处理新标杆 想象一下,你手头有一部50万字的网络小说,想要找出所有埋设的伏笔线索,理清复杂的人物关系网。传统方法可能需要花费数天…...
Llama-3.2V-11B-cot代码实例:Streamlit中图片上传与缓存机制
Llama-3.2V-11B-cot代码实例:Streamlit中图片上传与缓存机制 1. 项目概述 Llama-3.2V-11B-cot是基于Meta Llama-3.2V-11B-cot多模态大模型开发的高性能视觉推理工具,专为双卡4090环境优化。该工具通过Streamlit构建了直观易用的交互界面,特…...
如何用Python零依赖快速获取百度搜索结果?python-baidusearch深度解析
如何用Python零依赖快速获取百度搜索结果?python-baidusearch深度解析 【免费下载链接】python-baidusearch 自己手写的百度搜索接口的封装,pip安装,支持命令行执行。Baidu Search unofficial API for Python with no external dependencies …...
