当前位置：首页 > news >正文

hive建分区表，分桶表，内部表，外部表

news 2025/10/30 3:44:10

hive建分区表，分桶表，内部表，外部表

一、概念介绍

Hive是基于Hadoop的一个工具，用来帮助不熟悉 MapReduce的人使用SQL对存储在Hadoop中的大规模数据进行数据提取、转化、加载。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表（hive表对应着hdfs文件），并提供SQL查询功能，Hive能将SQL语句转变成MapReduce任务来执行。

分区表，分桶表，内部表，外部表的概念:
hive表由存储的数据和描述表数据形式的元数据组成。
内部表(默认):建表时没有用EXTERNAL关键字,状态下hive表会维护数据,将数据移入仓库目录(warehouse),表被删除时会同步删除元数据和数据
外部表（external table）建表时使用了EXTERNAL关键字,删除表时仅仅删除hive中的元数据，不会去删除数据。
内部表和外部表的区别表现在LOAD和DROP命令的不同上。LOAD 内部表会把数据移动到仓库目录(warehouse)外部表不会移动数据,只是记录数据路径信息,甚至不会检查路径是否存在DROP 内部表会将元数据和数据一起删除外部表只删除元数据
分区表:分区只是表目录下的子目录。比如按天分区，这样同一天的记录会被保存在同一分区（目录），优点在于查询特定日期的时候特别高效。分区是在创建表时使用 PARTITIONED BY子句定义的,分区列不在数据文件中。create table logs(ts INT,line STRING)PARTITIONED by(dt STRING);分区表加载数据时需要指定分区值load data local inpath ‘/home/public_train/part.txt’ into table logs  PARTITION (dt=’2023-01-01’);使用show partitions logs;查看logs下的分区
分桶表:使用CLUSTERED BY子句指定划分通的列和桶的个数。每个桶是表(或分区)目录里的一个文件。create table bucketed_user(id INT,name STRING)CLUSTERED BY (id) into 4 BUCKETS;桶中的数据库可以进行排序:create table bucketed_users(id INT,name STRING)CLUSTERED BY (id) SORTED BY (id ASC) into 4 BUCKETS;查看分桶文件hdfs dfs -ls /user/hive/warehouse/bucketed_users分桶的优点在于快速取样和在表连接的时候提高效率。

下面我们使用hive建分区表，分桶表，内部表，外部表来熟悉hive的建表操作。

二、 hive建表实操

${HIVE_HOME}/bin/hive启动hive客户端

-- 准备工作, 创建数据文件,这里字段分割符是Tab键,对应着表定义中的'\t'
vi stu.txt
1	xiapi
2	xiaoxue
3	qingqin
4	lisi
--上传文件到hdfs
hdfs dfs -mkdir -p /hive/stu
hdfs dfs -put -f stu.txt hdfs://192.168.129.130:8020/hive/stu/stu.txt

下面使用${HIVE_HOME}/bin/hive启动hive客户端进行演示:

1. 创建表并将数据文件导入表中

建hive表（默认为内部表）会在数据仓库(hdfs默认/user/hive/warehouse)中创建同名表目录,load数据文件会将文件移动到表目录下。

-- drop table test;
-- 建hive表对应的是数据仓库warehouse中的hdfs文件,所以需要指定文件中的字段分隔符和行分隔符
create table test (
id int,
name string 
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n';-- 查看表字段
desc test;
-- 查看建表语句
show create table test;
show tables;
-- 查看表文件
$ hdfs dfs -ls hdfs://192.168.129.130:8020/user/hive/warehouse/public_train.db/test-- 导入数据的语法为
-- LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE]  
-- INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]-- 导入本地数据,需要加上LOCAL
load data LOCAL inpath '/home/public_train/stu.txt' INTO TABLE test;
select * from test;-- 导入HDFS数据, 会将HDFS文件移动到hive数据仓库
load data inpath 'hdfs://192.168.129.130:8020/hive/stu/stu.txt' INTO TABLE test;
select * from test;
-- 查看表文件,增加了1个文件
$ hdfs dfs -ls hdfs://192.168.129.130:8020/user/hive/warehouse/public_train.db/test
-- hdfs文件已经不见了(被移动到hive数据仓库了)
$ hdfs dfs -ls hdfs://192.168.129.130:8020/hive/stu/stu.txt-- OVERWRITE覆盖导入HDFS数据 
load data inpath 'hdfs://192.168.129.130:8020/hive/stu/stu.txt' OVERWRITE INTO TABLE test;
select * from test;
-- 查看表文件,只剩下一个文件
$ hdfs dfs -ls hdfs://192.168.129.130:8020/user/hive/warehouse/public_train.db/test

2. 基于现有表，创建新表

create table test_copy as select * from test;

3. 创建内部表和外部表,分别load和drop后查看数据文件观察区别。

内部表会维护数据文件即load时移动文件,drop时删除数据文件;
外部表hive不会维护数据文件, drop时不会删除数据文件,仅仅删除表定义;

-- 内部表使用上面的test表即可-- 建外部表使用external关键字
create external table stu (
id int,
name string 
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
location 'hdfs://192.168.129.130:8020/hive/stu'  ;-- 查看建表语句
show create table stu;
select * from stu;$ hdfs dfs -put -f stu.txt hdfs://192.168.129.130:8020/hive/stu/stu.txt
$ hdfs dfs -ls hdfs://192.168.129.130:8020/hive/stu;
select * from stu;
-- 删除外部表后,数据文件还在
drop table stu;
$ hdfs dfs -ls hdfs://192.168.129.130:8020/hive/stu;create external table stu (
id int,
name string 
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
location 'hdfs://192.168.129.130:8020/hive/stu'  ;
select * from stu;

4. 创建分区表,并导入分区数据

分区是表目录下的子目录。分区字段值就是子目录名，分区字段不存在于数据文件中。
分区是表的水平拆分,查询特定分区的时候特别高效,只需要读取分区子目录下的文件。

-- PARTITIONED  by指定分区字段
create table logs(ts INT,line STRING) 
PARTITIONED by(dt STRING) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n';-- 加载数据
load data local inpath '/home/public_train/stu.txt' into table logs  PARTITION (dt='2023-01-01');
-- 查看分区 
show partitions logs;
-- 查看表文件(子目录名称即是分区)
dfs -ls /user/hive/warehouse/public_train.db/logs
select * from logs where dt='2023-01-01';-- 动态分区, 根据分区字段的值自动创建分区set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;insert into logs partition (dt) values (8,'auto','2024-01-01');dfs -ls /user/hive/warehouse/public_train.db/logsshow partitions logs;

5. 建表分桶

单个分桶是表或分区下的单个表文件。
分桶可以将原本的单个表文件拆分为多个表文件，好处在于快速取样和表jion时的效率提升。

-- 强制分区及设置reduces数目为分区数
set hive.enforce.bucketing = true;
set mapreduce.job.reduces=4;create table bucketed_users (id INT,name STRING) CLUSTERED BY (id) into 4 BUCKETSROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n';insert  into  table bucketed_users  select ts, line from  logs;dfs -ls /user/hive/warehouse/public_train.db/bucketed_users;

在这里插入图片描述

三、hive原理及架构

Hive 实质就是一款基于 HDFS 的 MapReduce 计算框架，对存储在 HDFS 中的数据进行分析和管理。下图简要说明Hive如何将SQL语句转换成MapReduce的实现原理。
在这里插入图片描述

基本概念：
底层数据是存储在 HDFS 上
元数据存储在元数据库中
Hive的本质是将 SQL 语句转换为 MapReduce 任务运行
使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据，适用于离线的批量数据计算。

Hive的架构及常用端口
在这里插入图片描述

hive建分区表，分桶表，内部表，外部表

hive建分区表，分桶表，内部表，外部表一、概念介绍 Hive是基于Hadoop的一个工具，用来帮助不熟悉 MapReduce的人使用SQL对存储在Hadoop中的大规模数据进行数据提取、转化、加载。Hive数据仓库工具能将结构化的数据文件映射为一张数…...

编程日记 2023/2/27 20:08:47

【分享】灌溉制度设计小程序VB源代码

说明根据作物需水特性和当地气候、土壤、农业技术及灌水技术等因素制定的灌水方案。主要内容包括灌水次数、灌水时间、灌水定额和灌溉定额。灌溉制度是规划、设计灌溉工程和进行灌区运行管理的基本资料，是编制和执行灌区用水计划的重要依据。 1—计划湿润土层允…...

编程日记 2023/2/27 20:07:39

PR9268/300-000库存现货振动传感器雄霸工控PR9268/300-000库存现货振动传感器雄霸工控SDM010PR9670/110-100PR9670/010-100PR9670/003-000PR9670/002-000PR9670/001-000PR9670/000-000PR9600/014-000PR9600/011-000PR9376/010-021PR9376/010-011PR9376/010-011PR9376/010-001…...

编程日记 2023/2/27 20:06:33

浅谈模型评估选择及重要性

作者：王同学来源：投稿编辑：学姐模型评估作为机器学习领域一项不可分割的部分，却常常被大家忽略，其实在机器学习领域中重要的不仅仅是模型结构和参数量，对模型的评估也是至关重要的，只有选择那…...

编程日记 2023/2/27 20:05:28

多线程的初识和创建

✨个人主页：bit me👇 ✨当前专栏：Java EE初阶👇 ✨每日一语：知不足而奋进，望远山而前行。目录💤一. 认识线程（Thread）🍎1. 线程的引入🍏2. 线程…...

编程日记 2023/2/27 20:04:22

一句话设计模式3:工厂模式

工厂模式:new多种对象的简单方式。文章目录工厂模式:new多种对象的简单方式。前言一、两种工厂模式二、如何实现工厂模式1. 简单工厂2. 抽象工厂总结前言工厂模式可以说比较常见的设计模式,仔细观察在很多源码中都有此种模式的应用;用来解决创建对象的创建问题; 一、两种工…...

编程日记 2023/2/27 20:03:16

【Codeforces Round #853 (Div. 2)】C. Serval and Toxel‘s Arrays【题解】

题目 Toxel likes arrays. Before traveling to the Paldea region, Serval gave him an array aaa as a gift. This array has nnn pairwise distinct elements. In order to get more arrays, Toxel performed mmm operations with the initial array. In the iii-th opera…...

编程日记 2023/2/27 20:02:11

100天精通Python（数据可视化篇）——第77天：数据可视化入门基础大全（万字总结+含常用图表动图展示）

文章目录1. 什么是数据可视化？2. 为什么会用数据可视化？3. 数据可视化的好处？4. 如何使用数据可视化？5. Python数据可视化常用工具1）Matplotlib绘图2）Seaborn绘图3）Bokeh绘图6. 常用图表介绍及其…...

编程日记 2023/2/27 20:01:04

PMP考前冲刺2.27 | 2023新征程，一举拿证

题目1-2：1.在产品开发过程中，项目发起人向项目团队推荐了一种新材料，新材料比现有的材料更便宜而且性能更好。如果团队采用新材料，不但有利于提升产品质量，而且可以显著降低成本。项目经理应该怎么办?A.采用新材料&am…...

编程日记 2023/2/27 19:59:58

【C++】map和set的封装（红黑树）

map和set的封装一、介绍二、stl源码剖析三、仿函数获取数值四、红黑树的迭代器五、map的[]5.1 普通迭代器转const迭代器六、set源码七、map源码八、红黑树源码一、介绍首先要知道map和set的底层都是用红黑树实现的【数据结构】红黑树 set只需要一个key，但是map既…...

编程日记 2023/2/27 19:58:53

【批处理脚本】-1.14-移动文件(夹)命令move

"><--点击返回「批处理BAT从入门到精通」总目录--> 共10页精讲（列举了所有move的用法，图文并茂，通俗易懂）在从事“嵌入式软件开发”和“Autosar工具开发软件”过程中，经常会在其集成开发环境IDE（CodeWarrior，S32K DS，Davinci，EB Tresos，ETAS…）中，…...

编程日记 2023/2/27 19:57:49

逻辑地址和物理地址转换

在操作系统的学习中，很多抵挡都会涉及虚拟地址转换为物理地址的计算，本篇就简单介绍一下在分页存储管理、分段存储管理、磁盘存储管理中涉及的地址转换问题。虚拟地址与物理地址编程一般只有可能和逻辑地址打交道，比如在 C 语言中&#x…...

编程日记 2023/2/27 19:56:44

HyperGBM用4记组合拳提升AutoML模型泛化能力

本文作者：杨健，九章云极 DataCanvas 主任架构师如何有效提高模型的泛化能力，始终是机器学习领域的重要课题。经过大量的实践证明比较有效的方式包括： 利用Early Stopping防止过拟合通过正则化降低模型的复杂度使用更多的训练数…...

编程日记 2023/2/27 19:55:41

P6软件中的前锋线设置

卷首语所谓前锋线，是指从评估时刻的时标点出发，用点划线一次连接各项活动的实际进展位置所形成的的线段，其通常为折线。关键路径法前锋线比较法，是通过在进度计划中绘制实际进度前锋线以判断活动实际进度与计划进度的偏差&a…...

编程日记 2023/2/27 19:54:37

Spring Boot + Vue3 前后端分离实战 wiki 知识库系统＜二＞---后端架构完善与接口开发

数据库准备： 在上一次Spring Boot Vue3 前后端分离实战 wiki 知识库系统<一>---Spring Boot项目搭建已经将SpringBoot相关的配置环境给搭建好了，接下来则需要为咱们的项目创建一个数据库。 1、mysql的安装： 关于mysql的安装这里就…...

编程日记 2023/2/27 19:53:33

如何在logback.xml中自定义动态属性

原文地址：http://blog.jboost.cn/trick-logback-prop.html 当使用logback来记录Web应用的日志时，我们通过在logback.xml中配置appender来指定日志输出格式及输出文件路径，这在一台主机或一个文件系统上部署单个实例没有问题，但是…...

编程日记 2023/2/27 19:52:28

嵌入式系统硬件设计与实践（第一步下载eda软件）

编程日记 2023/2/27 19:51:23

Portraiture4免费磨皮插件支持PS/LR

Portraiture 4免去了繁琐的手工劳动，选择性的屏蔽和由像素的平滑，以帮助您实现卓越的肖像润色。智能平滑，并删除不完善之处，同时保持皮肤的纹理和其他重要肖像的细节，如头发，眉毛，睫毛等。一键…...

编程日记 2023/2/27 19:50:18

Python学习笔记202302

1、numpy.empty 作用：根据给定的维度和数值类型返回一个新的数组，其元素不进行初始化。用法：numpy.empty(shape, dtypefloat, order‘C’) 2、logging.debug 作用：Python 的日志记录工具，这个模块为应用与库实现了灵…...

编程日记 2023/2/27 19:49:13

2023年大数据面试开胃菜

1、kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成，header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候，会在magic和crc32之间多一个字节…...

编程日记 2023/2/27 19:48:06

【网络】每天掌握一个Linux命令 - iftop

在Linux系统中，iftop是网络管理的得力助手，能实时监控网络流量、连接情况等，帮助排查网络异常。接下来从多方面详细介绍它。目录【网络】每天掌握一个Linux命令 - iftop工具概述安装方式核心功能基础用法进阶操作实战案例面试题场景生产场景…...

编程新知 2025/10/10 17:03:53

Android Wi-Fi 连接失败日志分析

1. Android wifi 关键日志总结 (1) Wi-Fi 断开 (CTRL-EVENT-DISCONNECTED reason3) 日志相关部分： 06-05 10:48:40.987 943 943 I wpa_supplicant: wlan0: CTRL-EVENT-DISCONNECTED bssid44:9b:c1:57:a8:90 reason3 locally_generated1解析： CTR…...

编程新知 2025/9/14 19:44:52

【JVM】- 内存结构

引言 JVM：Java Virtual Machine 定义：Java虚拟机，Java二进制字节码的运行环境好处： 一次编写，到处运行自动内存管理，垃圾回收的功能数组下标越界检查（会抛异常，不会覆盖到其他代码…...

编程新知 2025/10/28 21:57:50

对WWDC 2025 Keynote 内容的预测

借助我们以往对苹果公司发展路径的深入研究经验，以及大语言模型的分析能力，我们系统梳理了多年来苹果 WWDC 主题演讲的规律。在 WWDC 2025 即将揭幕之际，我们让 ChatGPT 对今年的 Keynote 内容进行了一个初步预测，聊作存档。等到明…...

编程新知 2025/10/25 12:27:41

【2025年】解决Burpsuite抓不到https包的问题

环境：windows11 burpsuite:2025.5 在抓取https网站时，burpsuite抓取不到https数据包，只显示： 解决该问题只需如下三个步骤： 1、浏览器中访问 http://burp 2、下载 CA certificate 证书 3、在设置--隐私与安全--…...

编程新知 2025/10/27 11:02:59

Linux-07 ubuntu 的 chrome 启动不了

文章目录问题原因解决步骤一、卸载旧版chrome二、重新安装chorme三、启动不了，报错如下四、启动不了，解决如下总结问题原因在应用中可以看到chrome，但是打不开(说明：原来的ubuntu系统出问题了，这个是备用的硬盘&a…...

编程新知 2025/10/29 5:03:52

初学 pytest 记录

安装 pip install pytest用例可以是函数也可以是类中的方法 def test_func():print()class TestAdd: # def __init__(self): 在 pytest 中不可以使用__init__方法 # self.cc 12345 pytest.mark.api def test_str(self):res add(1, 2)assert res 12def test_int(self):r…...

编程新知 2025/10/29 4:49:49