当前位置：首页 > news >正文

Hive数仓操作（八）

news 2026/2/10 14:01:13

一、Hive中的分桶表

1. 分桶表的概念

分桶表是Hive中一种用于提升查询效率的表类型。分桶指的是根据指定列的哈希值将数据划分到不同的文件（桶）中。

2. 分桶表的原理

哈希分桶：根据分桶列计算哈希值，对哈希值取模，将数据分配到相应的桶中。
分区/分桶：分区是基于存储路径的划分，而分桶是基于数据文件的划分。

假设按以下规则分桶

分桶列：id
分桶数量：4

分桶计算过程

计算哈希值：对每个id计算其哈希值。
取模运算：对哈希值进行取模运算，模数为分桶数量（4）。
分配到桶：根据取模结果，将数据分配到相应的桶。

示例

假设有以下id数据：101, 102, 103, 104, 105

id = 101:
- 哈希值：假设为hash(101) = 1111
- 取模：1111 % 4 = 3
- 分配到桶3
id = 102:
- 哈希值：假设为hash(102) = 2222
- 取模：2222 % 4 = 2
- 分配到桶2
id = 103:
- 哈希值：假设为hash(103) = 3333
- 取模：3333 % 4 = 1
- 分配到桶1
id = 104:
- 哈希值：假设为hash(104) = 4444
- 取模：4444 % 4 = 0
- 分配到桶0
id = 105:
- 哈希值：假设为hash(105) = 5555
- 取模：5555 % 4 = 3
- 分配到桶3

3. 分桶表的用途

加快表连接速度：当两个表的连接字段作为分桶字段时，且分桶数量相等或成倍数关系时，能够加快连接速度。
支持抽样查询：可以快速获取数据的样本。

在这里插入图片描述

加速原理

分桶数量相同：每个对应的桶只需要在各自的桶中进行连接。
倍数关系：较大的分桶表的桶可以映射到较小分桶表的桶。比如，一个表有8个桶，另一个表有4个桶，每2个小桶可以对应到1个大桶。

表连接查询

分桶表在连接查询时，可以利用表的分桶特性加速查询，尤其是在两个表分桶字段相同时：

SELECT a.*, b.*
FROM stu_info_c AS a
JOIN another_bucketed_table AS b
ON a.id = b.id;

4. 分桶表的创建

假设有以下数据：

1001,lilei,男,18
1002,lucy,女,16
...

创建分桶表

CREATE TABLE stu_info_c (id INT,name STRING,sex STRING,age INT
)
CLUSTERED BY (id) INTO 4 BUCKETS 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

CLUSTERED BY (id): 指定用于分桶的字段，这里是 id。数据在分区内会根据 id 的哈希值进行分桶。
INTO 4 BUCKETS: 指定将数据划分为 4 个桶。每个桶包含一部分数据，以便在查询时可以并行处理，提高性能。

加载数据到分桶表

创建临时表并加载数据：

创建临时表：

CREATE TABLE stu_info_c_tmp (id INT,name STRING,score DECIMAL(5, 2)
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';

加载数据：

LOAD DATA INPATH '/bc/stu.txt' INTO TABLE stu_info_c_tmp;

将数据导入分桶表：

INSERT OVERWRITE TABLE stu_info_c SELECT * FROM stu_info_c_tmp;

5. 分桶表的查询

查询整张表

SELECT * FROM stu_info_c;

抽样查询

SELECT * FROM stu_info_c TABLESAMPLE(BUCKET 3 OUT OF 8);

TABLESAMPLE(BUCKET x OUT OF y) 用于从分桶表中抽样数据

y值：决定抽样比例，必须是表总桶数的倍数或因子。
x值：表示从哪个桶开始抽取。
例如，如果表总共分为 4 个桶，TABLESAMPLE(BUCKET 2 OUT OF 2) 将返回 2 个桶的数据，而 TABLESAMPLE(BUCKET 1 OUT OF 2) 将返回第 1 个桶和第 3 个桶的数据。

6. 分桶与分区的区别

字段来源：
- 分区使用creat以外的新字段。
- 分桶使用creat之后的已有字段。
划分方式：
- 分区：指定规则（静态、动态）。
- 分桶：基于哈希算法。
存储方式：
- 分区：创建子目录存储数据。
- 分桶：将表拆分为多个小文件。
使用场景：
- 分区：加速分区字段查询。
- 分桶：加速表连接。

特性	分区	分桶
字段来源	新字段（不在原表中）	原表中已有字段
划分方式	指定规则（静态、动态）	基于哈希算法
存储方式	创建子目录存储数据	将表拆分为多个小文件
使用场景	加速分区字段查询	加速表连接

语法

CREATE TABLE bucketed_sales (id INT,product STRING,amount DECIMAL(10, 2),date STRING
)
PARTITIONED BY (year INT)
CLUSTERED BY (id) INTO 4 BUCKETS
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';

感谢您访问本博文，另外，在今天这个举国欢庆的日子里，愿大家享受美好的时光，放下工作的繁忙，陪伴家人和朋友，共度温馨的国庆假期。愿祖国繁荣昌盛，国泰民安！祝大家国庆快乐，幸福安康！

Hive数仓操作（八）

一、Hive中的分桶表 1. 分桶表的概念分桶表是Hive中一种用于提升查询效率的表类型。分桶指的是根据指定列的哈希值将数据划分到不同的文件（桶）中。 2. 分桶表的原理哈希分桶：根据分桶列计算哈希值，对哈希值取模，将…...

编程日记 2024/10/5 12:56:14

【C++打怪之路Lv6】-- 内存管理

🌈 个人主页：白子寰 🔥 分类专栏：C打怪之路，python从入门到精通，数据结构，C语言，C语言题集👈 希望得到您的订阅和支持~ 💡 坚持创作博文(平均质量分82)&#…...

编程日记 2024/10/5 12:52:11

408知识点自检（二）

一、细节题边界对齐长度是由什么决定的？64位计算机边界按几字节对齐？单周期cpu、多周期cpu、基本流水线cpu、超标量cpu的cpi分别是多少？中断的处理优先级和响应优先级分别由谁决定？动态分区管理需要用什么重定位方式&#xff1f…...

编程日记 2024/10/5 12:51:10

C语言复习概要（二）

本文目录 C语言中的数组与函数详解1. 引言2. 数组2.1. 什么是数组？语法：示例： 2.2. 数组的初始化示例 1：在声明时初始化示例 2：部分初始化示例 3：运行时赋值 2.3. 数组的访问与修改示例： 2.4. 多…...

编程日记 2024/10/5 12:42:58

小程序原生-利用setData()对不同类型的数据进行增删改

1. 声明和绑定数据 wxml文件 <view> {{school}} </view> <view>{{obj.name}}</view> <view id"{{id}}" > 绑定属性值 </view> <checkbox checked"{{isChecked}}"/>  <view>{{ id …...

编程日记 2024/10/5 12:40:57

.NET Core 集成 MiniProfiler性能分析工具

前言： 在日常开发中，应用程序的性能是我们需要关注的一个重点问题。当然我们有很多工具来分析程序性能：如：Zipkin等；但这些过于复杂，需要单独搭建。 MiniProfiler就是一款简单，但功能强大的应用…...

编程日记 2024/10/5 12:36:54

【JAVA开源】基于Vue和SpringBoot的旅游管理系统

本文项目编号 T 063 ，文末自助获取源码 \color{red}{T063，文末自助获取源码} T063，文末自助获取源码目录一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析5.4 用例设计六、核…...

编程日记 2024/10/5 12:34:52

信息学奥赛一本通 1885：【14NOIP提高组】寻找道路 | 洛谷 P2296 [NOIP2014 提高组] 寻找道路

【题目链接】洛谷 P2296 [NOIP2014 提高组] 寻找道路 ybt 1885：【14NOIP提高组】寻找道路【题目考点】 1. 图论：广搜 2. 图论：反图【解题思路】设path数组，path[i]表示顶点i出发到终点t是否有路径。先求path数组&#…...

编程日记 2024/10/5 12:33:49

JVM 基础、GC 算法与 JProfiler 监控工具详解

目录 1、引言 1.1 JVM内存与本地内存 1.2 JVM与JDK的关系 2、JVM基础 2.1 JVM（Java Virtual Machine） 2.2 Java与JVM的关系 2.3 JVM的内存结构 2.3.1 堆内存 2.3.2 栈内存 2.3.3 方法区 2.3.4 本地方法栈 2.3.5 程序计数器（PC寄存…...

编程日记 2024/10/5 12:28:43

nodejs安装及环境配置

一、下载进入官网https://nodejs.org/en/download/prebuilt-installer下载node.js安装包，选择对应版本的node，这里我选择的是14.21.3版本二、安装 1、下载完成后，双击“node-v14.21.3-x64.msi”，开始安装Node.js 2、勾选复…...

编程日记 2024/10/5 12:25:40

无人机电力巡检:点亮电力巡检新视野!

一、无人机电力巡查的优势提高巡检效率：无人机可以搭载高清摄像头、红外热像仪等先进设备，实时拍摄和传输图像，帮助巡检人员快速发现潜在问题，如电线破损、绝缘子污损、设备过热等，从而大大缩短了巡检周期。降低人…...

编程日记 2024/10/5 12:24:39

文章目录 Java SPI (Service Provider Interface) 和 API (Application Programming Interface) 的区别详解目录1. 定义和目的1.1 API (Application Programming Interface)1.2 SPI (Service Provider Interface) 2. 使用场景2.1 API 的应用场景2.2 SPI 的应用场景 3. 加载和调…...

编程日记 2024/10/5 12:23:38

【面向对象】设计模式概念和分类

零.前提提要本文章是我考中级软件设计师时的笔记，基本都是一些自己的思路和见解，现记录一下，希望可以帮助到即将考证的同学。一.面向对象设计模式的概念二.面向对象的设计模式分类设计模式确定了所包含的类和实例、他们的角色和写作方式以…...

编程日记 2024/10/5 12:21:35

APK安装包arm64-v8a、armeabi-v7a、x86、x86_64如何区别？（2024年10月1日）

其实就是安卓CPU的进步史安卓CPU类型: arm64-v8a: 第8代、64位ARM处理器，目前手机大多数是此架构(新手机，可以无脑选择)armeabiv-v7a: 第七代及以上的 ARM 处理器。2011年5月以后生产的大部分安卓设备都使用它armeabi: 第5代、第6代的ARM处理器&#…...

编程日记 2024/10/5 12:20:34

【DataLoom】智能问数 - 自然语言与数据库交互

探索DataLoom的智能问数功能：简化数据库查询在数据驱动的决策制定中，数据库查询是获取洞察的关键步骤。但是，传统的数据库查询方法往往复杂且技术性强，这限制了非技术用户的使用。DataLoom的智能问数功能正是为了解决这一问题而…...

编程日记 2024/10/5 12:19:32

【Linux】进程地址空间(初步了解)

文章目录 1. 奇怪的现象2. 虚拟地址空间3. 关于页表4. 为什么要有虚拟地址 1. 奇怪的现象我们先看一个现象： 为什么父子进程从“同一块地址中”读取到的值不一样呢？ 因为这个地址不是物理内存的地址 ，如果是物理内存的地址是绝对不可能出…...

编程日记 2024/10/5 12:17:30

hdu-6024

hdu-6024 struct node {int x, c;bool operator<(const node &a) const{return x < a.x;} }; // dp[i][0]为到第i个教室且第i个教室不建糖果店的花费前缀和，dp[i][1]为到第i个教室且第i个教室建糖果店的花费前缀和 int dp[N][2]; void solve() {int n;wh…...

编程日记 2024/10/5 12:15:28

jmeter操作数据库

jmeter操作数据库一、打开数据库二、jmeter下载驱动，安装jdbc驱动 1、下载好的驱动包 2、将驱动包复制粘贴存放在包的路径下 （1）jdk下面 a、路径：jdk1\jre\lib b、jdk1\jre\lib\ext （2）jmeter下 a、…...

编程日记 2024/10/5 12:13:26

Stable Diffusion绘画 | 如何做到不同动作表情，人物角色保持一致性(上篇)

由于 SD 具有强大的可控性，在固定人物角色方面，SD 是远超 MJ 的， 其中最好用，也是最优先的方法就是训练一个自己专属的角色模型，例如之前使用秋叶训练器得到的 LoRA模型。另外，如果不想自己训练模型的话…...

编程日记 2024/10/5 12:09:22

中国计量大学《2023年801+2023年819自动控制原理真题》 (完整版）

本文内容，全部选自自动化考研联盟的：《中国计量大学801819自控考研资料》的真题篇。后续会持续更新更多学校，更多年份的真题，记得关注哦~ 目录 2023年801真题 2023年819真题 Part1：2023年完整版真题 2023年801真题…...

编程日记 2024/10/5 12:06:20

树莓派超全系列教程文档--(62)使用rpicam-app通过网络流式传输视频

使用rpicam-app通过网络流式传输视频使用 rpicam-app 通过网络流式传输视频UDPTCPRTSPlibavGStreamerRTPlibcamerasrc GStreamer 元素文章来源： http://raspberry.dns8844.cn/documentation 原文网址使用 rpicam-app 通过网络流式传输视频本节介绍来自 rpica…...

编程新知 2025/11/5 13:03:58

【JavaEE】-- HTTP

1. HTTP是什么？ HTTP（全称为"超文本传输协议"）是一种应用非常广泛的应用层协议，HTTP是基于TCP协议的一种应用层协议。应用层协议：是计算机网络协议栈中最高层的协议，它定义了运行在不同主机上…...

编程新知 2026/2/8 22:56:45

FFmpeg 低延迟同屏方案

引言在实时互动需求激增的当下，无论是在线教育中的师生同屏演示、远程办公的屏幕共享协作，还是游戏直播的画面实时传输，低延迟同屏已成为保障用户体验的核心指标。FFmpeg 作为一款功能强大的多媒体框架，凭借其灵活的编解码、数据…...

编程新知 2025/11/4 6:26:59

1.3 VSCode安装与环境配置

进入网址Visual Studio Code - Code Editing. Redefined下载.deb文件，然后打开终端，进入下载文件夹，键入命令 sudo dpkg -i code_1.100.3-1748872405_amd64.deb 在终端键入命令code即启动vscode 需要安装插件列表 1.Chinese简化 2.ros …...

编程新知 2026/1/29 3:35:37