Hive 分桶表的创建与填充操作详解
Hive 分桶表的创建与填充操作详解
在 Hive 数据处理中,分桶表是一个极具实用价值的功能,它相较于非分桶表能够实现更高效的采样,并且后续还可能支持诸如 Map 端连接等节省时间的操作。不过,值得注意的是,在向表写入数据时,创建表时指定的分桶规则并不会被强制实施,所以有可能出现表的元数据所宣称的属性与表实际的数据布局不一致的情况,而这显然是我们要尽力避免的。接下来,详细介绍如何正确地创建和填充分桶表,以及在不同 Hive 版本中的相关要点。
一、创建分桶表
首先来看创建分桶表的操作,示例代码如下:
CREATE TABLE user_info_bucketed(user_id BIGINT, firstname STRING, lastname STRING)
COMMENT 'A bucketed copy of user_info'
PARTITIONED BY(ds STRING)
CLUSTERED BY(user_id) INTO 256 BUCKETS;
在上述创建表的语句中,我们通过 CLUSTERED BY 子句指定了基于 user_id 列来进行分桶,并且将其划分为 256 个桶。这里可以根据实际业务需求和数据量等因素灵活选择分桶的列以及桶的数量。
二、填充分桶表
(一)Hive 0.x 和 1.x 版本
对于 Hive 0.x 和 1.x 版本,填充分桶表需要执行以下操作:
set hive.enforce.bucketing = true; -- (注意:在 Hive 2.x 及以后版本不需要此设置)
FROM user_id
INSERT OVERWRITE TABLE user_info_bucketed
PARTITION (ds='2009-02-25')
SELECT userid, firstname, lastname WHERE ds='2009-02-25';
在这些早期版本中,命令 set hive.enforce.bucketing = true; 起着关键作用,它允许 Hive 根据表的定义自动选择正确的 Reducer 数量以及按照聚类列(Cluster By 列)来进行相应操作。否则的话,就需要手动设置 Reducer 的数量与桶的数量一致,比如通过 set mapred.reduce.tasks = 256; 这样的语句来设置,并且在 SELECT 语句中要有 CLUSTER BY... 子句。
(二)Hive 2.x 版本及之后
从 Hive 2.x 版本开始,情况有所变化,不再需要设置 hive.enforce.bucketing = true 这条命令了。Hive 在处理分桶表填充时更加智能和自动化,会按照创建表时定义的分桶规则自动进行相应的操作,大大简化了操作流程,降低了因配置不当导致分桶错误的风险。
例如,我们依然可以使用类似下面这样简洁的语句来向分桶表插入数据:
FROM user_id
INSERT OVERWRITE TABLE user_info_bucketed
PARTITION (ds='2009-02-25')
SELECT userid, firstname, lastname WHERE ds='2009-02-25';
(三)Hive 3.X 版本
在 Hive 3.X 版本中,除了延续 2.x 版本在分桶表填充方面的便利性和自动化特点之外,在性能优化以及与其他功能的兼容性等方面又有了进一步提升。
例如,在与一些新的存储格式或者查询优化特性结合使用时,分桶表能够更好地发挥其优势。在大数据集的处理场景下,如果使用了 Hive 3.X 版本的分桶表,配合分区表以及一些新的查询优化器改进,能够更高效地实现数据的筛选、聚合等操作,进一步提高数据处理的速度和效率。
同时,Hive 3.X 版本在处理分桶表数据时,对于数据的一致性和准确性校验也更加严格,能够更好地避免因数据写入、读取过程中的异常情况(如网络波动、硬件故障等临时因素导致的数据部分写入失败等)而引起的分桶数据错乱问题,确保分桶表的数据质量始终保持在一个较高的水平。
三、数据在桶中的分配方式
了解完不同版本下分桶表的填充操作后,我们再来深入探讨一下 Hive 是如何将数据行分配到各个桶中的呢?一般来说,桶编号是由表达式 hash_function(bucketing_column) mod num_buckets 来确定的(其中还涉及 0x7FFFFFFF,但这个不是特别重要)。哈希函数(hash_function)取决于分桶列的数据类型。
- 整型(int)情况:对于整型数据,比较简单,例如
hash_int(i) == i。举个例子,如果user_id是整型,并且有 10 个桶,那么所有以 0 结尾的user_id值会被分配到桶 1,以 1 结尾的会被分配到桶 2,依此类推。 - 其他数据类型情况:对于其他数据类型,情况就稍微复杂一些了。特别是
BIGINT类型的哈希值与它本身的值是不一样的。而对于字符串(STRING)或者复杂数据类型,其哈希值是根据该值派生出来的一个数字,但通常不是人类容易识别的形式。比如,如果user_id是字符串类型,那么在桶 1 中的user_id值大概率不会是以 0 结尾的。总体而言,基于哈希来分配数据行能使数据在各个桶中均匀分布,保证了分桶表在后续进行各类操作(如采样、连接等)时的高效性和合理性。
四、可能出现的问题
在分桶表的使用过程中,即使是在 Hive 不断升级优化的各个版本下,也还是存在一些可能导致问题出现的情况需要我们留意。
只要按照上述不同版本对应的语法和规则进行操作,分桶表一般都能被正确填充。但如果在插入数据和读取数据时,分桶列的数据类型不一致,或者手动按照与表定义不同的值进行聚类(CLUSTER BY)操作,就可能会出现问题。另外,在 Hive 3.X 版本中,虽然对数据一致性等方面有更好的保障,但如果使用了一些自定义的存储插件或者与第三方工具集成时,若不遵循 Hive 3.X 的相关规范和接口要求,也有可能引发分桶数据的兼容性问题,例如数据无法正确识别分桶结构、无法高效地进行基于分桶的查询操作等情况。
相关文章:
Hive 分桶表的创建与填充操作详解
Hive 分桶表的创建与填充操作详解 在 Hive 数据处理中,分桶表是一个极具实用价值的功能,它相较于非分桶表能够实现更高效的采样,并且后续还可能支持诸如 Map 端连接等节省时间的操作。不过,值得注意的是,在向表写入数…...
[小白系列]Ubuntu安装教程-安装prometheus和Grafana
Docker安装prometheus 拉取镜像 docker pull prom/prometheus 配置文件prometheus.yml 在/data/prometheus/建立prometheus.yml配置文件。(/data/prometheus/可根据自己需要调整) global:scrape_interval: 15s # By default, scrape targets ev…...
Flask使用长连接
Flask使用flask_socketio实现websocket Python中的单例模式 在HTTP通信中,连接复用(Connection Reuse)是一个重要的概念,它允许客户端和服务器在同一个TCP连接上发送和接收多个HTTP请求/响应,而不是为每个新的请求/响…...
数据分析思维案例:游戏评分低,怎么办?
【面试题】 某款手游在应用市场评分相比同类型游戏处于劣势。 请分析可能的原因并给出相关建议。 【分析思路】 一、明确问题 1. 明确业务指标 定义:应用市场评分一般指某一应用在某个应用市场上线以来的总体平均评分。 除“总体平均评分”以外,部分应用…...
【学习总结|DAY012】Javabean书写练习
一、主要代码 public class Phone {public Phone() {}public Phone(String brand, int price, String color) {this.brand brand;this.price price;this.color color;}String brand;int price;String color;public String getBrand() {return brand;}public void setBrand(…...
Mac环境下brew安装LNMP
安装不同版本PHP 在Mac环境下同时运行多个版本的PHP,同Linux环境一样,都是将后台运行的php-fpm设置为不同的端口号,下面将已php7.2 和 php7.4为例 添加 tap 目的:homebrew仅保留最近的php版本,可能没有你需要的版本…...
openEuler 知:安装系统
文章目录 前言图形化安装文本方式安装 前言 本文只介绍安装过程中需要特别注意的地方,常规的内容需要参考其它文档。 图形化安装 自定义分区: 说明:anaconda 默认分区,在 OSNAME.conf 中进行了配置,openEuler 默认根…...
Zephyr 入门-设备树与设备驱动模型
学习链接:https://www.bilibili.com/video/BV1L94y1F7qS/?spm_id_from333.337.search-card.all.click&vd_source031c58084cf824f3b16987292f60ed3c 讲解清晰,逻辑清楚。 1. 设备树概述(语法,如何配置硬件,c代码如…...
点云标注软件SUSTechPOINTS的安装和使用,自测win10和ubuntu20.04下都可以用
点云标注软件SUSTechPOINTS的安装和使用 github项目源码:https://github.com/naurril/SUSTechPOINTS gitee源码以及使用教程:https://gitee.com/cuge1995/SUSTechPOINTS 首先拉取源码 git clone https://github.com/naurril/SUSTechPOINTS最好是在cond…...
etcd资源超额
集群内apiserver一直重启,重启kubelet服务后查看日志发现一下报错: Error from server: etcdserver: mvcc: database space exceeded 报错原因: etcd服务未设置自动压缩参数(auto-compact) etcd 默认不会自动 compa…...
AndroidStudio-常见界面控件
一、Button package com.example.review01import androidx.appcompat.app.AppCompatActivity import android.os.Bundle import android.widget.Button import android.widget.TextViewclass Review01Activity : AppCompatActivity() {override fun onCreate(savedInstanceStat…...
网络协议(TCP/IP模型)
目录 网络初识 网络协议 协议分层 协议拆分 分层 协议分层的优势 1.封装效果 2.解耦合 TCP/IP五层模型 协议之间配合工作(详解) 网络初识 网络核心概念: 局域网:若干电脑连接在一起,通过路由器进行组网。 …...
python 清华pip镜像源报HTTP error 403
报错信息 ERROR: HTTP error 403 while getting https://mirrors.tuna.tsinghua.edu.cn/pypi/web/packages/52/79/a64937a2185b91a96cc5406e3ea58120980c725543d047e112fb3084a972/fake_useragent-2.0.0-py3-none-any.whl (from https://mirrors.tuna.tsinghua.edu.cn/pypi/we…...
swift 屏幕录制
步骤 1:导入 ReplayKit import ReplayKit步骤 2:开始录屏 let screenRecorder RPScreenRecorder.shared() // 麦克风或系统音频 screenRecorder.isMicrophoneEnabled truefunc startRecording() {guard screenRecorder.isAvailable else {print(&quo…...
通过精密时间协议(PTP)对计算机网络中的多个设备进行时间同步
PTP 模块 - 使用教程 目录 PTP 模块 - 使用教程简介第 1 步:为主时钟创建一个 PTP 时钟实例第 2 步:添加 PTP 端口第 3 步:查询 PTP 时钟或 PTP 端口的状态第 4 步:清除 FAULTY 状态第 5 步:为 PTP 事件安装处理程序第…...
Docker 安装系列
Centos8 安装Docker Docker安装mysql8.0 Docker安装稳定版本nginx-1.26.2 Docker 安装最新版本 Jenkins Docker Redis Docker 安装 eclipse-mosquitto Docker mongo:5.0 Docker 安装 Redis的完全体版本RedisMod docker pull elasticsearch:8.0.0 docker 安装nacos v2.…...
使用springboot-3.4.1搭建一个netty服务并且WebSocket消息通知(适用于设备直连操作,以及回复操作)
引入最新版本 <!--websocket--> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-websocket</artifactId> </dependency>启动类加入 //netty 协议服务端口启动 NettyTcpHandler.start()…...
4. 设计模式分类
4.1 创建型模式 这类模式提供创建对象的机制,能够提升已有代码的灵活性和可复用性。 序 号 类 型 业务场景 实现要点 1 工 厂 方 法 多种类型商品不同接口,统一发奖服 务搭建场景 定义一个创建对象的接口,让其子类自 己决定实例化哪一个工厂类,工厂模式 使其创建过程延迟…...
Hive分区值的插入
对于Hive分区表,在我们插入数据的时候需要指定对应的分区值,而这里就会涉及很多种情况。比如静态分区插入、动态分区插入、提供的分区值和分区字段类型不一致,或者提供的分区值是NULL的情况,下面我们依次来展现下不同情况下的表现…...
【多个图片合并成PDF】
因工作安排,小编最近参加了几场学术会议,被多名业界大佬的汇报所震撼。当然也不是白来的,好东西要留存下来回来分享给科室。因此,小编变成了幻灯片专职摄影师,参会的同时对着大牛的PPT就是一顿咔咔咔。回来后,面对手机里数百张照片却犯了难,就这样一张张发到群里么?还是…...
装饰模式(Decorator Pattern)重构java邮件发奖系统实战
前言 现在我们有个如下的需求,设计一个邮件发奖的小系统, 需求 1.数据验证 → 2. 敏感信息加密 → 3. 日志记录 → 4. 实际发送邮件 装饰器模式(Decorator Pattern)允许向一个现有的对象添加新的功能,同时又不改变其…...
MMaDA: Multimodal Large Diffusion Language Models
CODE : https://github.com/Gen-Verse/MMaDA Abstract 我们介绍了一种新型的多模态扩散基础模型MMaDA,它被设计用于在文本推理、多模态理解和文本到图像生成等不同领域实现卓越的性能。该方法的特点是三个关键创新:(i) MMaDA采用统一的扩散架构…...
macOS多出来了:Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用
文章目录 问题现象问题原因解决办法 问题现象 macOS启动台(Launchpad)多出来了:Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用。 问题原因 很明显,都是Google家的办公全家桶。这些应用并不是通过独立安装的…...
剑指offer20_链表中环的入口节点
链表中环的入口节点 给定一个链表,若其中包含环,则输出环的入口节点。 若其中不包含环,则输出null。 数据范围 节点 val 值取值范围 [ 1 , 1000 ] [1,1000] [1,1000]。 节点 val 值各不相同。 链表长度 [ 0 , 500 ] [0,500] [0,500]。 …...
基础测试工具使用经验
背景 vtune,perf, nsight system等基础测试工具,都是用过的,但是没有记录,都逐渐忘了。所以写这篇博客总结记录一下,只要以后发现新的用法,就记得来编辑补充一下 perf 比较基础的用法: 先改这…...
css的定位(position)详解:相对定位 绝对定位 固定定位
在 CSS 中,元素的定位通过 position 属性控制,共有 5 种定位模式:static(静态定位)、relative(相对定位)、absolute(绝对定位)、fixed(固定定位)和…...
Redis数据倾斜问题解决
Redis 数据倾斜问题解析与解决方案 什么是 Redis 数据倾斜 Redis 数据倾斜指的是在 Redis 集群中,部分节点存储的数据量或访问量远高于其他节点,导致这些节点负载过高,影响整体性能。 数据倾斜的主要表现 部分节点内存使用率远高于其他节…...
OPENCV形态学基础之二腐蚀
一.腐蚀的原理 (图1) 数学表达式:dst(x,y) erode(src(x,y)) min(x,y)src(xx,yy) 腐蚀也是图像形态学的基本功能之一,腐蚀跟膨胀属于反向操作,膨胀是把图像图像变大,而腐蚀就是把图像变小。腐蚀后的图像变小变暗淡。 腐蚀…...
安卓基础(aar)
重新设置java21的环境,临时设置 $env:JAVA_HOME "D:\Android Studio\jbr" 查看当前环境变量 JAVA_HOME 的值 echo $env:JAVA_HOME 构建ARR文件 ./gradlew :private-lib:assembleRelease 目录是这样的: MyApp/ ├── app/ …...
Python 包管理器 uv 介绍
Python 包管理器 uv 全面介绍 uv 是由 Astral(热门工具 Ruff 的开发者)推出的下一代高性能 Python 包管理器和构建工具,用 Rust 编写。它旨在解决传统工具(如 pip、virtualenv、pip-tools)的性能瓶颈,同时…...
