当前位置：首页 > news >正文

【Hive】——DML

news 2025/11/6 15:01:55

1 Load（加载数据）

1.1 概述

在这里插入图片描述

1.2 语法

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] [INPUTFORMAT 'inputformat' SERDE 'serde'] (3.0 or later)

1.2.1 filepath

在这里插入图片描述

1.2.2 local

在这里插入图片描述

1.2.3 overwrite

在这里插入图片描述

1.4 Hive 3.0 Load新特性

在这里插入图片描述

CREATE TABLE if not exists tab1 (col1 int, col2 int)PARTITIONED BY (col3 int)row format delimited fields terminated by ',';

--tab1.txt内容如下
11,22,1
33,44,2

LOAD DATA LOCAL INPATH '/root/data/tab1.txt' INTO TABLE tab1;

1.5 案例

1.5.1 创建表


--step1:建表
--建表student_local 用于演示从本地加载数据
create table student_local(num int,name string,sex string,age int,dept string) row format delimited fields terminated by ',';
--建表student_HDFS  用于演示从HDFS加载数据
create external table student_HDFS(num int,name string,sex string,age int,dept string) row format delimited fields terminated by ',';
--建表student_HDFS_p 用于演示从HDFS加载数据到分区表
create table student_HDFS_p(num int,name string,sex string,age int,dept string) partitioned by(country string) row format delimited fields terminated by ',';

1.5.1 加载数据


-- 从本地加载数据  数据位于HS2（node1）本地文件系统  本质是hadoop fs -put上传操作
LOAD DATA LOCAL INPATH '/root/hivedata/students.txt' INTO TABLE student_local;--从HDFS加载数据  数据位于HDFS文件系统根目录下  本质是hadoop fs -mv 移动操作
--先把数据上传到HDFS上  hadoop fs -put /root/hivedata/students.txt /
LOAD DATA INPATH '/students.txt' INTO TABLE student_HDFS;----从HDFS加载数据到分区表中并制定分区  数据位于HDFS文件系统根目录下
--先把数据上传到HDFS上 hadoop fs -put /root/hivedata/students.txt /
LOAD DATA INPATH '/students.txt' INTO TABLE student_HDFS_p partition(country ="China");

2 insert（插入数据）

2.1 insert

执行过程非常非常慢，原因在于底层是使用MapReduce把数据写入Hive表中

create table t_test_insert(id int,name string,age int);
insert into table t_test_insert values(1,"allen",18);

Hive官方推荐加载数据的方式：清洗数据成为结构化文件，再使用Load语法加载数据到表中。这样的效率更高。

2.2 insert+select

insert+select表示：将后面查询返回的结果作为内容插入到指定表中，注意OVERWRITE将覆盖已有数据。
需要保证查询结果列的数目和需要插入数据表格的列数目一致。
如果查询出来的数据类型和插入表格对应的列数据类型不一致，将会进行转换，但是不能保证转换一定成功，转换失败的数据将会为NULL。

INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...) [IF NOT EXISTS]] select_statement1 FROM from_statement;

INSERT INTO TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...)] select_statement1 FROM from_statement;

insert into table student_from_insert select num,name from student;

2.3 Multiple Inserts（多次插入）

翻译为多次插入，多重插入，其核心功能是：一次扫描，多次插入。
语法目的就是减少扫描的次数，在一次扫描中。完成多次insert操作。

--当前库下已有一张表student
select * from student;
--创建两张新表
create table student_insert1(sno int);
create table student_insert2(sname string);
--多重插入
from student
insert overwrite table student_insert1
select num
insert overwrite table student_insert2
select name;

2.4 dynamic partition insert（动态分区）

2.4.1 概述

动态分区插入指的是：分区的值是由后续的select查询语句的结果来动态确定的。
根据查询结果自动分区。动态分区将最后一个字段作为分区

2.4.2 配置参数

在这里插入图片描述

set hive.exec.dynamic.partition = true;
set hive.exec.dynamic.partition.mode = nonstrict;

<property><name>hive.exec.dynamic.partition</name><value>true</value><description>Whether or not to allow dynamic partitions in DML/DDL.</description>
</property>
<property><name>hive.exec.dynamic.partition.mode</name><value>strict</value><description>In strict mode, the user must specify at least one static partitionin case the user accidentally overwrites all partitions.In nonstrict mode all partitions are allowed to be dynamic.
</description>

2.4 insert Directory（导出数据）

2.4.1 概述

Hive支持将select查询的结果导出成文件存放在文件系统中。语法格式如下
注意：导出操作是一个OVERWRITE覆盖操作，慎重。

2.4.2 语法

目录可以是完整的URI。如果未指定scheme，则Hive将使用hadoop配置变量fs.default.name来决定导出位置；
如果使用LOCAL关键字，则Hive会将数据写入本地文件系统上的目录；
写入文件系统的数据被序列化为文本，列之间用\001隔开，行之间用换行符隔开。如果列都不是原始数据类型，那么这些列将序列化为JSON格式。也可以在导出的时候指定分隔符换行符和文件格式。
标准语法

INSERT OVERWRITE [LOCAL] DIRECTORY directory1[ROW FORMAT row_format] [STORED AS file_format]
SELECT ... FROM ...

多重多出

FROM from_statement
INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1[INSERT OVERWRITE [LOCAL] DIRECTORY directory2 select_statement2] ...

导出格式

DELIMITED [FIELDS TERMINATED BY char [ESCAPED BY char]] [COLLECTION ITEMS TERMINATED BY char][MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]

10.2.4.3 案例
导出到hdfs文件系统

insert overwrite directory '/tmp/hive_export/e1' select * from student;

在这里插入图片描述
导出时指定分隔符和文件存储格式

insert overwrite directory '/tmp/hive_export/e2' row format delimited fields terminated by ',' stored as orc select * from student;

导出数据到本地文件系统指定目录下

insert overwrite local directory '/root/data/e1' select * from student;

3 事务表

3.1 实现原理

3.1.1 概述

Hive的文件是存储在HDFS上的，而HDFS上又不支持对文件的任意修改，只能是采取另外的手段来完成。
用HDFS文件作为原始数据（基础数据），用delta保存事务操作的记录增量数据；
正在执行中的事务，是以一个staging开头的文件夹维护的，执行结束就是delta文件夹。每次执行一次事务操作都会有这样的一个delta增量文件夹;
当访问Hive数据时，根据HDFS原始文件和delta增量文件做合并，查询最新的数据。

3.1.2 目录

INSERT语句会直接创建delta目录；
DELETE目录的前缀是delete_delta；
UPDATE语句采用了split-update特性，即先删除、后插入；

3.1.3 命名格式

delta_minWID_maxWID_stmtID，即delta前缀、写事务的ID范围、以及语句ID；删除时前缀是delete_delta，里面包含了要删除的文件；
Hive会为写事务（INSERT、DELETE等）创建一个写事务ID（Write ID），该ID在表范围内唯一；
语句ID（Statement ID）则是当一个事务中有多条写入语句时使用的，用作唯一标识。

3.1.4 delta目录下的文件

每个事务的delta文件夹下，都有两个文件：
在这里插入图片描述

_orc_acid_version的内容是2,即当前ACID版本号是2。和版本1的主要区别是UPDATE语句采用了split-update特性，即先删除、后插入。这个文件不是ORC文件，可以下载下来直接查看。
bucket_00000文件则是写入的数据内容。如果事务表没有分区和分桶，就只有一个这样的文件。文件都以ORC格式存储，底层二级制，需要使用ORC TOOLS查看，详见附件资料。

3.1.5 bucket 文件

在这里插入图片描述

operation：0 表示插入，1 表示更新，2 表示删除。由于使用了split-update，UPDATE是不会出现的，所以delta文件中的operation是0 ， delete_delta 文件中的operation是2。
originalTransaction、currentTransaction：该条记录的原始写事务ID，当前的写事务ID。
rowId：一个自增的唯一ID，在写事务和分桶的组合中唯一。
row：具体数据。对于DELETE语句，则为null，对于INSERT就是插入的数据，对于UPDATE就是更新后的数据。

3.1.5 合并器

在这里插入图片描述

3.2 局限性

在这里插入图片描述

3.3 创建使用

--Hive中事务表的创建使用
--1、开启事务配置（可以使用set设置当前session生效 也可以配置在hive-site.xml中）
set hive.support.concurrency = true; --Hive是否支持并发
set hive.enforce.bucketing = true; --从Hive2.0开始不再需要  是否开启分桶功能
set hive.exec.dynamic.partition.mode = nonstrict; --动态分区模式  非严格
set hive.txn.manager = org.apache.hadoop.hive.ql.lockmgr.DbTxnManager; --
set hive.compactor.initiator.on = true; --是否在Metastore实例上运行启动压缩合并
set hive.compactor.worker.threads = 1; --在此metastore实例上运行多少个压缩程序工作线程。
--2、创建Hive事务表
create table trans_student(id int,name String,age int
) stored as orc TBLPROPERTIES('transactional'='true');

4 update、delete

只有事务表才可以更新删除。

【Hive】——DML

1 Load（加载数据） 1.1 概述 1.2 语法 LOAD DATA [LOCAL] INPATH filepath [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1val1, partcol2val2 ...)]LOAD DATA [LOCAL] INPATH filepath [OVERWRITE] INTO TABLE tablename [PARTITION (partcol…...

编程日记 2023/12/19 11:12:47

【Spring教程31】SSM框架整合实战：从零开始学习SSM整合配置，如何编写Mybatis SpringMVC JDBC Spring配置类

目录 1 流程分析2 整合配置2.1 步骤1：创建Maven的web项目2.2 步骤2:添加依赖2.3 步骤3:创建项目包结构2.4 步骤4:创建SpringConfig配置类2.5 步骤5:创建JdbcConfig配置类2.6 步骤6:创建MybatisConfig配置类2.7 步骤7:创建jdbc.properties2.8 步骤8:创建SpringMVC配置…...

编程日记 2023/12/19 11:11:46

Tailwind CSS 入门

什么是 Tailwind CSS？ Tailwind CSS 是一个 CSS 框架，它提供了大量的预定义实用类，可以用来快速构建 HTML 页面。Tailwind CSS 的优势包括：可扩展性：Tailwind CSS 的类库是可扩展的，可以根据自己的需要进行定制。性能：Tailwind CSS 的类库是经过精心设计的，可以提高页…...

编程日记 2023/12/19 11:10:45

如何在简历中解释就业空白

您的工作经历有空缺吗？你不是一个人。有很多合理的理由可以解释为什么你需要休息一下。更重要的是，在一份真实正确的简历中，这些问题是无法避免的。直接解释就业差距总是更好，而且有很多因素需要考虑。你未来的老板想要了解工作轨…...

编程日记 2023/12/19 11:09:44

【计算机网络】TCP协议——2.连接管理(三次握手，四次挥手)

目录前言一. 建立连接——三次握手 1. 三次握手过程描述 2. TCP连接建立相关问题二. 释放连接——四次挥手 1. 四次挥手过程描述 2. TCP连接释放相关问题三. TCP状态转换结束语前言 TCP——传输控制协议(Transmission Control Protocol)。是一种面向连接的传…...

编程日记 2023/12/19 11:08:43

螺丝厂家:如何根据您的需求找到合适您的紧固件

螺丝是通用工具。它们几乎用于所有场景，并且它们的使用不限于任何一个行业。人们可以找到几乎所有周围都使用的螺钉和螺栓。在为工作选择合适的螺丝方面，人们应该记住一些事情。选择标准归结为紧固件的物理特性，包括制造它所用的原材料、施加…...

编程日记 2023/12/19 11:07:42

企业数字化转型进入深海区：生成式AI时代下如何制定数据战略

随着科技的不断进步，企业数字化转型已经不再是简单的概念，而是正在进入一个全新的深海区。在这个深海区，数据变得至关重要，而生成式人工智能（AI）的兴起更是推动了数字化转型的飞速发展。本文将探讨在这个生…...

编程日记 2023/12/19 11:06:42

html行内元素和块级元素的区别？

HTML中的元素可以分为两种类型：行内元素（inline）和块级元素（block） 文章目录什么是行内元素什么是块级元素元素转换行内元素转块级元素块级元素转行内元素区别总结什么是行内元素 HTML的行内元素（inli…...

编程日记 2023/12/19 11:05:41

ResNet 原论文及原作者讲解

ResNet 论文摘要1. 引入2. 相关工作残差表示快捷连接 3. 深度残差学习3.1. 残差学习3.2. 快捷恒等映射3.3. 网络体系结构普通网络 plain network残差网络 residual network 3.4. 实施 4. 实验4.1. ImageNet分类普通的网络 plain network残差网络 residual network恒等vs.快捷连…...

编程日记 2023/12/19 11:01:38

liteflow规则引擎执行Groovy脚本

在LiteFlow规则引擎中执行Groovy脚本的步骤相对简单。首先，确保你的项目中包含了LiteFlow的相关依赖。接下来，创建一个Groovy脚本规则，并使用LiteFlow引擎执行它。以下是一个简单的示例： 添加LiteFlow依赖：在你的项…...

编程日记 2023/12/19 10:59:36

GZ015 机器人系统集成应用技术样题5-学生赛

2023年全国职业院校技能大赛高职组“机器人系统集成应用技术”赛项竞赛任务书（学生赛） 样题5 选手须知： 本任务书共 24页，如出现任务书缺页、字迹不清等问题，请及时向裁判示意，并进行任务书的更换。参赛队…...

编程日记 2023/12/19 10:58:35

Spark编程实验二：RDD编程初级实践

目录一、目的与要求二、实验内容三、实验步骤 1、pyspark交互式编程 2、编写独立应用程序实现数据去重 3、编写独立应用程序实现求平均值问题 4、三个综合实例四、结果分析与实验体会一、目的与要求 1、熟悉Spark的RDD基本操作及键值对操作； 2、熟悉使…...

编程日记 2023/12/19 10:57:34

CleanMyMac X这一款mac电脑清理垃圾文件软件好用吗？

CleanMyMac X您的 Mac。极速如新。点按一下，即可优化调整整个 Mac畅享智能扫描 — 这款超级简单的工具用于优化您的 Mac。只需点按一下，即可运行所有任务，让您的 Mac 保持干净、快速并得到最佳防护。CleanMyMac 是一款功能强大的 Mac 清理程序…...

编程日记 2023/12/19 10:53:30

四通道 DMOS 全桥驱动MS35631N/MS35631

MS35631N/MS35631 是一款四通道 DMOS 全桥驱动器，可以驱动两个步进电机或者四个直流电机。每个全桥的驱动电流在 24V 电源下可以达到 1.2A 。 MS35631N/MS35631 集成了固定关断时间的 PWM 电流校正器，以及一个 2bit 的非线性 DAC &…...

编程日记 2023/12/19 10:50:28

JWT令牌的作用和生成

JWT令牌（JSON Web Token）是一种用于身份验证和授权的安全令牌。它由三部分组成：头部、载荷和签名。 JWT令牌的作用如下： 身份验证：JWT令牌可以验证用户身份。当用户登录后，服务器会生成一个JWT令牌并返回…...

编程日记 2023/12/19 10:49:26

elementui el-pagination分页组件查询的时候当前页不更新

elementui el-pagination分页组件查询的时候当前页不更新 <mypagination v-if"pageshow" :currentPage.sync"pageNum" :pagesize"pageSize" :pagetotal"pageTotal" pagefunc"pageFunc"></mypagination>1.在加的…...

编程日记 2023/12/19 10:46:24

C++——C++11（1）

时至今日，C标准已经到了C23，但是你要说哪一次提出的标准最经典，那C11一定会被人提及，C11带来了数量可观的变化，其中包含了约140个新特性，以及对C03标准中约600个缺陷的修正，这使得 C11更像是从…...

编程日记 2023/12/19 10:44:22

CoPilot究竟如何使用？

基本步骤说明 CoPilot是一款由GitHub开发的人工智能代码助手，可以提供实时代码建议和自动完成功能。下面是使用CoPilot的详细介绍： 安装：首先，你需要在你的代码编辑器中安装CoPilot插件。目前，CoPilot支持一些主流的代…...

编程日记 2023/12/19 10:39:16

前端(三)

1.表格标签数据展示: jason 123 read egon 123 dbj tank 123 hecha ... <table> <thead><tr> 一个tr就表示一行<th>username</th> 加粗文本<td>username</td> 正常文本</tr></thead> 表头(字段信息)<tbody>…...

编程日记 2023/12/19 10:37:12

Maven知识

文章目录一、概念1、官方文档2、什么是Maven？ 二、相关知识1、Maven生命周期1.1、clean1.2、default1.3、site 2、Pom文件3、Pom常用元素3.1、项目基本元素3.2、<properties\></properties\>3.3、pom继承相关3.4、依赖管理相关3.5、构建管理相关3.6、&…...

编程日记 2023/12/19 10:33:08

GC1808高性能24位立体声音频ADC芯片解析

1. 芯片概述 GC1808是一款24位立体声音频模数转换器（ADC），支持8kHz~96kHz采样率，集成Δ-Σ调制器、数字抗混叠滤波器和高通滤波器，适用于高保真音频采集场景。 2. 核心特性高精度：24位分辨率&#xff0c…...

编程新知 2025/10/29 23:15:58

10-Oracle 23 ai Vector Search 概述和参数

一、Oracle AI Vector Search 概述企业和个人都在尝试各种AI，使用客户端或是内部自己搭建集成大模型的终端，加速与大型语言模型（LLM）的结合，同时使用检索增强生成（Retrieval Augmented Generation &#…...

编程新知 2025/10/23 21:21:11

Python ROS2【机器人中间件框架】简介

销量过万TEEIS德国护膝夏天用薄款优惠券冠生园百花蜂蜜428g 挤压瓶纯蜂蜜巨奇严选鞋子除臭剂360ml 多芬身体磨砂膏280g健70%-75%酒精消毒棉片湿巾1418cm 80片/袋3袋大包清洁食品用消毒优惠券AIMORNY52朵红玫瑰永生香皂花同城配送非鲜花七夕情人节生日礼物送女友热卖妙洁棉…...

编程新知 2025/8/17 7:11:57

Java求职者面试指南：Spring、Spring Boot、MyBatis框架与计算机基础问题解析

Java求职者面试指南：Spring、Spring Boot、MyBatis框架与计算机基础问题解析一、第一轮提问（基础概念问题） 1. 请解释Spring框架的核心容器是什么？它在Spring中起到什么作用？ Spring框架的核心容器是IoC容器&#…...

编程新知 2025/10/4 21:24:40

vulnyx Blogger writeup

信息收集 arp-scan nmap 获取userFlag 上web看看一个默认的页面，gobuster扫一下目录可以看到扫出的目录中得到了一个有价值的目录/wordpress，说明目标所使用的cms是wordpress，访问http://192.168.43.213/wordpress/然后查看源码能看到这…...

编程新知 2025/10/28 14:25:12

day36-多路IO复用

一、基本概念 （服务器多客户端模型） 定义：单线程或单进程同时监测若干个文件描述符是否可以执行IO操作的能力作用：应用程序通常需要处理来自多条事件流中的事件，比如我现在用的电脑，需要同时处理键盘鼠标…...

编程新知 2025/10/31 22:34:55

华为OD机试-最短木板长度-二分法(A卷,100分)

此题是一个最大化最小值的典型例题， 因为搜索范围是有界的，上界最大木板长度补充的全部木料长度，下界最小木板长度； 即left0,right10^6; 我们可以设置一个候选值x(mid)，将木板的长度全部都补充到x，如果成功…...

编程新知 2025/10/19 14:45:31

深度学习之模型压缩三驾马车：模型剪枝、模型量化、知识蒸馏

一、引言在深度学习中，我们训练出的神经网络往往非常庞大（比如像 ResNet、YOLOv8、Vision Transformer），虽然精度很高，但“太重”了，运行起来很慢，占用内存大，不适合部署到手机、摄…...

编程新知 2025/9/24 3:56:34

spring Security对RBAC及其ABAC的支持使用

RBAC (基于角色的访问控制) RBAC (Role-Based Access Control) 是 Spring Security 中最常用的权限模型，它将权限分配给角色，再将角色分配给用户。 RBAC 核心实现 1. 数据库设计 users roles permissions ------- ------…...

编程新知 2025/11/4 13:35:46

java高级——高阶函数、如何定义一个函数式接口类似stream流的filter

java高级——高阶函数、stream流前情提要文章介绍一、函数伊始1.1 合格的函数1.2 有形的函数2. 函数对象2.1 函数对象——行为参数化2.2 函数对象——延迟执行二、函数编程语法1. 函数对象表现形式1.1 Lambda表达式1.2 方法引用（Math::max） 2 函数接口…...

编程新知 2025/10/26 21:34:51

1 Load（加载数据）

1.1 概述

1.2 语法

1.2.1 filepath

1.2.2 local

1.2.3 overwrite

1.4 Hive 3.0 Load新特性

1.5 案例

1.5.1 创建表

1.5.1 加载数据

2 insert（插入数据）

2.1 insert

2.2 insert+select

2.3 Multiple Inserts（多次插入）

2.4 dynamic partition insert（动态分区）

2.4.1 概述

2.4.2 配置参数

2.4 insert Directory（导出数据）

2.4.1 概述

2.4.2 语法

3 事务表

3.1 实现原理

3.1.1 概述

3.1.2 目录

3.1.3 命名格式

3.1.4 delta目录下的文件

3.1.5 bucket 文件

3.1.5 合并器

3.2 局限性

3.3 创建使用

4 update、delete

相关文章：