当前位置：首页 > news >正文

大数据处理技术导论（6） | Datawhale组队学习46期

news 2026/5/13 8:29:25

文章目录

1. hive 概述
2. hive 与传统关系型数据库的对比
3. hive 数据类型
4. hive 数据模型
5. hive 实战
- 5.1 创建表
- 5.2 修改表
- 5.3 清空表、删除表
- 5.4 其他命令

项目地址 https://github.com/datawhalechina/juicy-bigdata，感谢项目团队的付出。
本次主要学习 hive 相关内容。

1. hive 概述

hive 是建立在 hadoop 之上的数仓工具。它将 hadoop 上存储的结构化、半结构化数据文件映射为表，使得可以通过 HiveQL（HQL）对存储于 hadoop 上的大型数据文件进行访问与分析。

hive 本身并不存储数据，它只是提供了用户与 hadoop 系统文件之前的连接通道。其核心是将 HQL 翻译成 MapReduce 任务，然后提交至 hadoop 集群中进行执行，并给用户返回处理结果。

hive 大幅降低了普通业务人员或者说数据开发（不了解 java 编程）进行大数据分析的门槛。

hive 适合对海量数据进行离线分析，不适合对数据进行实时处理。前边学过的 HBase 适合数据的实时处理。

2. hive 与传统关系型数据库的对比

在使用方面，hive 和传统关系型数据库基本相同，由于其文件系统为 HDFS，hive 与传统关系型数据库还是由不少区别，详见下表对比情况。

对比内容	Hive	传统关系型数据库
数据存储	HDFS	本地文件系统
索引	基本不支持	支持复杂索引
分区	支持	支持
执行引擎	MapReduce、Tez、Spark	自身的执行引擎
执行延迟	高(T+1)	低
扩展性	好	有限
数据规模	大	小

3. hive 数据类型

hive 支持以下几种数据类型：

大类	类型
Integers（整型）	TINYINT：1字节的有符号整数； SMALLINT：2字节的有符号整数； INT：4字节的有符号整数； BIGINT：8字节的有符号整数
Boolean（布尔型）	BOOLEAN：TRUE/FALSE
Floating point numbers（浮点型）	FLOAT：单精度浮点型； DOUBLE：双精度浮点型
Fixed point numbers（定点数）	DECIMAL：用户自定义精度定点数，比如 DECIMAL(7,2)
String types（字符串）	STRING：指定字符集的字符序列； VARCHAR：具有最大长度限制的字符序列； CHAR：固定长度的字符序列
Date and time types（日期时间类型）	TIMESTAMP：时间戳； TIMESTAMP WITH LOCAL TIME ZONE：本地时区时间戳，纳秒精度； DATE：日期类型
Binary types（二进制类型）	BINARY：字节序列

4. hive 数据模型

自上而下，hive 分为库、表、分区、分桶 4种数据模型。

库
hive 数据库中，默认的 database 是 default，实际应用中一般不适用 default 数据库而是新建 database。
表
hive 本身并不存储数据，hive 表对应的数据都是存储在 HDFS 上，hive 表相关的元数据存储于 hive 内置的 Derby (仅支持一个实例，极少使用）或者第三方的 MySQL （运行多个实例同时访问）。
hive 表分为内部表和外部表。
- 内部表的表创建过程和数据加载过程是分离的，加载数据过程中，数据会被移动至相应的数仓目录下（HDFS 上的 A 位置移动至 HDFS 上的 B 位置），对于 hive 内部表数据的访问都是对数仓目录进行操作。删除 hive 内部表也是真正的删除数据，要慎重哦~
- 外部表的表创建过程和数据加载过程是同一个过程，hive 外部表的创建只是在元数据里添加了映射记录，对于 hive 外部表的访问还是读取 HDFS 上的内容。删除 hive 外部表时，也只是删除了该表的元数据，而并未真正删除数据。
hive 内部表和外部表的差异总结如下：

对比内容	内部表	外部表
数据存储位置	内部表数据存储的位置由 `hive-site.xml` 中的`hive.Metastore.warehouse.dir`参数指定，默认情况下，表的数据存储在`HDFS`的`/user/hive/warehouse/数据库名.db/表名/`目录下	外部表数据的存储位置创建表时由`Location`参数指定
导入数据	在导入数据到内部表，内部表将数据移动到自己的数据仓库目录下，数据的生命周期由`Hive`来进行管理	外部表不会将数据移动到自己的数据仓库目录下，只是在元数据中存储了数据的位置
删除表	删除元数据（metadata）和 HDFS 数据文件	只删除元数据（metadata）
安全性	低（容易误删数据）	高

分区
hive 分区就是将数据存放于不同的目录，查询时命中分区，能避免全表扫描，提高查询效率。
分桶
可以在分区的基础上继续进行分桶，所谓分桶，就是将分区内数据以某个字段的 hash 值进行分组，将数据文件拆分为若干个小文件。优点是优化 join 查询和方便抽样查询，缺点是会生成很多小文件。

5. hive 实战

由于我的 hive 运行环境之前已经部署好了，这里不再赘述，详情可以参考 hive安装部署和管理

好久不用了，试了下，居然报错了

FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

在这里插入图片描述
报错的意思是说无法实例化 hive 元数据客户端，重新初始化之后也是不行。最终通过如下命令解决

cd /opt/module/hive/bin
./hive --service metastore &./hive

该命令的含义是在后台启动了 hive 元数据服务。

5.1 创建表

hive 创建表的语法如下，实际操作时按需选择操作符即可

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name     -- 表名[(col_name data_type [COMMENT col_comment],... [constraint_specification])]  -- 列名 列数据类型[COMMENT table_comment]   -- 表描述[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]  -- 分区表分区规则[CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]  -- 分桶表分桶规则[SKEWED BY (col_name, col_name, ...) ON ((col_value, col_value, ...), (col_value, col_value, ...), ...)  [STORED AS DIRECTORIES] ]  -- 指定倾斜列和值[[ROW FORMAT row_format]    [STORED AS file_format]| STORED BY 'storage.handler.class.name' [WITH SERDEPROPERTIES (...)]  ]  -- 指定行分隔符、存储文件格式或采用自定义存储格式[LOCATION hdfs_path]  -- 指定表的存储位置[TBLPROPERTIES (property_name=property_value, ...)]  -- 指定表的属性[AS select_statement];   -- 从查询结果创建表

在这里插入图片描述

使用 create like 语句可以复制一张表的表结构

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name  -- 创建表的表名LIKE existing_table_or_view_name  -- 被复制表的表名[LOCATION hdfs_path]; -- 存储位置

在这里插入图片描述
加载 HDFS 路径数据文件到表的命令如下：

-- 加载数据到 emp 表中
load data local inpath "/home/omc/emp.txt" into table emp;

5.2 修改表

修改表名

ALTER TABLE table_name RENAME TO new_table_name;

ALTER TABLE whaleMart_copy RENAME TO whaleMart_tmp;
在这里插入图片描述

修改列

ALTER TABLE table_name [PARTITION partition_spec] CHANGE [COLUMN] col_old_name col_new_name column_type[COMMENT col_comment] [FIRST|AFTER column_name] [CASCADE|RESTRICT];

修改 whaleMart 表中的字段属性，命令如下

-- 修改字段名和类型
ALTER TABLE whaleMart CHANGE goods_id goods_code STRING;-- 修改字段 goods_code 的名称并将其放置到 goods_name 字段后
ALTER TABLE whaleMart CHANGE goods_code goods_id STRING AFTER goods_name;-- 为字段增加注释
ALTER TABLE whaleMart CHANGE goods_id goods_id STRING COMMENT '商品编号';

在这里插入图片描述

可以看到，添加的中文注释并未正常显示。这是因为 hive 元数据库创建，默认编码是 lanin1，需要登录当前 hive 运行环境的 mysql 数据库，执行如下命令：

//修改字段注释字符集alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;//修改表注释字符集alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;//修改分区注释字符集alter table PARTITION_KEYS modify column PKEY_COMMENT varchar(4000) character set utf8;

5.3 清空表、删除表

清空表

-- 清空整个表或表指定分区中的数据
TRUNCATE TABLE table_name [PARTITION (partition_column = partition_col_value,  ...)];

需要注意的是：只有内部表才支持 TRUNCATE 命令，对外部表执行 TRUNCATE 操作时会报错。

TRUNCATE TABLE whaleMart_tmp

删除表

DROP TABLE [IF EXISTS] table_name [PURGE];

5.4 其他命令

describe 命令

DESCRIBE|Desc DATABASE [EXTENDED] db_name;  -- EXTENDED 是否显示额外属性DESCRIBE|Desc [EXTENDED|FORMATTED] table_name;  -- FORMATTED 以友好的展现方式查看表详情

在这里插入图片描述

show
不太常用的命令如下：

-- 查看视图列表
SHOW VIEWS-- 查看表的分区列表
SHOW PARTITIONS table_name;-- 查看表或者视图的创建语句
SHOW CREATE TABLE ([db_name.]table_name|view_name);

大数据处理技术导论（6） | Datawhale组队学习46期

文章目录1. hive 概述2. hive 与传统关系型数据库的对比3. hive 数据类型4. hive 数据模型5. hive 实战5.1 创建表5.2 修改表5.3 清空表、删除表5.4 其他命令项目地址 https://github.com/datawhalechina/juicy-bigdata，感谢项目团队的付出。本次主要学习 hive 相关…...

编程日记 2023/3/2 1:08:57

Java——异常

目录什么是异常异常处理主要的5个关键字异常的体系结构异常语法异常的分类异常的处理流程异常的处理防御式编程异常的抛出 throw的注意事项异常的捕获异常声明throws try-catch捕获处理 finally 自定义异常类 throw和throws区别什么是异常程序在运行时出现错…...

编程日记 2023/3/2 1:07:50

Netty之io.netty.util.concurrent.Promise与io.netty.util.concurrent.Future初解

目录目标 Netty版本 Netty官方API 三者之间的关系基本使用方法 java.util.concurrent.Future io.netty.util.concurrent.Future io.netty.util.concurrent.Promise 目标了解io.netty.util.concurrent.Promise与io.netty.util.concurrent.Future的基本使用方法。了解…...

编程日记 2023/3/2 1:06:45

【正点原子FPGA连载】第二十一章AXI DMA环路测试摘自【正点原子】DFZU2EG_4EV MPSoC之嵌入式Vitis开发指南

1）实验平台：正点原子MPSoC开发板 2）平台购买地址：https://detail.tmall.com/item.htm?id692450874670 3）全套实验源码手册视频下载地址： http://www.openedv.com/thread-340252-1-1.html 第二十一章AXI D…...

编程日记 2023/3/2 1:05:39

手把手搭建springboot项目06-springboot整合RabbitMQ及其原理和应用场景

目录前言工作流程-灵魂画手名词解释交换机类型一、安装1.1 [RabbitMQ官网安装](https://www.rabbitmq.com/download.html)1.2 Docker安装并启动二、食用教程2.1.导入依赖2.2 添加配置2.3 代码实现2.3.1 直连（Direct）类型2.3.2 引入消息手动确认机制2.3.2…...

编程日记 2023/3/2 1:04:35

如何根据IP地址判断是IPv4还是IPv6

IPv4地址的书写形式为：“192.168.0.1” IPv6地址的书写形式为：“2001:DB8:85A3:8D3:1319:8A2E:370:7344” 给你一个IP地址，它有三种可能：IPv4、IPv6、既不是IPv4也不是IPv6的无效地址。所以，如果用函数ipGetAddressAsNumber，只能判断是不是ipv4，编写如下函数： int R…...

编程日记 2023/3/2 1:03:28

山地车和公路车怎么选

公路车： 只能适应平坦的路面，骑行阻力小，速度快比较适合新手山地车： 能适应所有路面，更注重操控性和舒适性怎么选？ 1、先决定用途旅游：旅行车、山地车、通勤：公路车 2、预…...

编程日记 2023/3/2 1:02:24

Zotero设置毕业论文/中文期刊参考文献格式

大家在使用zotero时很容易遇到的问题： 英文参考文献中有多个作者时出现“等”，而不是用"et al"引文最后面有不需要的DOI号，或者论文链接对于一些期刊分类上会出现OL字样，即[J/OL]作者名为全大写本文主要解决以上几个…...

编程日记 2023/3/2 1:01:17

【人工智能与深度学习】自动编码器的简介

【人工智能与深度学习】自动编码器的简介自动编码器的应用图片生成像素空间和潜在空间插值的差异图像超级分辨率图像修补由文字说明转成图片什么是自动编码器?为什么我们用自动编码器?重建损失完成过度降噪自动编码器：Denoising autoencoder压缩式自动编码器定义自动编码器…...

编程日记 2023/3/2 1:00:13

Isaac-gym(9)：项目更新、benchmarks框架梳理

一、项目更新近期重新git clone isaac gym的强化部分（具体见系列第5篇）时发现官方的github库有跟新，git clone下来后发现多了若干个task，在环境配置上也有一定区别。例如新旧两版工程项目的setup.py区别如下： git …...

编程日记 2023/3/2 0:59:08

Linux 学习笔记（一）：终端和 Shell 的区别和联系

一、Linux 介绍 1、什么是 Linux Linux 就是一个操作系统，全称 GNU/Linux，是一种类 Unix 操作系统Linux 一开始是没有图形界面的，所有操作都靠命令完成。如磁盘操作、文件存取、目录操作、进程管理、文件权限等等，可以说 Li…...

编程日记 2023/3/2 0:58:03

cycleGAN算法解读

本文参考：https://blog.csdn.net/Mr_health/article/details/112545671 1 CycleGAN概述 CycleGAN：循环生成对抗神经网络，是一种非监督学习模型。 Pix2pix方法适用于成对数据的风格迁移，而大多数情况下对于A风格的图像&#xf…...

编程日记 2023/3/2 0:56:59

解读“方差”

其实，从这个标题就可以看出来，方差，这个问题不简单， 先给出定义： 方差其实应该叫，差方差，（差方）差，差的平方的差，与差的平方之间的误差&#xff0…...

编程日记 2023/3/2 0:55:51

记录面试问题

以下问题不分先后，按照印象深浅排序，可能一次记录不完成，后面想起来会及时补充，如有不对，恳请各位围观大佬多多指教🙏 印象最深的是一道很简单很简单的题目，我结束面试之后赶紧代码敲敲发现答错…...

编程日记 2023/3/2 0:54:44

（六十四）设计索引的时候，我们一般要考虑哪些因素呢？（上）

本周我们将要讲解一下设计索引的时候，我们通常应该考虑哪些因素，给哪些字段建立索引，如何建立索引，建立好索引之后应该如何使用才是最合适的。可能有的朋友会希望尽快更新后面的内容，但是因为工作的原因的确非常忙&a…...

编程日记 2023/3/2 0:53:39

【蓝桥杯嵌入式】LCD屏的原理图解析与代码实现（第十三届省赛为例）——STM32

🎊【蓝桥杯嵌入式】专题正在持续更新中，原理图解析✨，各模块分析✨以及历年真题讲解✨都在这儿哦，欢迎大家前往订阅本专题，获取更多详细信息哦🎏🎏🎏 🪔本系列专栏 - 蓝…...

编程日记 2023/3/2 0:52:33

论文学习——Reproducing Activation Function for Deep Learning

论文学习——Reproducing Activation Function Abstract RAFs将集中基础激活函数进行线性组合，构建出神经元级的、数据驱动的激活函数。使用RAFs为激活函数的神经网络可以重现传统的近似工具，也能相对于传统网络以更少的参数量拟合目标函数。训练过程中，RAFs可以以更好的条…...

编程日记 2023/3/2 0:51:26

【趣味学Python】Python基础语法讲解

目录编码标识符 python保留字注释实例(Python 3.0) 实例(Python 3.0) 行与缩进实例(Python 3.0) 实例多行语句数字(Number)类型字符串(String) 实例(Python 3.0) 空行等待用户输入实例(Python 3.0) 同一行显示多条语句实例(Python 3.0) 多个语句构…...

编程日记 2023/3/2 0:50:19

虚拟局域网VLAN的实现机制

虚拟局域网VLAN的实现机制1.IEEE 802.1Q帧2.交换的端口类型AccessTrunkHybrid（华为特有）1.IEEE 802.1Q帧 IEEE802.1Q帧（也称Dot One Q帧）对以太网的MAC帧格式进行了扩展，插入了4字节的VLAN标记。 2.交换的端口类型 A…...

编程日记 2023/3/2 0:49:15

Mask R-CNN 算法学习总结

Mask R-CNN 相关知识点整体框架1.Resnet 深度残差学习1.1 目的1.2 深度学习深度增加带来的问题1.3 Resnet实现思想【添加恒等映射】2.线性插值2.1 目的2.2 线性插值原理2.3 为什么使用线性插值?3.FPN 特征金字塔3.1 FPN介绍3.2 为什么使用FPN?3.3 自下而上层【提取特征】3.4 …...

编程日记 2023/3/2 0:48:07

半导体诊断技术：从扫描逻辑到根因解卷积

1. 半导体诊断技术演进与挑战在半导体制造领域，诊断技术始终扮演着至关重要的角色。想象一下，当芯片在测试阶段出现故障时，工程师们就像医生面对病患一样，需要通过一系列"检查手段"来定位问题根源。扫描逻辑诊断&#…...

编程新知 2026/5/13 8:12:35

【最新版】heic格式转换器下载教程 livp格式转jpg超详细图文转换教程

文章目录准备工作安卓手机拍摄的heic格式转jpg教程苹果heic格式转jpg专用工具livp格式转jpg教程heic格式文件无法打开的原因及解决方法heic转换jpg后文件变大是什么原因本文将详细教你实现heic格式转jpg与livp格式转jpg的操作方法，同时免费提供实用的heic格式转换器…...

编程新知 2026/5/13 7:58:54

ZYNQ UltraScale+ MPSoC实战：基于PL端AXI_UART16550 IP核与PS端中断机制，实现RS485多帧长数据可靠接收

1. 工业通信场景下的ZYNQ UltraScale MPSoC实战在工业自动化领域，RS485总线因其抗干扰能力强、传输距离远等优势，成为设备间通信的主流选择。而ZYNQ UltraScale MPSoC凭借其独特的PSPL架构，能够完美应对工业通信中对实时性和可靠性的严苛要求…...

编程新知 2026/5/13 5:36:21

边缘TTS实战：本地部署高质量语音合成与性能优化指南

1. 项目概述：当TTS遇见边缘计算最近在折腾一个需要实时语音合成的项目，发现了一个挺有意思的仓库：travisvn/openai-edge-tts。这名字一看就很有料，把“OpenAI”和“Edge-TTS”这两个词组合在一起，背后指向的是一个非常…...

编程新知 2026/5/13 4:18:21

用C8051F单片机自带的12位ADC，实现16位精度的温度测量（附完整代码）

基于C8051F单片机12位ADC实现16位温度测量的工程实践在嵌入式系统开发中，高精度温度测量往往需要昂贵的16位ADC芯片，但通过合理的算法设计，我们可以利用C8051F系列单片机内置的12位ADC实现等效16位的测量精度。本文将深入探讨过采样技术的实…...

编程新知 2026/5/13 3:07:41

Python 爬虫数据处理：重复页面数据智能合并去重

前言在规模化 Python 爬虫采集项目中，重复页面数据是高频出现的核心问题，源于站点分页逻辑错乱、镜像页面分发、动态接口返回冗余数据、多入口同源页面采集等多重因素。重复数据若不做处理，不仅会造成数据库存储冗余、占用服务器资源&#…...

编程新知 2026/5/13 2:55:25

手机数据导出

在数字信息爆炸的时代，手机早已不仅是通讯工具，更是承载个人记忆、工作文件与生活轨迹的“数字器官”。然而，当意外发生——误删、系统崩溃、硬件损坏——手机数据导出便成为一项技术性极高、且充满情感救赎价值的系统工程。本文将围绕手机数…...

编程新知 2026/5/13 2:42:59

AI编程助手上下文管理工具devcontext：构建项目记忆库提升开发效率

1. 项目概述：当AI助手拥有“记忆”，开发效率的质变如果你和我一样，每天大部分时间都在和代码编辑器、终端以及各种文档打交道，那你一定对这样的场景不陌生：接手一个新项目，光是理解代码库的结构、各个模块的…...

编程新知 2026/5/13 1:32:33

2篇3章3节：Trae 的高效小说创作与文件管理实操

在人工智能辅助小说创作的过程中，工具操作方式、内容生成逻辑与文件管理体系，直接决定写作效率与文稿质量。Trae作为适配小说创作的专业工具，不仅支持单章、全章智能化生成正文内容，适配短篇、长篇不同创作场景，还具备多屏拆分、标签页管理、规范化文件收纳等实用功能。熟…...

编程新知 2026/5/13 1:28:14

2026年5月PLC厂家：十大品牌专业评测解决工厂自动化选型难

摘要当制造业加速迈向智能化和柔性生产，PLC作为工业自动化的核心控制单元，其选型直接决定了产线效率、系统稳定性与长期运营成本。然而，面对众多品牌在技术路线、开放程度、生态兼容性上的显著分化，决策者常陷入“性能与成本如何平…...

编程新知 2026/5/13 1:17:15