当前位置：首页 > news >正文

hive数据存储格式

news 2026/5/10 11:37:50

1、Hive存储数据的格式如下：

存储数据格式	存储形式
TEXTFILE	行式存储
SEQUENCEFILE	行式存储
ORC	列式存储
PARQUET	列式存储

2、行式存储和列式存储

解释：

1、上图左面为逻辑表；右面第一个为行式存储，第二个温列式存储；

2、行存储的特点：查询满足条件的一整行数据的时候，行存储只需要找到其中一个值，其余的值都在相邻地方。列存储则需要去每个聚集的字段找到对应的每个列的值，所以此时行存储查询的速度更快。

3、列存储的特点：因为每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量；每个字段的数据类型一定是相同的，列式存储可以针对性的设计更好的设计压缩算法。

行式存储优点：
1、相关的数据保存在一起，比较符合面向对象的思维，因为一行数据就是一条记录
2、方便进行insert或update操作

行式存储缺点：
1、如果仅需要查询几列数据，它会把整行数据都读取出来，不能跳过不必要的列读取
2、由于每一行中列的数据类型不一致，导致不容易获得一个极高的压缩比（空间利用率不高）

列式存储优点：

1、查询时，只有涉及到的列才会被查询，可以跳过不必要的列查询

2、高效的压缩率，不仅节省储存空间也节省计算内存和CPU

3、任何列都可以作为索引

列式存储缺点：

1、不适合进行insert或update操作

2、不适合扫描小量的数据

3、存储格式详解：

TEXTFILE格式

默认格式，数据不做压缩，磁盘开销大，数据解析开销大。可结合Gzip、Bzip2使用(系统自动检查，执行查询时自动解压)，但使用这种方式，hive不会对数据进行切分，从而无法对数据进行并行操作。

ORC格式

Orc (Optimized Row Columnar)是hive 0.11版里引入的新的存储格式。
可以看到每个Orc文件由1个或多个stripe组成，每个stripe250MB大小，这个Stripe实际相当于RowGroup概念，不过大小由4MB->250MB，这样能提升顺序读的吞吐率。每个Stripe里有三部分组成，分别是Index Data,Row Data,Stripe Footer：

一个ORC文件可以分为若干个Stripe，一个stripe可以分为三个部分：

Index Data：一个轻量级的index，默认是每隔1W行做一个索引（目录）。这里做的索引只是记录某行的各字段在Row Data中的offset
Row Data：存储具体的数据，先取部分行，然后对这些行按列进行存储。对每个列进行了编码，分成多个Stream来存储。
Strip Footer：存储各个stripe的元数据信息
每个ORC文件文件有一个File Footer，存储的是每个Stripe的行数以及Stripe中每个Column的数据类型信息等；

每个ORC文件文件的尾部是一个Post Script，这里面记录了整个文件的压缩类型以及File Footer的长度信息等。

在读取文件时，会seek到文件尾部读Post Script，从里面解析到File Footer长度，再读FileFooter，从里面解析到各个Stripe信息，再读各个Stripe，即从后往前读。

parquet

面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器里毕业成为Apache顶级项目

parquet文件是以二进制方式存储的，所以是不可以直接读取。文件中包括该文件的数据和元数据，因此Parquet格式文件是自解析的

通常情况下，在存储Parquet数据的时候会按照Block大小设置行组的大小，由于一般情况下每一个Mapper任务处理数据的最小单位是一个Block，这样可以把每一个行组由一个Mapper任务处理，增大任务执行并行度。

ORC和Parquet区别

ORC存储格式比Parquet压缩率更好
Parquet格式对嵌套列的支持比较友好，可以只查询某个列中的嵌套子列，而不用查询其他的子列。
ORC支持ACID事务，而Parquet目前还不支持。

问题：

1、Zlib和Snappy两种压缩算法的对比？

Zlib 压缩率 高， 解压速度 慢
Snappy则与Zlib相反，按照业务情况来选择使用

2、什么是压缩率？

压缩率（Compression rate），描述压缩文件的效果名，是文件压缩后的大小与压缩前的大小之比，例如：把100m的文件压缩后是90m，压缩率为90/100*100%=90%，压缩率一般是越小越好，但是压得越小，解压时间越长。

3、什么是解压速度？

解压速度是指将一个通过软件压缩的文件释放到目标地址，恢复为压缩前文件的速度。

hive数据存储格式

1、Hive存储数据的格式如下： 存储数据格式存储形式TEXTFILE行式存储SEQUENCEFILE行式存储ORC列式存储PARQUET列式存储 2、行式存储和列式存储解释： 1、上图左面为逻辑表；右面第一个为行式存储，第二个温列式存储； …...

编程日记 2023/2/15 5:21:17

mysql数据库备份与恢复

mysql数据备份： 数据备份方式物理备份： 冷备：.冷备份指在数据库关闭后,进行备份,适用于所有模式的数据库热备：一般用于保证服务正常不间断运行，用两台机器作为服务机器，一台用于实际数据库操作应用,另外…...

编程日记 2023/2/15 5:20:11

《NFL橄榄球》：辛辛那提猛虎·橄榄1号位

辛辛那提猛虎（英语：Cincinnati Bengals），又译辛辛那提孟加拉虎，是一支职业美式橄榄球球队位于俄亥俄州辛辛那提。他们现时为美联北区的其中一支球队，他们在1968年加入美国橄榄球联合会，并在1970…...

编程日记 2023/2/15 5:19:03

2、线程、块和网格

目录一、线程、块、网格概念二、代码分析2.1 打印第一个线程块的第一线程2.2 打印当前线程块的当前线程2.3 获取当前是第几个线程一、线程、块、网格概念 CUDA的软件架构由网格（Grid）、线程块（Block）和线程（Thread&am…...

编程日记 2023/2/15 5:17:56

C++ 算法主题系列之贪心算法的贪心之术

1. 前言贪心算法是一种常见算法。是以人性之念的算法，面对众多选择时，总是趋利而行。因贪心算法以眼前利益为先，故总能保证当前的选择是最好的，但无法时时保证最终的选择是最好的。当然，在局部利益最大化的同时&am…...

编程日记 2023/2/15 5:16:49

请注意，PDF正在传播恶意软件

据Bleeping Computer消息，安全研究人员发现了一种新型的恶意软件传播活动，攻击者通过使用PDF附件夹带恶意的Word文档，从而使用户感染恶意软件。类似的恶意软件传播方式在以往可不多见。在大多数人的印象中，电子邮件是夹带加载了恶…...

编程日记 2023/2/15 5:15:41

【Kubernetes】【二】环境搭建环境初始化

本章节主要介绍如何搭建kubernetes的集群环境环境规划集群类型 kubernetes集群大体上分为两类：一主多从和多主多从。一主多从：一台Master节点和多台Node节点，搭建简单，但是有单机故障风险，适合用于测试环境多主…...

编程日记 2023/2/15 5:14:31

Python：每日一题之发现环（DFS）

题目描述小明的实验室有 N 台电脑，编号 1⋯N。原本这 N 台电脑之间有 N−1 条数据链接相连，恰好构成一个树形网络。在树形网络上，任意两台电脑之间有唯一的路径相连。不过在最近一次维护网络时，管理员误操作使得某两台电脑之间…...

编程日记 2023/2/15 5:13:23

C++设计模式(14)——享元模式

亦称： 缓存、Cache、Flyweight 意图享元模式是一种结构型设计模式， 它摒弃了在每个对象中保存所有数据的方式， 通过共享多个对象所共有的相同状态， 让你能在有限的内存容量中载入更多对象。问题假如你希望在长时间工作后放…...

编程日记 2023/2/15 5:12:16

SpringCloud之Eureka客户端服务启动报Cannot execute request on any known server解决

项目场景： 在练习SpringCloud时，Eureka客户端(client)出现报错：Cannot execute request on any known server 问题描述正常启动SpringCloud的Server端和Client端，结果发现Server端的控制台有个Error提示，如下&#…...

编程日记 2023/2/15 5:11:10

从零开始搭建kubernetes集群环境（虚拟机/kubeadm方式）

文章目录1 Kubernetes简介（k8s）2 安装实战2.1 主机安装并初始化2.2 安装docker2.3 安装Kubernetes组件2.4 准备集群镜像2.5 集群初始化2.6 安装flannel网络插件3 部署nginx 测试3.1 创建一个nginx服务3.2 暴漏端口3.3 查看服务3.4 测试服务1 Kubernetes简…...

编程日记 2023/2/15 5:10:01

【零基础入门前端系列】—表格（五）

【零基础入门前端系列】—表格（五） 一、表格表格在数据展示方面非常简单，并且表现优秀，通过与CSS的结合，可以让数据变得更加美观和整齐。单元格的特点：同行等高、同列等宽。表格的基本语法&#xff1…...

编程日记 2023/2/15 5:08:55

C#开发的OpenRA的只读字典IReadOnlyDictionary实现

C#开发的OpenRA的只读字典IReadOnlyDictionary实现怎么样实现一个只读字典？这是一个高级的实现方式，一般情况下，开发人员不会考虑这个问题的。毕竟代码里，只要小心地使用，还是不会出问题的。但是如果在一个大型的代码，或者要求比较严格的代码里，就需要考虑这个问题了…...

编程日记 2023/2/15 5:07:48

mulesoft MCIA 破釜沉舟备考 2023.02.14.06

mulesoft MCIA 破釜沉舟备考 2023.02.14.06 1. A company is planning to extend its Mule APIs to the Europe region.2. A mule application is deployed to a Single Cloudhub worker and the public URL appears in Runtime Manager as the APP URL.3. An API implementati…...

编程日记 2023/2/15 5:06:41