当前位置: 首页 > news >正文

Hive之分区表

Hive之分区表


文章目录

  • Hive之分区表
    • 写在前面
    • 分区表
      • 分区表基本操作
        • 引入分区表
        • 创建分区表语法
        • 加载数据到分区表中
        • 查询分区表中数据
        • 增加分区
        • 删除分区
        • 查看分区表有多少分区
        • 查看分区表结构
      • 二级分区
        • 正常的加载数据
        • 分区表和数据产生关联
      • 动态分区
        • 开启动态分区参数设置
        • 案例实操


写在前面

  • Linux版本:CentOS7.5
  • Hive版本:Hive-3.1.2

分区表

分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。

分区表基本操作

引入分区表

需要根据日期对日志进行管理, 通过部门信息模拟

dept_20200401.log
dept_20200402.log
dept_20200403.log
……
创建分区表语法
hive (default)> create table dept_partition(
deptno int, dname string, loc string
)
partitioned by (day string)
row format delimited fields terminated by '\t';

注意:分区字段不能是表中已经存在的数据,可以将分区字段看作表的伪列。

加载数据到分区表中

(1)数据准备

dept_20200401.log

10	ACCOUNTING	1700
20	RESEARCH	1800
dept_20200402.log
30	SALES	1900
40	OPERATIONS	1700
dept_20200403.log
50	TEST	2000
60	DEV	1900

(2)加载数据

hive (default)> load data local inpath '/export/server/hive-3.1.2/datas/dept_20200401.log' into table dept_partition partition(day='20200401');
hive (default)> load data local inpath '/export/server/hive-3.1.2/datas/dept_20200402.log' into table dept_partition partition(day='20200402');
hive (default)> load data local inpath '/export/server/hive-3.1.2/datas/dept_20200403.log' into table dept_partition partition(day='20200403');

注意:分区表加载数据时,必须指定分区

  • HDFS Web段查看分区

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7Rf6nz3l-1682061151347)(assets/01.png)]

  • Hive查询分区

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sOxSbXvR-1682061151348)(assets/02.png)]

查询分区表中数据
  • 单分区查询
hive (default)> select * from dept_partition where day='20200401';
  • 多分区联合查询
hive (default)> select * from dept_partition where day='20200401'unionselect * from dept_partition where day='20200402'unionselect * from dept_partition where day='20200403';
hive (default)> select * from dept_partition where day='20200401' orday='20200402' or day='20200403' ;			
增加分区
  • 创建单个分区
hive (default)> alter table dept_partition add partition(day='20200404') ;
  • 同时创建多个分区 (中间没有加逗号)
hive (default)> alter table dept_partition add partition(day='20200405') partition(day='20200406');
删除分区
  • 删除单个分区
hive (default)> alter table dept_partition drop partition (day='20200406');
  • 同时删除多个分区 (中间有加逗号)
hive (default)> alter table dept_partition drop partition (day='20200404'), partition(day='20200405');
查看分区表有多少分区
hive> show partitions dept_partition;
查看分区表结构
hive> desc formatted dept_partition;# Partition Information          
# col_name              data_type               comment             
month                   string    

二级分区

假设现在有一个需求:一天的日志数据量很大,如何再将数据拆分?

答案就是接下来的 二级分区

正常的加载数据

(1)加载数据到二级分区表中

hive (default)> load data local inpath '/opt/module`/hive/datas/dept_20200401.log' into table
dept_partition2 partition(day='20200401', hour='12');

(2)查询分区数据

hive (default)> select * from dept_partition2 where day='20200401' and hour='12';
分区表和数据产生关联

把数据直接上传到分区目录上,让分区表和数据产生关联的三种方式

(1)方式一:上传数据后修复

  • 上传数据 (dfs -mkdir –p 或者 hadoop fs –mkdir)
hive (default)> dfs -mkdir -p/user/hive/warehouse/mydb.db/dept_partition2/day=20200401/hour=13;
hive (default)> dfs -put /opt/module/datas/dept_20200401.log  /user/hive/warehouse/mydb.db/dept_partition2/day=20200401/hour=13;
  • 查询数据(查询不到刚上传的数据)
hive (default)> select * from dept_partition2 where day='20200401' and hour='13';
  • 执行修复命令
hive> msck repair table dept_partition2;
  • 再次查询数据
hive (default)> select * from dept_partition2 where day='20200401' and hour='13';

(2)方式二:上传数据后添加分区

  • 上传数据
hive (default)> dfs -mkdir -p /user/hive/warehouse/mydb.db/dept_partition2/day=20200401/hour=14;
hive (default)> dfs -put /export/server/hive-3.1.2/datas/dept_20200401.log/user/hive/warehouse/mydb.db/dept_partition2/day=20200401/hour=14;
  • 执行添加分区
hive (default)> alter table dept_partition2 add partition(day='201709',hour='14');
  • 查询数据
hive (default)> select * from dept_partition2 where day='20200401' and hour='14';

(3)方式三:创建文件夹后load数据到分区

  • 创建目录
hive (default)> dfs -mkdir -p /user/hive/warehouse/mydb.db/dept_partition2/day=20200401/hour=15;
hive (default)> load data local inpath '/export/server/hive-3.1.2/datas/dept_20200401.log' into tabledept_partition2 partition(day='20200401',hour='15');
  • 查询数据
hive (default)> select * from dept_partition2 where day='20200401' and hour='15';

动态分区

关系型数据库中,对分区表Insert数据时候,数据库自动会根据分区字段的值,将数据插入到相应的分区中,Hive中也提供了类似的机制,即动态分区(Dynamic Partition),只不过,使用Hive的动态分区,需要进行相应的配置。

开启动态分区参数设置

(1)开启动态分区功能(默认true,开启)

hive.exec.dynamic.partition=true

(2)设置为非严格模式(动态分区的模式,默认strict,表示必须指定至少一个分区为静态分区,nonstrict模式表示允许所有的分区字段都可以使用动态分区。)

hive.exec.dynamic.partition.mode=nonstrict

(3)在所有执行MR的节点上,最大一共可以创建多少个动态分区。默认1000

hive.exec.max.dynamic.partitions=1000

(4)在每个执行MR的节点上,最大可以创建多少个动态分区。该参数需要根据实际的数据来设定。比如:源数据中包含了一年的数据,即day字段有365个值,那么该参数就需要设置成大于365,如果使用默认值100,则会报错。

hive.exec.max.dynamic.partitions.pernode=100

(5)整个MR Job中,最大可以创建多少个HDFS文件。默认100000

hive.exec.max.created.files=100000

(6)当有空分区生成时,是否抛出异常。一般不需要设置。默认false

hive.error.on.empty.partition=false
案例实操

需求:将dept表中的数据按照地区(loc字段),插入到目标表dept_partition的相应分区中。
(1)创建目标分区表

hive (default)> create table dept_partition_dy(id int, name string) partitioned by (loc int) row format delimited fields terminated by '\t';

(2)设置动态分区

set hive.exec.dynamic.partition.mode = nonstrict;
hive (default)> insert into table dept_partition_dy partition(loc) select deptno, dname, loc from dept;

(3)查看目标分区表的分区情况

hive (default)> show partitions dept_partition;

扩展问题:目标分区表是如何匹配到分区字段的?

==> 位置,默认最后一列是分区列,“伪”列在最后

全文结束!!!

相关文章:

Hive之分区表

Hive之分区表 文章目录 Hive之分区表写在前面分区表分区表基本操作引入分区表创建分区表语法加载数据到分区表中查询分区表中数据增加分区删除分区查看分区表有多少分区查看分区表结构 二级分区正常的加载数据分区表和数据产生关联 动态分区开启动态分区参数设置案例实操 写在前…...

Redis之持久化

1.前言 Redis⽀持RDB和AOF两种持久化机制,持久化功能有效地避免因进程退出造成数据丢失问题, 当下次重启时利⽤之前持久化的⽂件即可实现数据恢复。本文内容: • 介绍RDB、AOF的配置和运⾏流程,以及控制持久化的命令,…...

有关计算机的英语单词、短语、句子

基本计算机术语 Computer – 计算机 Hardware – 硬件 Software – 软件 Operating System (OS) – 操作系统 Processor (CPU) – 处理器(中央处理单元) Memory (RAM) – 内存(随机存取存储器) Storage – 存储 Disk Drive – 硬…...

String、StringBuffer、StringBuilder 区别

在 Java 编程中,String、StringBuffer 和 StringBuilder 是处理字符串时常用的类。它们在功能上有相似之处,但在内部实现、性能、线程安全性等方面存在显著差异。理解这些差异有助于开发者在不同的场景下做出合适的选择,提高代码的性能和效率…...

shell——分支语句

文章目录 基本语法常用判断条件(1)两个整数之间比较(2)按照文件权限进行判断(3)按照文件类型进行判断(4)多条件判断(&& 表示前一条命令执行成功时,才执行后一条命令&#xf…...

【vue3】实现pdf在线预览的几种方式

今天一天对当前可用的pdf预览插件做了测试,主要需求是只能预览不能下载,但对于前端来说,没有绝对的禁止,这里只罗列实现方式。 目前采用vue3版本为:3.2.37 iframevue-officepdfjs-dist iframe 先说最简单的&#xf…...

(学习总结22)Linux 基本指令1

Linux 基本指令1 基本指令当前目录信息指令 ls查看路径指令 pwd改变当前所在目录指令 cd创建或更改文件时间指令 touch创建目录指令 mkdir删除空目录指令 rmdir删除指令 rm查阅手册指令 man拷贝文件指令 cp移动文件指令 mv打印内容指令 echo 查看指令查找文件指令 find查看指令…...

Linux:用 clang 编译带 sched_ext 功能内核

文章目录 1. 前言2. 编译过程2.1 准备内核源代码2.2 安装编译工具2.3 配置、编译、运行2.3.1 配置2.3.2 编译2.3.3 运行 3. 参考资料 1. 前言 限于作者能力水平,本文可能存在谬误,因此而给读者带来的损失,作者不做任何承诺。 2. 编译过程 …...

Redis 的集群 --- 数据分开扛

序言 上一章内容中我们介绍到了 哨兵 来保证我们主机在发生故障时能够及时地选出一个新的主机,但是哨兵地加入只是提供了 高可用性 和 故障转移,并没有真正的提升架构的性能。如果不断地加入新的数据的话,主机的压力会很大,一方面…...

微信小程序中缓存数据全方位解惑

微信小程序中缓存数据全方位解惑 微信小程序中的数据缓存是提升用户体验和优化性能的重要手段,跟电脑浏览器中的Local Storage的性质一样。以下是关于微信小程序数据缓存的相关知识点和示例的详细介绍: 1. 数据缓存的类型 微信小程序提供了两种数据缓…...

LeetCode 每日一题 2025/2/10-2025/2/16

记录了初步解题思路 以及本地实现代码;并不一定为最优 也希望大家能一起探讨 一起进步 目录 2/10 913. 猫和老鼠2/11 1728. 猫和老鼠 II2/12 1760. 袋子里最少数目的球2/13 1742. 盒子中小球的最大数量2/14 1552. 两球之间的磁力2/15 1706. 球会落何处2/16 1299. 将…...

使用 Shiro 和 JPA 结合 MySQL 实现一个简易权限管理系统

1. 项目设置 首先&#xff0c;确保你的项目已经配置好 Maven 或 Gradle 依赖管理工具&#xff0c;并添加以下依赖&#xff1a; Maven 依赖 <dependencies><!-- Shiro 核心库 --><dependency><groupId>org.apache.shiro</groupId><artifactI…...

DeepSeek与医院电子病历的深度融合路径:本地化和上云差异化分析

一、引言 1.1 研究背景与意义 在医疗信息化快速发展的当下,电子病历系统已成为医院信息管理的核心构成。电子病历(EMR)系统,是指医务人员在医疗活动过程中,使用医疗机构信息系统生成的文字、符号、图标、图形、数据、影像等数字化信息,并能实现存储、管理、传输和重现的…...

设计模式:代理模式

代理模式是很常见的设计模式&#xff0c;即使没有专门学习过这种设计模式&#xff0c;在工作中也一定用过这种设计模式。在实际生活中&#xff0c;代理模式也是常见的&#xff0c;比如内阁首辅相对于皇帝&#xff0c;前者是后者的代理&#xff0c;内阁首辅收到奏折时&#xff0…...

141,【1】buuctf web [SUCTF 2019]EasyWeb

进入靶场 代码审计 <?php // 定义函数get_the_flag&#xff0c;功能是处理文件上传相关操作 function get_the_flag() {// 注释说明&#xff1a;webadmin会每隔20分钟删除用户上传的文件$userdir "upload/tmp_" . md5($_SERVER[REMOTE_ADDR]);// 检查用户目录…...

破解微服务疑难杂症:2025年全解决方案

微服务架构已经成为现代软件开发的主流选择&#xff0c;其优势在于能够将复杂的系统拆分为独立的服务模块&#xff0c;方便开发和维护。然而&#xff0c;在微服务的实施过程中&#xff0c;开发者往往会面临许多挑战&#xff0c;如服务间通信、数据一致性、性能优化和故障处理等…...

Node.js 中的 Event 模块详解

Node.js 中的 Event 模块是实现事件驱动编程的核心模块。它基于观察者模式&#xff0c;允许对象&#xff08;称为“事件发射器”&#xff09;发布事件&#xff0c;而其他对象&#xff08;称为“事件监听器”&#xff09;可以订阅并响应这些事件。这种模式非常适合处理异步操作和…...

EasyRTC嵌入式WebRTC视频通话SDK支持Web浏览器、Linux、ARM、Android、iOS

随着互联网技术的飞速发展&#xff0c;实时通信&#xff08;RTC&#xff09;已经成为现代应用中不可或缺的一部分。无论是视频会议、在线教育、远程医疗&#xff0c;还是社交娱乐&#xff0c;实时通信技术都在其中扮演着重要角色。 然而&#xff0c;WebRTC技术在PC和移动端的支…...

pycharm社区版有个window和arm64版本,到底下载哪一个?还有pycharm官网

首先pycharm官网是这一个。我是在2025年2月16日9:57进入的网站。如果网站还没有更新的话&#xff0c;那么就往下滑一下找到 community Edition,这个就是社区版了免费的。PyCharm&#xff1a;适用于数据科学和 Web 开发的 Python IDE 适用于数据科学和 Web 开发的 Python IDE&am…...

【玩转全栈】----Django模板语法、请求与响应

目录 一、引言 二、模板语法 三、传参 1、视图函数到模板文件 2、模板文件到视图函数 四、引入静态文件 五、请求与响应 ?1、请求 2、响应 六、综合小案例 1、源码展示 2、注意事项以及部分解释 3、展示 一、引言 像之前那个页面&#xff0c;太过简陋&#xff0c;而且一个完整…...

20个Illustrator脚本:从设计新手到效率大师的终极指南

20个Illustrator脚本&#xff1a;从设计新手到效率大师的终极指南 【免费下载链接】illustrator-scripts Adobe Illustrator scripts 项目地址: https://gitcode.com/gh_mirrors/il/illustrator-scripts 还在为Adobe Illustrator中那些重复枯燥的操作而烦恼吗&#xff1…...

PM2-VSCode集成方案:在IDE内实现Node.js进程可视化与一键管理

1. 项目概述&#xff1a;一个为开发者定制的PM2-VSCode集成方案 如果你和我一样&#xff0c;长期在Node.js生态里摸爬滚打&#xff0c;那你对PM2这个进程管理器一定不陌生。它几乎成了Node.js应用在生产环境部署的“标配”&#xff0c;守护进程、负载均衡、日志管理&#xff0…...

如何用C语言实现拉格朗日定理:多项式插值的终极指南

如何用C语言实现拉格朗日定理&#xff1a;多项式插值的终极指南 【免费下载链接】C Collection of various algorithms in mathematics, machine learning, computer science, physics, etc implemented in C for educational purposes. 项目地址: https://gitcode.com/gh_mi…...

【Redis】Redis——过期键删除策略、内存淘汰8种策略、LRU/LFU实现

文章目录Redis——过期键删除、内存淘汰、LRU/LFU实现一、核心概念前置区分&#xff08;90%使用者的混淆点&#xff09;二、Redis 过期键删除策略2.1 过期键的底层存储2.2 行业通用的3种过期删除策略2.3 Redis 实际采用的组合策略&#xff08;惰性删除 定期删除&#xff09;2.…...

专业级GPU显存稳定性检测:5分钟掌握memtest_vulkan硬件测试完整指南

专业级GPU显存稳定性检测&#xff1a;5分钟掌握memtest_vulkan硬件测试完整指南 【免费下载链接】memtest_vulkan Vulkan compute tool for testing video memory stability 项目地址: https://gitcode.com/gh_mirrors/me/memtest_vulkan 在GPU硬件开发和系统维护领域&a…...

鲟龙科技冲刺港股:靠卖鱼子酱年营收7.7亿 王斌控制35%股权

雷递网 雷建平 5月6日杭州千岛湖鲟龙科技股份有限公司&#xff08;简称&#xff1a;“鲟龙科技”&#xff09;日前递交招股书&#xff0c;准备在港交所上市。鲟龙科技2023年、2024年及2025年分别宣派股息8160万元、零元及1.35亿元。截至最后实际可行日期&#xff0c;所有于往绩…...

AI编程工具全景指南:从GitHub Copilot到本地模型部署

1. 项目概述&#xff1a;AI编码工具的“Awesome”集合如果你是一名开发者&#xff0c;最近几个月可能和我有同样的感受&#xff1a;每天打开GitHub Trending或者Hacker News&#xff0c;首页上总能看到几个新的AI编程工具。从能帮你写整段函数的代码补全插件&#xff0c;到能根…...

ColabFold终极指南:如何在5分钟内免费预测蛋白质三维结构

ColabFold终极指南&#xff1a;如何在5分钟内免费预测蛋白质三维结构 【免费下载链接】ColabFold Making Protein folding accessible to all! 项目地址: https://gitcode.com/gh_mirrors/co/ColabFold 你是否曾好奇&#xff0c;仅凭一串氨基酸代码如何能"看见&quo…...

Go开发者必备:andrewstuart/openai库实战指南与最佳实践

1. 项目概述&#xff1a;一个为Go开发者打造的OpenAI API封装库如果你是一名Go开发者&#xff0c;正在寻找一个能让你快速、优雅地接入OpenAI强大AI能力&#xff08;比如ChatGPT、DALLE、Whisper&#xff09;的工具&#xff0c;那么andrewstuart/openai这个项目很可能就是你一直…...

隐私计算技术图谱:数据“可用不可见”的实现路径

一、隐私计算&#xff1a;平衡数据价值与安全的核心支点在数字经济时代&#xff0c;数据作为核心生产要素的价值愈发凸显&#xff0c;但数据安全与隐私保护的红线也愈发清晰。《数据安全法》《个人信息保护法》等一系列法规的落地&#xff0c;让数据流通与应用必须在合规的框架…...