当前位置：首页 > news >正文

学习大数据DAY41 Hive 分区表创建

news 2026/5/17 11:27:37

分区表

分区表应用场景

oracle 分区表种类

oracle 分区-范围分区

oracle 分区-列表分区

oracle 分区-散列分区

oracle 分区-组合分区

oracle 分区-分区表操作

hive 分区-创建分区表

hive 分区-分区表操作

hive 分区-动态分区表配置

上机练习

分区表

分区是将一个表或索引物理地分解为多个更小、更可管理的部分。

分区对应用透明，即对访问数据库的应用而言，逻辑上讲只有一个表或一个

索引（相当于应用“看到”的只是一个表或索引），但在物理上这个表或索引可

能由数十个物理分区组成。

分区表应用场景

oracle 分区表种类

oracle 分区-范围分区

CREATE TABLE ORDER_ACTIVITIES

( ORDER_ID

NUMBER(7) NOT NULL,

ORDER_DATE

DATE,

TOTAL_AMOUNT NUMBER,

CUSTOTMER_ID NUMBER(7),

PAID

CHAR(1)

)

-- 建表语句不变

PARTITION BY RANGE (ORDER_DATE) -- 范围分区创建语句关键字

range( 列名 )

(

PARTITION ORD_ACT_PART01 VALUES LESS THAN (TO_DATE('01- MAY

-2003','DD-MON-YYYY')) TABLESPACE ORD_TS01,

-- 分区名（时间值）表空间

PARTITION

ORD_ACT_PART02

VALUES

LESS

THAN

(TO_DATE('01-JUN-2003','DD-MON-YYYY')) TABLESPACE ORD_TS02,

PARTITION ORD_ACT_PART02 VALUES LESS THAN (MAXVALUE) TABLESPACE

ORD_TS03

-- 使用 maxvalue 将其他不符合上述范围的值放入其中

);

oracle 分区-列表分区

CREATE TABLE ORDER_ACTIVITIES

( PROBLEM_ID

NUMBER(7) NOT NULL PRIMARY KEY,

CUSTOMER_ID NUMBER(7) NOT NULL,

STATUS

VARCHAR2(20))

PARTITION BY LIST (STATUS)

-- 范围分区创建语句关键字 LIST( 列

名 )

(

PARTITION PROB_ACTIVE

VALUES ('ACTIVE') TABLESPACE

PROB_TS01, --

PARTITION

PROB_INACTIVE

VALUES

('INACTIVE','unknow')

TABLESPACE PROB_TS02

);

oracle 分区-散列分区

CREATE TABLE HASH_TABLE

( COL NUMBER(8),

INF VARCHAR2(100)

)

PARTITION BY HASH (COL)

-- 范围分区创建语句关键字 HASH( 列名 )

(

PARTITION PART01 TABLESPACE HASH_TS01,

PARTITION PART02 TABLESPACE HASH_TS02,

PARTITION PART03 TABLESPACE HASH_TS03

)

oracle 分区-组合分区

CREATE TABLE SALES

(

PRODUCT_ID VARCHAR2(5),

SALES_DATE DATE,

SALES_COST NUMBER(10),

STATUS VARCHAR2(20)

)

PARTITION BY RANGE(SALES_DATE) SUBPARTITION BY LIST (STATUS) (

PARTITION

VALUES

LESS

THAN(TO_DATE('2003-01-01','YYYY-MM-DD'))TABLESPACE rptfact2009

(

SUBPARTITION

P1SUB1

VALUES

('ACTIVE')

TABLESPACE

rptfact2009,

SUBPARTITION

P1SUB2

VALUES

('INACTIVE')

TABLESPACE

rptfact2009

PARTITION

VALUES

LESS

THAN

(TO_DATE('2003-03-01','YYYY-MM-DD')) TABLESPACE rptfact2009

(

SUBPARTITION

P2SUB1

VALUES

('ACTIVE')

TABLESPACE

rptfact2009,

SUBPARTITION

P2SUB2

VALUES

('INACTIVE')

TABLESPACE

rptfact2009

)

oracle 分区-分区表操作

-- 添加分区

ALTER

TABLE

SALES

ADD

PARTITION

VALUES

LESS

THAN(TO_DATE('2003-06-01','YYYY-MM-DD'));

-- 注意：以上添加的分区界限应该高于最后一个分区界限。

-- 添加了一个 P3SUB1 子分区

ALTER TABLE SALES MODIFY PARTITION P3 ADD SUBPARTITION P3SUB1

VALUES('COMPLETE');

-- 删除分区

ALTER TABLE SALES DROP PARTITION P3;

ALTER TABLE SALES DROP SUBPARTITION P4SUB1;

-- 注意：如果删除的分区是表中唯一的分区，那么此分区将不能被删除，要想

删除此分区，必须删除表。

-- 交换分区

ALTER TABLE table_name EXCHANGE PARTITION partition_name WITH

TABLE nonpartition_name;

-- 将一个分区 ( 子分区 ) 和非分区表进行数据交换， oracle 交换的方法是其实是

对逻辑存储段进行交换。使用 INCLUDEING INDEXES 子句可以同步将本地索引

也进行交换，使用 WITH VALIDATATION 子句还可以实现行数据的验证。 -- 交换分区时如果不带 UPDATE INDEXES 子句，则全局索引或全局索引基于的

分区将变为不可用。

hive 分区-创建分区表

-- 创建分区表

create table dept_partition(

deptno int, dname string, loc string

)

partitioned by (day string)

row format delimited fields terminated by '\t';

hive 分区-分区表操作

-- 分区表数据导入

load data local inpath '/opt/module/hive/datas/dept_20200401.log'

into table dept_partition partition(day='20200401');

--select 分区表插入数据

insert into table log_list_6 partition(dat='20221231') select *

from log_list_tmp

-- 多表分区插入

from student

insert overwrite table student partition(month='201707')select

id, name where month='201707'

insert overwrite table student partition(month='201706')select

id, name where month='201706';

-- 查看分区

show partitions tab_name;

-- 添加分区

alter table dept_partition add partition(day='20200404') ;

-- 添加多分区

alter

table

dept_partition

add

partition(day='20200405')

partition(day='20200406');

-- 删除分区

alter table dept_partition drop partition (day='20200406');

-- 查看分区表信息

show partitions dept_partition;

-- 查看分区表结构

desc formatted dept_partition;

-- 修改分区表

ALTER TABLE table_name PARTITION (dt='2008-08-08') SET LOCATION

"new location"; ALTER TABLE table_name PARTITION (dt='2008-08-08') RENAME TO

PARTITION (dt='20080808');

hive 分区-动态分区表配置

-- 开启动态分区 ( 默认开启 )

set hive.exec.dynamic.partition=true

-- 指定非严格模式 nonstrict 模式表示允许所有的分区字段都可以使用动态

分区

set hive.exec.dynamic.partition.mode=nonstrict

-- 在所有执行 MR 的节点上，最大一共可以创建多少个动态分区。默认 1000

set hive.exec.max.dynamic.partitions=1000

-- 在每个执行 MR 的节点上，最大可以创建多少个动态分区 ( 分区字段有多少种

设多少个 )

set hive.exec.max.dynamic.partitions.pernode=100

-- 整个 MR Job 中，最大可以创建多少个 HDFS 文件。默认 100000

set hive.exec.max.created.files=100000

-- 当有空分区生成时，是否抛出异常

set hive.error.on.empty.partition=false

-- 打开正则查询模式 `(dt|hr)?+.+`

set hive.support.quoted.identifiers=none

上机练习

1 清洗超市数据 excel 为文本文件,按照分区字段对文件进行拆分

超市数据.xlsx:

import pandas as pd
XlsxFile="D:\智云大数据\数据源\超市\超市数据.xlsx"
XlsxRead=pd.read_excel(XlsxFile)
# 选择要分组的列
group_column = '细分'
# 按照指定列分组
grouped = XlsxRead.groupby(group_column)
# 遍历每个分组，并将每个分组保存为单独的 xlsx 文件
# group_name: 分组名称
# group_df: 分组数据
for group_name, group_df in grouped:
output_file = f'D:\智云大数据\{group_name}超市数据.txt'
group_df.to_csv(output_file,
header=False,index=False,sep='\t')
print("文件拆分完成")

2 创建一个分区表将文本文件分别插入到分区中

create table if not exists supermarket_p (id string, -- 行 ID
ord_id string comment '订单 ID',
ord_date string comment '订单日期',
exch_date string comment '发货日期',
exch_type string comment '邮寄方式',
cust_id string comment '客户 ID
',
cust_name string comment '客户名称',
d_type string comment '细分',
city string comment '城市',
prov string comment '省/自治区',
country string comment'国家',
area string comment '地区',
pro_id string comment '产品 ID',
type1 string comment '类别',
type2 string comment '子类别',
pro_name string comment '产品名称',
sales float comment '销售额',
count1 int comment '数量 ',
discount float comment '折扣 ',
profit float comment '利润'
)
partitioned by (cd_type string)
row format delimited fields terminated by '\t'
lines TERMINATED by '\n'load data local inpath '/root/公司超市数据.txt' into table
supermarket_p
partition(cd_type='company');
load data local inpath '/root/消费者超市数据.txt' into table supermarket_p
partition(cd_type='consumer');
load data local inpath '/root/小型企业超市数据.txt' into table
supermarket_p partition(cd_type='enterprise');

3 创建一个按订单时间分区的分区表 (year_ string, month string)

create table if not exists supermarket_p_ord_date (
id string, -- 行 ID
ord_id string comment '订单 ID',
--ord_date string comment '订单日期',
exch_date string comment '发货日期',
exch_type string comment '邮寄方式',
cust_id string comment '客户 ID
',
cust_name string comment '客户名称',
d_type string comment '细分',
city string comment '城市',
prov string comment '省/自治区',
country string comment'国家',
area string comment '地区',
pro_id string comment '产品 ID',
type1 string comment '类别',
type2 string comment '子类别',
pro_name string comment '产品名称',sales float comment '销售额',
count1 int comment '数量 ',
discount float comment '折扣 ',
profit float comment '利润'
)
partitioned by (ord_date_month string)
row format delimited fields terminated by '\t'
lines TERMINATED by '\n'

4 将第二部的数据使用动态分区的方法导入到第三步的表中

导入：

insert into table supermarket_p_ord_date partition(ord_date_month)
select id,ord_id,date_format(ord_date,'YYYY-MM') as
ord_date_month,exch_date,exch_type,cust_id,cust_name,d_type,city,prov,
country,area,pro_id,type1,
type2,pro_name,sales,count1,discount,profit
from supermarket_p;

今天的表

需要开启的

-开启动态分区(默认开启)
set hive.exec.dynamic.partition=true
--指定非严格模式 nonstrict 模式表示允许所有的分区字段都可以使用动态分区
set hive.exec.dynamic.partition.mode=nonstrict
--在所有执行 MR 的节点上，最大一共可以创建多少个动态分区。默认 1000
set hive.exec.max.dynamic.partitions=1000
--在每个执行 MR 的节点上，最大可以创建多少个动态分区(分区字段有多少种设多少个)
set hive.exec.max.dynamic.partitions.pernode=100
--整个 MR
Job 中，最大可以创建多少个 HDFS 文件。默认 100000
set hive.exec.max.created.files=100000
--当有空分区生成时，是否抛出异常
set hive.error.on.empty.partition=false
--打开正则查询模式`(dt|hr)?+.+`
set hive.support.quoted.identifiers=none

学习大数据DAY41 Hive 分区表创建

目录分区表分区表应用场景 oracle 分区表种类 oracle 分区-范围分区 oracle 分区-列表分区 oracle 分区-散列分区 oracle 分区-组合分区 oracle 分区-分区表操作 hive 分区-创建分区表 hive 分区-分区表操作 hive 分区-动态分区表配置上机练习分区表分区是将一…...

编程日记 2024/8/21 9:53:22

力扣 | 背包dp | 279. 完全平方数、518. 零钱兑换 II、474. 一和零、377. 组合总和 Ⅳ

文章目录一、279. 完全平方数二、518. 零钱兑换 II三、474. 一和零四、377. 组合总和 Ⅳ 一、279. 完全平方数 LeetCode：279. 完全平方数朴素想法： 这个题目最简单的想法是，可以用 O ( n n ) O(n\sqrt{}n) O(n n)的动态规划解决&#x…...

编程日记 2024/8/21 9:49:17

【ECMAScript性能优化的技巧与陷阱】

🎥博主：程序员不想YY啊 💫CSDN优质创作者，CSDN实力新星，CSDN博客专家 🤗点赞🎈收藏⭐再看💫养成习惯 ✨希望本文对您有所裨益，如有不足之处，欢迎在评论区提出…...

编程日记 2024/8/21 9:48:15

Swift实时监听判断是否连接有网络WIFI和蜂窝数据

本章节讲解如何使用swift连接网络，实时的监听到网络的状态，在主界面中进行调用，网络包含Wi-Fi 和蜂窝。 1.封装一个判断是否有网络的类 2.在封装类注册通知 3.主界面接收注册通知，并且调用封装的网络类 4.成功测试，有…...

编程日记 2024/8/21 9:47:14

（三）Flink Source 数据源

Flink 数据源主要分为内置数据源和第三方数据源。其中内置数据源包含文件、Socket 连接、集合类型数据等，不需要引入其它依赖库。第三方数据源定义了 Flink 和外部系统数据交互的逻辑，Flink 提供了非常丰富的数据源连接器，例如 Kafka、Elasticsearch、RabbitMQ、JDBC 等。 …...

编程日记 2024/8/21 9:46:13

第四届机电一体化、自动化与智能控制国际学术会议（MAIC 2024）

目录大会官网会议简介组织机构大会主席程序委员会主席主讲嘉宾征稿主题参会说明大会官网 http://www.icmaic.org 会议简介第四届机电一体化、自动化与智能控制国际学术会议（MAIC 2024）将于2024年9月27-29日在中国成都召开。MAIC 20…...

编程日记 2024/8/21 9:44:11

leetcode 089 打家劫舍

leetcode 089 打家劫舍题目一个专业的小偷，计划偷窃沿街的房屋。每间房内都藏有一定的现金，影响小偷偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统，如果两间相邻的房屋在同一晚上被小偷闯入，系统会自动报警。给定…...

编程日记 2024/8/21 9:43:10

等保测评基础知识（六）

《计算机病毒防治管理办法》51号令第十四条　从事计算机设备或者媒体生产、销售、出租、维修行业的单位和个人，应当对计算机设备或者媒体进行计算机病毒检测、清除工作，并备有检测、清除的记录。第十九条　计算机信息系统的使用单位有下列行为之一的，由公安机关处以警告…...

编程日记 2024/8/21 9:42:08

作业帮 TiDB 7.5.x 使用经验

作者： 是我的海原文来源： https://tidb.net/blog/5f9784d3 近期在使用 TiDB 时遇到的一些小问题的梳理总结，大部分版本都在6.5.6和7.5.2 1、limit 导致的扫描量过大的优化研发定时任务每天需要扫描大量数据，到时机器网卡被…...

编程日记 2024/8/21 9:40:06

1.输出Helloword /*输出Helloword*/ #include<stdio.h> int main() {printf("Hello word!");return 0; }2.整型变量的定义与使用 /*整型变量的定义与使用*/ #include <stdio.h> int main() {int a;int b;a 10;b 20;int c a b;int d a - b;printf(…...

编程日记 2024/8/21 9:39:05

嵌入式开发就业方向有哪些？前景未来可期！

在科技日新月异的今天，嵌入式系统几乎渗透到了我们生活的各个角落。从简单的家用电器到复杂的工业自动化设备，再到我们手中的智能手机，无一不体现出嵌入式技术的魅力。因此，嵌入式领域的就业前景广阔，为众多求职者提供…...

编程日记 2024/8/21 9:37:03

系列:水果甜度个人手持设备检测-github等开源库和方案

系列:水果甜度个人手持设备检测 -- github等开源库和方案概述通常来说，年纪轻轻的我们一般都喜欢走捷径，对于智能设备和算法软件领域来说，GitHub应该算为数不多的的捷径之一。就算因为效果不好/知识产权/方向不同等原因不用，…...

编程日记 2024/8/21 9:32:59

Visual Studio中生成版本号

Visual Stuodio WPF项目自动生成版本号生成递增版本号软件版本号主要标识了软件的版本，通过其可以了解软件、类库文件的当前版本，使得软件版本控制有所依据。我们也可以在项目属性上可以看到相关设置的界面，对应的英文名称分别为&#…...

编程日记 2024/8/21 9:31:58

AI入门指南(四)：分类问题、回归问题、监督、半监督、无监督学习是什么？

文章目录一、前言二、分类问题、回归问题是什么？分类问题概念常见算法分类问题的实际应用：银行贷款审批案例回归问题概念常见算法回归问题实际应用：线性回归模型预测房价小结三、监督、半监督、非监督学习是什么？监督学习非监…...

编程日记 2024/8/21 9:27:53

Linux下本地端口转发

在Linux下进行本地端口转发处理，可以进行如下操作： 1.确认NetFilter相关驱动编译到内核，并且CONFIG_IP_NF_TARGET_REDIRECTy； 2.开启转发功能：echo 1 > /proc/sys/net/ipv4/ip_forward； 3.设置转发规…...

编程日记 2024/8/21 9:24:50

RPC 和 HTTP 理解

网上充斥着各类类似于这样的文章：rpc 比 http 快了多少倍？既然有了 http，为什么还要用 rpc 调用等等。遇到这类文章，说明对 http 和 rpc 是由理解误区的。这里再次重复强调一遍，通信协议不是 rpc 最重要的部分&#x…...

编程日记 2024/8/21 9:23:49

Visual Studio 2022 v17.11 发布

Visual Studio 2022 版本 17.11 正式发布 (GA)，此版本主要是基于用户反馈的各项改进。 “每项增强、每项修复和每项新功能均根据你的反馈而制定。无论你是在构建 Web、桌面、云还是游戏应用程序，Visual Studio 2022 v17.11 都旨在让你的开发体验更流畅、…...

编程日记 2024/8/21 9:22:48

通讯专题-RS232

1 概述 RS-232是一种点对点通信协议，这意味着每个数据信号沿一根导线传输（差分信号使用两根导线传输一个数据信号），RS-232为全双工方式运行（总线可同时发送和接收数据）。根据新修订的标准为容性负载为2500…...

编程日记 2024/8/21 9:21:47

桥接模式详解

桥接模式概念: 将抽象部分和实现部分分离, 使他们都可以独立的变化概念很抽象, 难以理解, 我们举个例子例子设想三种不同品牌的汽车大车中车小车三种不同类型的引擎纯电引擎混动引擎燃油引擎如果我们把他们两两组合, 都继承同一个类的话,就会有9个类, 并且如果后…...

编程日记 2024/8/21 9:20:46

美国不断自我革新的历史，为这个国家面对充满巨大机遇却又充满不确定性的未来提供了引人深思的经验教训

https://www.mckinsey.com/mgi/our-research/At-250-sustaining-Americas-competitive-edge 美国不断自我革新的历史，为这个国家面对充满巨大机遇却又充满不确定性的未来提供了引人深思的经验教训这一切始于一场惊天动地的反抗行动。 1776年7月，来自13…...

编程新知 2026/5/17 10:55:31

柔性LED灯丝DIY：从电路原理到创意饰品制作全攻略

1. 项目概述：当生日遇上柔性LED灯丝给孩子的生日派对准备一份独一无二的、会发光的惊喜，是很多家长和手工爱好者的心愿。这次，我们不买现成的塑料灯牌，而是亲手做一个能戴在头上或挂在脖子上的“生日数字灯冠”。这个项目的核心&a…...

编程新知 2026/5/17 10:10:09

别再只盯着wx.login了！SpringBoot后端实战：用getPhoneNumber接口搞定小程序用户手机号绑定

微信小程序用户手机号绑定：SpringBoot后端深度实践指南在当今移动互联网生态中，微信小程序已成为连接用户与服务的重要桥梁。对于需要强实名认证或直接触达用户的业务场景（如电商交易、金融服务、政务办理等），仅依赖w…...

编程新知 2026/5/17 9:53:09

终极指南：如何使用Autoclick实现Mac自动点击900次/秒

终极指南：如何使用Autoclick实现Mac自动点击900次/秒【免费下载链接】Autoclick A simple Mac app that simulates mouse clicks 项目地址: https://gitcode.com/gh_mirrors/au/Autoclick 你是否厌倦了重复性的鼠标点击工作？无论是游戏中的重复操…...

编程新知 2026/5/17 9:48:58

Windows Cleaner终极指南：三步告别C盘爆红，让电脑运行如飞！

Windows Cleaner终极指南：三步告别C盘爆红，让电脑运行如飞！ 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服！ 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 还在为Windows系统…...

编程新知 2026/5/17 7:55:57

Scarab空洞骑士模组管理器：2024年最完整的安装与使用指南

Scarab空洞骑士模组管理器：2024年最完整的安装与使用指南【免费下载链接】Scarab An installer for Hollow Knight mods written with Avalonia. 项目地址: https://gitcode.com/gh_mirrors/sc/Scarab 还在为空洞骑士模组安装的复杂流程而烦恼吗&#xff1f…...

编程新知 2026/5/17 7:31:49

GitClaw：基于Go的轻量级Git钩子服务器与集中式权限管理方案

1. 项目概述与核心价值如果你是一名开发者，尤其是经常在团队协作中处理Git仓库的工程师，那么你一定对“权限管理”这四个字又爱又恨。爱的是它能保障代码安全，恨的是它配置起来繁琐，尤其是在处理跨项目、跨团队的复杂权限矩阵时。…...

编程新知 2026/5/17 7:11:58

如何3分钟搭建智能手机号定位系统：免费归属地查询终极指南

如何3分钟搭建智能手机号定位系统：免费归属地查询终极指南【免费下载链接】location-to-phone-number This a project to search a location of a specified phone number, and locate the map to the phone number location. 项目地址: https://gitcode.com/gh_…...

编程新知 2026/5/17 7:11:58