Hive---拉链表
拉链表
文章目录
- 拉链表
- 定义
- 用途
- 案例
- 全量流程
- 增量流程
- 合并过程
- 第一步
- 第二步
- 第三步
- 案例二(含分区)
- 创建外部表orders
- 增量分区表
- 历史记录表
定义
拉链表是一种数据模型,主要是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。拉链表可以避免按每一天存储所有记录造成的海量存储问题,同时也是处理缓慢变化数据(SCD2)的一种常见方式。
用途
1.数据量比较大
2.表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等
3。需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态,比如,查看某一个用户在过去某一段时间内,更新过几次等等
4.变化的比例和频率不是很大,比如,总共有1000万的会员,每天新增和发生变化的有10万左右
5.如果对这边表每天都保留一份全量,那么每次全量中会保存很多不变的信息,对存储是极大的浪费
拉链历史表,既能满足反应数据的历史状态,又可以最大程度的节省存储
案例
全量流程
这里有张info表

通过sqoop导出到Hive的ODS层
日期:2021-09-26
start_time:2021-09-26(抽取时间)
表名:ods_info

增量流程
日期:2021-09-27
info表增加了一条数据并且数据进行了修改

sqoop导出
新增数据+更新数据 都要采集
select sid,sname,address,Create_time,Update_time from info where Create_time='2021-09-26' or Update_time='2021-09-26'
在ODS层再创建一张保存当天的新增和更新的数据
ods_info_new
表结构和ods_info一致

原始拉链表数据和更新的数据进行合并处理
也就是ods_info和ods_info_new进行合并处理

增量流程日期:2021-09-28
数据发生变化

sqoop导出
新增数据+更新数据 都要采集
select sid,sname,address,Create_time,Update_time from info where Create_time='2021-09-27' or Update_time='2021-09-27'
原表删除 ,建ods_info_new存放更改的数据

9.27拉链表数据和更新的数据进行合并处理
也就是ods_info和ods_info_new进行合并处理

这个整个过程就是拉链表的过程
合并过程

第一步
更改原始拉链表(ods_info)的数据
select
a.sid,
a.sname,
a.address,
a.Create_time,
a.Update-time,
a.Start_time
if(a.end_time=‘9999-12-31’ and b.sid is not null,b.start_time,a.end_time) as End_time
from ods_info a
left join ods_info_new b
on a.sid=b.sid
第二步
将left join 的结果和新增更新表(ods_info_new)进行union all 合并操作 保存在临时表中(ods_info_tmp)
第三步
将临时表(ods_info_tmp)覆盖到原始拉链表(ods_info)中 Insert overwrite ods_info select * from ods_info_tmp
insert into ods_info_tmp
from ((select sid, sname, address, Create_time, Update_time, Start_time, End_time from ods_info_new)union all(select a.sid,a.sname,a.address,a.Create_time,a.Update_time,a.Start_time,if(a.end_time = '9999-12-31' and b.sid is not null, b.start_time, a.end_time) as End_timefrom ods_info aleft join ods_info_new b on a.sid = b.sid));
insert overwrite table ods_info from ods_info_new;
案例二(含分区)
原始表数据

创建外部表orders
create external table orders(orderid int,createdate string,modifiedtime string,status string
)
row format delimited fields terminated by '\t'
location '/tmp/lalian/orders';
增量分区表
create table ods_orders_inc(orderid int,createdate string,modifiedtime string,status string
)
partitioned by (day string)
row format delimited fields terminated by '\t';
insert overwrite table ods_orders_inc partition (day='2023-03-03')
历史记录表
create table dws_orders_his(orderid int,createdate string,modifiedtime string,status string,start_time string,end_time string
)
row format delimited fields terminated by '\t';insert overwrite table dws_orders_his
select orderid,createdate,modifiedtime,status,modifiedtime,'9999-12-31' from ods_orders_inc where day='2023-03-03';
2023-03-04凌晨
ods_orders_inc 分区表 按日期分区
将orders数据导入到2023一03一03分区中
2023-03-05凌晨
原表数据发生更改

将orders数据导入到2023-03-04分区中
insert overwrite table ods_orders_inc partition(day='2023-03-04')
select orderid, createdate, modifiedtime, status
from orders
where modifiedtime='2023-3-4';
合并操作
select tb.orderid,tb.createdate,tb.modifiedtime,tb.status,tb.start_time,tb.end_timefrom(
(select orderid, createdate, modifiedtime,status,modifiedtime as start_time,'9999-12-31' as end_time
from ods_orders_inc where day='2023-03-04')
union all
(selectt1.orderid,t1.createdate,t1.modifiedtime,t1.status,t1.start_time,case when t2.orderid is not nulland t1.end_time >'2023-3-4' then '2023-3-4' else t1.end_time end end_time
from dws_orders_his as t1left join (select orderid from ods_orders_inc where day='2023-03-04') as t2 on t1.orderid=t2.orderid))tb
order by tb.orderid,tb.start_time;

2023-03-06凌晨
原表数据发生更改

将orders数据导入到2023-03-05分区中
insert overwrite table ods_orders_inc partition (day='2023-03-05')
select orderid,createdate,modifiedtime,status from orders
where modifiedtime='2023-3-5' or (createdate='2023-3-5' and modifiedtime='2023-3-5');
合并操作
select tb1.*
from ((select orderid, createdate, modifiedtime, status, modifiedtime start_time, '9999-12-31' end_timefrom ods_orders_incwhere day = '2023-03-05')union all(select t1.orderid,t1.createdate,t1.modifiedtime,t1.status,t1.start_time,`if`(t2.orderid is not null and t1.end_time > '2023-03-05', '2023-03-05', t1.end_time) end_timefrom dws_orders_his t1left join (select orderid, modifiedtimefrom ods_orders_incwhere day = '2023-03-05') t2 on t1.orderid = t2.orderid)) tb1 order by tb1.orderid,tb1.modifiedtime;

以此类推,整个过程即为拉链表
每日的用户更新表该怎么获取,有3种方式拿到或者间接拿到每日的用户增量,因为它比较重要,所以详细说明:
我们可以监听 Mysql 库数据的变化,比如说用 Canal,最后合并每日的变化,获取到最后的一个状态。
假设我们每天都会获得一份切片数据,我们可以通过取两天切片数据的不同来作为每日更新表,这种情况下我们可以对所有的字段先进行 concat,再取 md5,这样就 ok 了。
流水表!有每日的变更流水表。通过etl工具对操作型数据库按照时间字段增量抽取到ods或者数据仓库(每天抽取前一天的数据),形成每天的增量数据(实际中使用最多的情形)。
相关文章:
Hive---拉链表
拉链表 文章目录拉链表定义用途案例全量流程增量流程合并过程第一步第二步第三步案例二(含分区)创建外部表orders增量分区表历史记录表定义 拉链表是一种数据模型,主要是针对数据仓库设计中表存储数据的方式而定义的,顾名思义&am…...
日常文档标题级别规范
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注…...
C++学习记录——십이 vector
文章目录1、vector介绍和使用2、vector模拟实现insert和erase和迭代器失效补齐其他函数深浅拷贝难点思考1、vector介绍和使用 vector可以管理任意类型的数组,是一个表示可变大小数组的序列容器。 通过vector文档来看它的使用。 #include <iostream> #inclu…...
Lombok常见用法总结
目录一、下载和安装二、常见注释(一)Data(二)Getter和Setter(三)NonNull和NotNull(不常用)(四)ToString(不常用)(五&#…...
【Ajax】异步通信
一.概述 概念:AJAX(Asynchronous JavaScript And XML):异步的 JavaScript 和 XML 作用: 与服务器进行数据交换:通过AJAX可以给服务器发送请求,并获取服务器响应的数据 使用了AJAX和服务器进行通信,就可以使…...
近红外吸收荧光染料IR-808,IR-808 NH2,IR-808 amine,发射808nm 性质分享
中文名称:IR-808 氨基英文名称:IR-808 NH2,IR-808 amine,IR-808-NH2规格标准:10mg,25mg,50mgCAS:N/A产品描述:IR-808,发射808nm,酯溶性染料修饰氨…...
一图来看你需要拥有那些知识储备
技术实践 数据 关系型数据 MySQLSQLServerOraclePostgrSQLDB2 大数据存储 RedisMemcacheMongoDBHBaseHive 大数据处理 Hadoop 数据报表看板 DataGearGrafanaKibanaMetaBase 消息对列 Rabbit MQRock MQActive MQKafka 大数据搜索 SolrElasticSearchLucenHive 服务提…...
复位和时钟控制(RCC)
目录 复位 系统复位 电源复位 备份区复位 时钟控制 什么是时钟? 时钟来源 二级时钟源: 如何使用CubeMX配置时钟 复位 系统复位 当发生以下任一事件时,产生一个系统复位:1. NRST引脚上的低电平(外部复位) 2. 窗口看门狗计数终止(WWD…...
OpenWrt 专栏介绍00
文章目录OpenWrt 专栏介绍00专栏章节介绍关于联系方式OpenWrt 专栏介绍00 专栏章节介绍 本专栏主要从开发者角度,一步步深入理解OpenWrt开发流程,本专栏包含以下章节,内如如下: 01.OperWrt 环境搭建02.OperWrt 包管理系统03.Op…...
udk开发-稀里糊涂
一、EDK2简介 1.EDK2工作流 二、EDK2 Packages 1.Packages介绍 EDK2 Packages是一个容器,其中包含一组模块及模块的相关定义。每个Package是一个EDK2单元。 整个Project的源代码可以被分割成不同的Pkg。这样的设计不仅可以降低耦合性,还有利于分…...
Java之内部类
目录 一.内部类 1.什么是内部类 2.内部类存在的原因 3. 内部类的分类 4.内部类的作用 二.成员内部类 1.基本概念 2.成员内部类的注意点 1.成员内部类可以用private方法进行修饰 2.成员内部类可以直接访问外部类的私有属性 3.外部类可以通过对象访问内部类的私有属性 …...
【MyBatis】篇二.MyBatis查询与特殊SQL
文章目录1、MyBatis获取参数值case1-单个字面量类型的参数case2-多个字面量类型的参数case3-map集合类型的参数case4-实体类类型的参数case5-使用Param注解命名参数总结2、MyBatis的各种查询功能case1-查询结果是一个实体类对象case2-查询结果是一个List集合case3-查询单个数据…...
CE认证机构和CE证书的分类
目前,CE认证已普遍被应用在很多行业的商品中,也是企业商品进入欧洲市场的必备安全合格认证。在船舶海工行业中,也同样普遍应用,很多时候,对于规范中没有明确认证要求的设备或材料,而船舶将来还会去欧洲水域…...
Lesson 8.2 CART 分类树的建模流程与 sklearn 评估器参数详解
文章目录一、CART 决策树的分类流程1. CART 树的基本生长过程1.1 规则评估指标选取与设置1.2 决策树备选规则创建方法1.3 挑选最佳分类规则划分数据集1.4 决策树的生长过程2. CART 树的剪枝二、CART 分类树的 Scikit-Learn 快速实现方法与评估器参数详解1. CART 分类树的 sklea…...
【Unity】程序集Assembly模块化开发
笔者按:使用Unity版本为2021.3LTS,与其他版本或有异同。请仅做参考 一、简述。 本文是笔者在学习使用Unity引擎的过程中,产学研的一个笔记。由笔者根据官方文档Unity User Manual 2021.3 (LTS)/脚本/Unity 架构/脚本编译/程序集定义相关部分结…...
马尔可夫决策过程
1. 马尔可夫决策过程 马尔可夫决策过程不过是引入"决策"的马氏过程. Pij(a)P{Xn1j∣X0,a0,X1,a1,...,Xni,an1}P{Xnn1j∣Xni,ana}\begin{split} P_{ij}(a) & P\{X_{n1} j|X_0, a_0, X_1, a_1, ..., X_n i, a_n 1\} \\ &P\{X_n{n1} j|X_n i, a_n a\} \e…...
win11下载配置CIC Flowmeter环境并提取流量特征
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录前言一、下载CIC Flowmeter二、安装java、maven、gradle和IDEA1.java 1.82.maven3.gradle4.IDEA三、CICFlowMeter-master使用四、流量特征1.含义2.获取前言 配了一整…...
JDK如何判断自己是什么公司的
0x00 前言 因为一些事情,遇到了这样一个问题,JDK如何判断自己是什么公司编译的。因为不同的公司编译出来,涉及到是否商用收费的问题。 平时自己使用的时候,是不会考虑到JDK的编译公司是哪一个,都是直接拿起来用&#…...
大数据技术之HBase(二)HBase原理简介
一、HBase定义1.1 HBase定义HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库非结构化数据存储的数据库,基于列的模式存储。利用Hadoop HDFS作为其文件存储系统,写入性能很强,读取性能较差。利用Hadoop MapReduce来处理HBase中的…...
垒骰子(爆搜/DP)
动态规划方格取数垒骰子方格取数 题目描述 设有 NNN \times NNN 的方格图 (N≤9)(N \le 9)(N≤9),我们将其中的某些方格中填入正整数,而其他的方格中则放入数字 000。如下图所示(见样例): A0 0 0 0 0 0 0 00 0 13 0 …...
DFI Retail与SymphonyAI合作,共同推动人工智能驱动的销售能力
领先的亚洲零售商致力于借助统一、数据驱动的零售智能来巩固其商品规划基础亚洲领先零售商DFI Retail与全球垂直领域人工智能平台领军企业SymphonyAI合作启动了一项试点项目,以评估旨在提升企业商品规划能力的先进零售智能技术。该举措体现了DFI严谨且以客户为先的评…...
FreeCAD+AI实战:手把手教你用CAD-Assistant自动生成3D模型(附避坑指南)
FreeCADAI实战:手把手教你用CAD-Assistant自动生成3D模型(附避坑指南) 在传统CAD设计流程中,从手绘草图到可编辑的3D模型往往需要经历繁琐的描线、约束添加和参数调整。CAD-Assistant的出现彻底改变了这一局面——这款基于工具增强…...
进程与线程:操作系统中的“公司”与“员工”
进程与线程:操作系统中的“公司”与“员工”在操作系统的宏大叙事中,进程(Process)和线程(Thread)是两个最基础也最容易混淆的概念。很多初学者容易将它们混为一谈,认为它们只是“大任务”和“小…...
Leaflet 气象可视化实战:从风场、海浪到洋流的动态数据呈现
1. 气象数据可视化入门:为什么选择Leaflet? 第一次接触气象数据可视化时,我被各种专业GIS软件的门槛吓退了。直到发现Leaflet这个轻量级地图库,才真正体会到在网页上展示动态气象数据的乐趣。你可能不知道,全球超过60%…...
PyTorch 2.8镜像问题解决:常见CUDA内存不足、加载慢等故障排查指南
PyTorch 2.8镜像问题解决:常见CUDA内存不足、加载慢等故障排查指南 你是不是也遇到过这样的场景?在云端启动了一个全新的PyTorch 2.8镜像,准备大展身手训练模型,结果刚跑几行代码就弹出“CUDA out of memory”的红色警告。或者&a…...
Wan2.2-I2V-A14B参数详解:--duration --resolution --prompt最佳实践组合
Wan2.2-I2V-A14B参数详解:--duration --resolution --prompt最佳实践组合 1. 核心参数概述 Wan2.2-I2V-A14B文生视频模型提供了三个关键参数来控制视频生成效果: --duration:控制生成视频的时长(秒)--resolution&am…...
深度解析安科士1X9-1.25G-60Km光模块,为何能成为长距低速通信首选?
在光传输领域,中长距低速通信场景(如园区互联、工业现场组网、偏远站点通信)对光模块的核心需求集中在“稳定、长距、易运维”三大维度。不同于高速光模块追求极致带宽,这类场景更看重传输可靠性与适配性,而安科士1X9-…...
MySQL 事务锁等待问题定位方案
MySQL事务锁等待问题定位方案 在高并发数据库场景中,事务锁等待是导致性能下降甚至系统卡顿的常见问题。当多个事务同时竞争同一资源时,可能因锁冲突导致事务长时间阻塞,进而影响业务响应。如何快速定位并解决这类问题?本文将介绍…...
cvpr论文学习《Generative Image Dynamics》
2024年cvpr最佳论文https://arxiv.org/pdf/2309.07906 CVPR 2024的最佳论文《Generative Image Dynamics》提出了一种从单张静态图像生成逼真、连续运动视频的技术,其核心在于将运动建模在频域,并通过扩散模型进行预测。 下面这个流程图概括了它的核心工…...
使用Docker快速部署VLLM推理服务:从镜像拉取到OpenAI兼容API测试
基于Docker的VLLM推理服务全流程实战指南 在当今AI技术快速迭代的背景下,大语言模型(LLM)的推理效率成为决定应用体验的关键因素。VLLM作为专为LLM推理优化的开源框架,通过创新的PagedAttention技术和高效的内存管理,能够显著提升推理吞吐量。…...

