数据仓库之缓慢变化维
缓慢变化维(Slowly Changing Dimensions, SCD)是数据仓库设计中的一个重要概念,用于处理维度表中随时间缓慢变化的属性。维度表中的数据通常描述业务实体(如客户、产品、员工等),而这些实体的某些属性(如地址、名称、职位等)会随时间变化。根据处理这些变化的策略,缓慢变化维通常分为以下几种类型:
SCD 类型
-
SCD Type 0(固定维度)
- 描述:属性值一旦加载到维度表中,就不会发生变化。
- 用途:用于那些不应该被更新的数据,如历史记录或监管要求的数据。
- 优点:实现简单,不需要处理数据变化。
- 缺点:不能反映任何属性变化,使用场景有限。
-
SCD Type 1(覆盖更新)
- 描述:每当维度属性发生变化时,直接用新值覆盖旧值。
- 用途:适用于不需要保留历史记录的情况。
- 优点:实现简单,查询性能好。
- 缺点:无法追踪历史变化,旧数据会丢失。
- 示例:
- 旧记录:客户ID: 123, 地址: "旧地址"
- 新记录:客户ID: 123, 地址: "新地址"(覆盖旧地址)
-
SCD Type 2(增加版本)
- 描述:当维度属性发生变化时,为该维度创建一个新版本记录,同时保留历史记录。
- 用途:适用于需要追踪历史变化的情况。
- 优点:能够完整记录历史变化,适合分析数据随时间的变化趋势。
- 缺点:需要额外的存储空间,查询复杂度增加。
- 实现:
- 添加新列:开始日期(Start Date)、结束日期(End Date)或增加一个版本号列。
- 示例:
- 旧记录:客户ID: 123, 地址: "旧地址", 开始日期: 2020-01-01, 结束日期: 2021-01-01
- 新记录:客户ID: 123, 地址: "新地址", 开始日期: 2021-01-01, 结束日期: NULL(当前版本)
-
SCD Type 3(增加字段)
- 描述:为属性的每次变化增加新的字段来存储旧值和当前值。
- 用途:适用于只需要追踪最近一次变化的情况。
- 优点:查询简单,能够反映最近一次变化。
- 缺点:只能保留有限的历史记录,不适合频繁变化的属性。
- 示例:
- 记录:客户ID: 123, 当前地址: "新地址", 旧地址: "旧地址"
-
SCD Type 4(外部历史表)
- 描述:将历史变化存储在一个独立的历史表中,而维度表中只存储当前值。
- 用途:适用于需要完整历史记录,但不影响查询性能的情况。
- 优点:当前值查询性能好,历史记录完整。
- 缺点:需要维护额外的历史表,查询历史数据较复杂。
- 实现:
- 两个表:主维度表(存储当前值),历史表(存储所有历史变化)。
- 示例:
- 主维度表:客户ID: 123, 当前地址: "新地址"
- 历史表:客户ID: 123, 地址: "旧地址", 有效日期: 2020-01-01 至 2021-01-01
-
SCD Type 6(混合类型)
- 描述:结合 Type 1、Type 2 和 Type 3 的特点,综合应用。
- 用途:适用于需要部分覆盖更新、部分历史追踪的情况。
- 优点:灵活性高,能够根据业务需求灵活选择处理策略。
- 缺点:实现复杂,维护成本高。
- 示例:
- 记录:客户ID: 123, 当前地址: "新地址", 旧地址: "旧地址", 版本号: 2, 开始日期: 2021-01-01, 结束日期: NULL
实施 SCD 的步骤
- 识别维度变化:确定哪些维度表的哪些属性会发生变化。
- 选择 SCD 类型:根据业务需求选择合适的 SCD 类型。
- 设计表结构:根据选择的 SCD 类型设计维度表结构,包括必要的字段(如版本号、开始日期、结束日期等)。
- 实现 ETL 过程:编写 ETL 脚本处理数据变化,确保数据按照设计的 SCD 类型更新。
- 测试和验证:验证数据变化的处理是否符合预期,确保历史记录的准确性和完整性。
- 持续监控和维护:定期监控数据变化,维护 ETL 脚本,确保数据仓库的稳定运行。
例子:SCD Type 2 的实现
假设我们有一个客户维度表,需要追踪客户地址的历史变化。
初始客户维度表
客户ID(Customer ID) | 客户姓名(Customer Name) | 地址(Address) | 开始日期(Start Date) | 结束日期(End Date) |
---|---|---|---|---|
123 | 张三 | 旧地址 | 2020-01-01 | NULL |
地址变更后的客户维度表
客户ID(Customer ID) | 客户姓名(Customer Name) | 地址(Address) | 开始日期(Start Date) | 结束日期(End Date) |
---|---|---|---|---|
123 | 张三 | 旧地址 | 2020-01-01 | 2021-01-01 |
123 | 张三 | 新地址 | 2021-01-01 | NULL |
通过上述表结构和数据更新方式,可以实现对客户地址历史变化的完整记录。
总结来说,缓慢变化维(SCD)是数据仓库设计中的关键技术,用于处理维度表中属性的变化。根据业务需求选择合适的 SCD 类型,可以有效地管理数据变化,提供高效的数据分析和决策支持。
相关文章:
数据仓库之缓慢变化维
缓慢变化维(Slowly Changing Dimensions, SCD)是数据仓库设计中的一个重要概念,用于处理维度表中随时间缓慢变化的属性。维度表中的数据通常描述业务实体(如客户、产品、员工等),而这些实体的某些属性&…...

跑mask2former(自用)
1. 运行docker 基本命令: sudo docker ps -a (列出所有容器状态) sudo docker run -dit -v /hdd/lyh/mask2former:/mask --gpus "device0,1" --shm-size 16G --name mask 11.1:v6 (创建docker容器&…...

Linux日志服务rsyslog深度解析(上)
🐇明明跟你说过:个人主页 🏅个人专栏:《Linux :从菜鸟到飞鸟的逆袭》🏅 🔖行路有良友,便是天堂🔖 目录 一、引言 1、日志在Linux系统中的作用 2、rsyslog历史背景 …...
python的df.describe()函数
一、初识describe()函数 在数据分析和处理的过程中,我们经常需要了解数据的基本统计信息,如均值、标准差、最小值、最大值等。pandas库中的describe()函数为我们提供了这样的功能,它可以快速生成数据集的描述性统计信息。 二、describe()函数的基本用法 describe()函数是pan…...
Feign的介绍与说明
Feign是Spring Cloud提供的一个声明式、模板化的HTTP客户端,旨在使编写Java HTTP客户端变得更容易。它的设计目标是让Web服务调用变得更加简单,无论是在本地还是在远程。使用Feign,开发者可以像调用本地服务一样调用远程服务,提供…...

【Linux】用户和组的管理、综合实训
目录 实训1:用户的管理 实训2:组的管理 实训3:综合实训 实训1:用户的管理 (1)创建一个新用户userl,设置其主目录为/home/user 1。 (2)查看/etc/passwd 文件的最后一行,看看是如何记录的。 (3)查看文件/etc/shadow文件的最后一…...

B=2W,奈奎斯特极限定理详解
一直没搞明白奈奎斯特极限定理的含义,网上搜了很久也没得到答案。最近深思几天后,终于有了点心得。顺便吐槽一下,csdn的提问栏目,有很多人用chatgpt秒回这个事,实在是解决不了问题,有时候人的问题大多数都是…...

【Pytorch 】Dataset 和Dataloader制作数据集
文章目录 Dataset 和 Dataloader定义Dataset定义Dataloader综合案例1 导入两个列表到Dataset综合案例2 导入 excel 到Dataset综合案例3 导入图片到Dataset导入官方数据集Dataset 和 Dataloader Dataset指定了数据集包含了什么,可以是自定义数据集,也可以是以及官方数据集Data…...

[Algorithm][动态规划][两个数组的DP][正则表达式匹配][交错字符串][两个字符串的最小ASCII删除和][最长重复子数组]详细讲解
目录 1.正则表达式匹配1.题目链接2.算法原理详解3.代码实现 2.交错字符串1.题目链接2.算法原理详解3.代码实现 3.两个字符串的最小ASCII删除和1.题目链接2.算法原理详解3.代码实现 4.最长重复子数组1.题目链接2.算法原理详解3.代码实现 1.正则表达式匹配 1.题目链接 正则表达…...

Ffmpeg安装和简单使用
Ffmpeg安装 下载并解压 进入官网 (https://ffmpeg.org/download.html),选择 Window 然后再打开的页面中下滑找到 release builds,点击 zip 文件下载 环境变量配置 下载好之后解压,找到 bin 文件夹,里面有3个 .exe 文件 然后复制…...
29、matlab算数运算汇总2:加、减、乘、除、幂、四舍五入
1、乘法:times, .* 语法 C A.*B 通过将对应的元素相乘来将数组 A 和 B 相乘。 C times(A,B) 是执行 A.*B 的替代方法, 1)将两个向量相乘 代码及运算 A [1 0 3]; B [2 3 7]; C A.*BC 2 0 212) 将两个数组相乘 代码及运算 A [1 0 3;…...

<Rust><iced>基于rust使用iced库构建GUI实例:动态改变主题色
前言 本专栏是Rust实例应用。 环境配置 平台:windows 软件:vscode 语言:rust 库:iced、iced_aw 概述 本篇构建了这样的一个实例,可以动态修改UI的主题,通过菜单栏来选择预设的自定义主题和官方主题&#…...

k8s——安全机制
一、安全机制说明 Kubernetes作为一个分布式集群的管理工具,保证集群的安全性是其一个重要的任务。API Server是集群内部各个组件通信的中介, 也是外部控制的入口。所以Kubernetes的安全机制基本就是围绕保护API Server来设计的。 比如 kubectl 如果想…...

Linux驱动应用编程(三)UART串口
本文目录 前述一、手册查看二、命令行调试串口1. 查看设备节点2. 使用stty命令设置串口3. 查看串口配置信息4. 调试串口 三、代码编写1. 常用API2. 例程线程优化 前述 在开始实验前,请一定要检查测试好所需硬件是否使用正常,不然调试过程中出现的问题&am…...

【设计模式深度剖析】【4】【行为型】【策略模式】
文章目录 策略模式定义英文原话直译 角色类图策略接口Strategy:具体策略类上下文类Context测试类 策略模式的应用策略模式的优点策略模式的缺点策略模式的使用场景 策略模式 策略模式(Strategy Pattern) Strategy策略也称作Policy政策。 想…...

opencv dnn模块 示例(26) 目标检测 object_detection 之 yolov10
文章目录 1、yolov10简要介绍1.1、双标签分配策略1.2、架构改进1.3、性能1.4、预训练模型1.5、网络有关层说明 2、测试2.1、官方测试2.2、opencv dnn2.2.1、仅运行到内部"NMS"步骤之前的层2.2.2、完整代码2.2.2、完整实现所有层 2.3、onnxruntime测试2.4、tensorrt 1…...

【python进阶】python图形化编程之美--tkinter模块初探
✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…...

discuz点微同城源码34.7+全套插件+小程序前端
discuz点微同城源码34.7全套插件小程序前后端 模板挺好看的 带全套插件 自己耐心点配置一下插件 可以H5可以小程序...

ActiveMQ 介绍、下载、安装和控制台
ActiveMQ 介绍 Apache ActiveMQ 是一款非常成熟且功能全面的开源消息中间件,由Apache软件基金会维护。它遵循 Java Message Service (JMS) 规范,这意味着它提供了一组标准的 API,允许 Java 应用程序以一种标准化的方式发送和接收消息。 以下…...

MacOS M系列芯片一键配置多个不同版本的JDK
第一步:下载JDK。 官网下载地址:Java Archive | Oracle 选择自己想要下载的版本,一般来说下载一个jdk8和一个jdk11就够用了。 M系列芯片选择这两个,第一个是压缩包,第二个是dmg可以安装的。 第二步:编辑…...

日语AI面试高效通关秘籍:专业解读与青柚面试智能助攻
在如今就业市场竞争日益激烈的背景下,越来越多的求职者将目光投向了日本及中日双语岗位。但是,一场日语面试往往让许多人感到步履维艰。你是否也曾因为面试官抛出的“刁钻问题”而心生畏惧?面对生疏的日语交流环境,即便提前恶补了…...
【解密LSTM、GRU如何解决传统RNN梯度消失问题】
解密LSTM与GRU:如何让RNN变得更聪明? 在深度学习的世界里,循环神经网络(RNN)以其卓越的序列数据处理能力广泛应用于自然语言处理、时间序列预测等领域。然而,传统RNN存在的一个严重问题——梯度消失&#…...
【磁盘】每天掌握一个Linux命令 - iostat
目录 【磁盘】每天掌握一个Linux命令 - iostat工具概述安装方式核心功能基础用法进阶操作实战案例面试题场景生产场景 注意事项 【磁盘】每天掌握一个Linux命令 - iostat 工具概述 iostat(I/O Statistics)是Linux系统下用于监视系统输入输出设备和CPU使…...
Golang dig框架与GraphQL的完美结合
将 Go 的 Dig 依赖注入框架与 GraphQL 结合使用,可以显著提升应用程序的可维护性、可测试性以及灵活性。 Dig 是一个强大的依赖注入容器,能够帮助开发者更好地管理复杂的依赖关系,而 GraphQL 则是一种用于 API 的查询语言,能够提…...
五年级数学知识边界总结思考-下册
目录 一、背景二、过程1.观察物体小学五年级下册“观察物体”知识点详解:由来、作用与意义**一、知识点核心内容****二、知识点的由来:从生活实践到数学抽象****三、知识的作用:解决实际问题的工具****四、学习的意义:培养核心素养…...
spring:实例工厂方法获取bean
spring处理使用静态工厂方法获取bean实例,也可以通过实例工厂方法获取bean实例。 实例工厂方法步骤如下: 定义实例工厂类(Java代码),定义实例工厂(xml),定义调用实例工厂ÿ…...
论文解读:交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(一)
宇树机器人多姿态起立控制强化学习框架论文解析 论文解读:交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(一) 论文解读:交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化…...
根据万维钢·精英日课6的内容,使用AI(2025)可以参考以下方法:
根据万维钢精英日课6的内容,使用AI(2025)可以参考以下方法: 四个洞见 模型已经比人聪明:以ChatGPT o3为代表的AI非常强大,能运用高级理论解释道理、引用最新学术论文,生成对顶尖科学家都有用的…...
Xen Server服务器释放磁盘空间
disk.sh #!/bin/bashcd /run/sr-mount/e54f0646-ae11-0457-b64f-eba4673b824c # 全部虚拟机物理磁盘文件存储 a$(ls -l | awk {print $NF} | cut -d. -f1) # 使用中的虚拟机物理磁盘文件 b$(xe vm-disk-list --multiple | grep uuid | awk {print $NF})printf "%s\n"…...

基于TurtleBot3在Gazebo地图实现机器人远程控制
1. TurtleBot3环境配置 # 下载TurtleBot3核心包 mkdir -p ~/catkin_ws/src cd ~/catkin_ws/src git clone -b noetic-devel https://github.com/ROBOTIS-GIT/turtlebot3.git git clone -b noetic https://github.com/ROBOTIS-GIT/turtlebot3_msgs.git git clone -b noetic-dev…...