dbt snapshot命令及应用示例
DBT是一种功能强大的数据转换工具,它使数据分析师和工程师能够更有效地转换仓库中的数据。dbt的一个关键特性是能够创建快照,这是跟踪数据随时间变化的一种方法。本文带你一起完成创建和使用dbt快照的过程。
理解缓慢变化维度
缓慢变化维度(scd)是数据仓库中的概念,指的是数据(通常为主数据)随时间缓慢变化方式。它们被称为“缓慢变化”,因为这些变化相对不经常发生,如客户的地址或产品的分类,但这些变化的影响对数据分析来说可能是重大的。
scd通常分为三种类型:
- 类型1: 这种方法用新数据覆盖旧数据,因此不保留历史记录。
- 类型2: 这种方法使用新数据添加新记录,并将旧记录保留为历史数据。这是最常见的SCD类型,也是dbt快照实现的SCD类型。
- 类型3: 这种方法为新数据添加新列,并在原始列中保留旧数据。这种类型不太常见,只在需要查看更改进展的情况下使用。
dbt快照与scd的概念直接相关,特别是类型2 scd。dbt中的快照是一种跟踪数据随时间变化的方法,可以有效地创建每行数据的版本历史记录。创建快照时,dbt将元数据列添加到数据中,包括dbt_valid_from
和dbt_valid_to
,它们表示记录的特定版本有效的时间范围。
这种机制允许dbt快照实现类型2 scd。当源数据发生更改时,dbt不是覆盖现有记录(类型1)或添加新列(类型3),而是添加带有新数据的新记录(类型2)。快照表中的dbt_valid_from
和dbt_valid_to
列表示记录的每个版本何时有效,从而允许您跟踪一段时间内更改的完整历史。
实战案例
创建dbt 快照模型
dbt中的快照模型是一种特殊的模型,用于跟踪数据随时间的变化。要创建快照模型,需要在dbt项目的snapshots
目录中创建一个新文件。这个文件应该包含一个snapshots
块,并定义快照的配置。
下面是一个快照模型的例子,它跟踪用户表中的变化:
{% snapshot users_snapshot %} {{config( target_schema='snapshots', strategy='timestamp', unique_key='id', updated_at='updated_at' )
}} select * from raw.users{% endsnapshot %}
在本例中,策略被设置为timestamp
,这意味着dbt将基于updated_at
列跟踪更改。unique_key
设置为id
,这是用户表中每一行的唯一标识符。
理解快照策略
在dbt中,创建快照有两种主要策略:时间戳策略和检查策略。
- 时间戳策略
时间戳策略用于源数据包含时间戳列的情况,该列在记录更改时进行更新。在这种策略中,只要时间戳列比上一次运行快照的时间更近,dbt就会创建一个新的快照记录。当您希望根据更改发生的时间跟踪更改时,此策略非常有用。您可以在前一段中看到时间戳策略的示例。
- 检查策略
另一方面,当希望根据特定列的值跟踪更改时,可以使用check策略。在此策略中,只要指定列中的值与上次运行快照时不同,dbt就会创建新的快照记录。如果希望根据更改内容而不是更改时间来跟踪更改时,此策略非常有用。
下面是一个使用check策略的快照配置示例:
{% snapshot users_snapshot %} {{ config( target_schema='snapshots', strategy='check', unique_key='id', check_cols=['status'] )
}} select *
from raw.users{% endsnapshot %}
在本例中,当用户的**status
** 列发生变化时,dbt将创建新的快照记录。为快照选择正确的策略取决于源数据的性质和用例的特定需求。
运行快照模型
一旦创建了快照模型,就可以使用dbt snapshot
命令运行它。该命令将执行dbt项目中的所有快照模型,并在数据仓库中创建了新的快照表。
以下是运行快照模型的方法:
dbt snapshot
运行此命令后,您应该在snapshot模式(或在快照配置中指定的目标模式)下的数据仓库中看到新创建的快照表。
快照模型数据
dbt创建的快照表包含数据的完整历史记录,每行表示记录的不同版本。现状可以查询此表,以查看数据随时间的变化情况。
下面是查询示例,显示了对users表状态列的所有更改:
select id, status, dbt_valid_from, dbt_valid_to
from snapshots.users_snapshot
order by id, dbt_valid_from;
该查询将返回一个结果集,其中显示每个status
值何时对每个用户有效。
高级快照技术
除了基本的快照功能之外,dbt还提供了一些高级特性,可以帮助您更有效地管理快照。例如,可以使用invalidate_hard_deletes
配置选项来跟踪已从源数据中删除的记录。
以下是如何修改前节的示例快照模型来跟踪硬删除:
{% snapshot users_snapshot %} {{ config( target_schema='snapshots', strategy='timestamp', unique_key='id', updated_at='updated_at', invalidate_hard_deletes=True )
}} select *
from raw.users{% endsnapshot %}
通过这种配置,dbt将为从users表中删除的每条记录在快照表中创建新记录行,dbt_valid_to列设置为删除的时间戳。
最佳实践指南
在使用dbt快照时,您应该遵循以下几个最佳实践:
- 保持简单: 避免在快照模型中添加复杂的逻辑或连接。如果需要可以在创建快照之后,在下游模型中实现这些逻辑。
- 为快照配置独立schema: 这样更容易区分快照表和数据仓库中其他类型的表。
- 确保unique键的唯一性: 在快照配置中指定的unique键应该唯一地标识源数据中的每条记录。
总结
DBT快照是跟踪数据随时间变化的强大工具。通过学习本教程,现在应该对如何创建和使用dbt快照有了较好的理解。期待您的真诚反馈,更多内容请阅读数据分析工程专栏。
相关文章:

dbt snapshot命令及应用示例
DBT是一种功能强大的数据转换工具,它使数据分析师和工程师能够更有效地转换仓库中的数据。dbt的一个关键特性是能够创建快照,这是跟踪数据随时间变化的一种方法。本文带你一起完成创建和使用dbt快照的过程。 理解缓慢变化维度 缓慢变化维度(scd)是数据仓…...

JavaEE: 深入探索TCP网络编程的奇妙世界(四)
文章目录 TCP核心机制TCP核心机制四: 滑动窗口为啥要使用滑动窗口?滑动窗口介绍滑动窗口出现丢包咋办? TCP核心机制五: 流量控制 TCP核心机制 书接上文~ TCP核心机制四: 滑动窗口 为啥要使用滑动窗口? 之前我们讨论了确认应答策略,对每一个发送的数据段,都要给一个ACK确…...

面试金典题2.3
若链表中的某个节点,既不是链表头节点,也不是链表尾节点,则称其为该链表的「中间节点」。 假定已知链表的某一个中间节点,请实现一种算法,将该节点从链表中删除。 例如,传入节点 c(位于单向链…...

React 知识框架
在学习 React 时,可以按照以下知识框架来逐步学习和掌握 React 相关的知识: 1. **基础概念**: - 了解什么是 React 和为什么要使用 React。 - 理解 Virtual DOM(虚拟 DOM)的概念以及它如何提高性能。 - 学习…...

DeepCross模型实现推荐算法
1. 项目简介 A032-DeepCross项目是一个基于深度学习的推荐算法实现,旨在解决个性化推荐问题。随着互联网平台上信息和内容的爆炸式增长,用户面临着信息过载的困境,如何为用户提供高效、精准的推荐成为了关键。该项目背景基于现代推荐系统的发…...

【力扣】2376. 统计特殊整数
如果一个正整数每一个数位都是 互不相同 的,我们称它是 特殊整数 。 给你一个 正 整数 n ,请你返回区间 [1, n] 之间特殊整数的数目。 示例 1: 输入:n 20 输出:19 解释:1 到 20 之间所有整数除了 11 以外都…...

MySQL面试题——第一篇
1. 一张自增表里面总共有7条数据,删除了最后2条数据,重启数据库后又插入了一条数据,此时ID是几 表类型如果是MyISAM,那么id就是8 如果是InnoDB,那就是6 InnoDB表只会把自增主键的最大id记录在内存中,所以重…...

零停机部署的“秘密武器”:为什么 Kamal Proxy 能成为你架构中的不二之选?
你是不是也遇到过这种场景:网站正在升级,用户却被迫刷新无数次页面?服务器切换时瞬间掉线,客户体验差得没话说。更糟糕的是,流量高峰期来临时,正是业务最重要的时刻,结果因为停机而损失惨重。这个时候你一定会想:难道没有一种方式,能在不打断服务的情况下,平滑地进行…...

轻量级RSS阅读器Fusion
什么是 Fusion ? Fusion 是一款轻量级、自托管的 RSS 聚合器和阅读器。 软件主要特点: 自动分组、书签、搜索、嗅探信息导入/导出 OPML 文件支持 RSS、Atom、JSON 类型的 feed响应式、明/暗模式、PWA轻量级,自托管友好 使用 Golang 和 SQLit…...

Kubernetes从零到精通(11-CNI网络插件)
Kubernetes网络模型 Kubernetes的网络模型(Kubernetes Networking Model)旨在提供跨所有节点、Pod和服务的统一网络连接。它的核心理念是通过统一的网络通信规则,保证集群中的所有组件能够顺畅地相互通信。Kubernetes网络模型主要有以下几个关…...

【手机马达共振导致后主摄马达声音异常】
手机马达共振导致后主摄马达声音异常 问题根因解决方案其他易混淆 问题根因 当手机马达的震动频率和摄像头AF马达的一二阶震动频率处于共振频段的时候,手机马达震动时候有很大概率会干扰到后置摄像头的对焦马达正常工作,可能出现的影响有出现滋滋杂音&a…...

AUTOSAR UDS NRC
UDS NRC NRC 含义如表格所示 NRC代码描述含义0x00Ok没有错误,请求已成功执行0x01~0x0FISOSAEReservedISO 保留,暂时未定义0x10General reject服务请求被拒绝,原因不明确0x11Service not supported请求的服务不被支持0x12Sub-function not supported请求的子功能不被支持0x13…...

[数据结构]无头单向非循环链表的实现与应用
文章目录 一、引言二、线性表的基本概念1、线性表是什么2、链表与顺序表的区别3、无头单向非循环链表 三、无头单向非循环链表的实现1、结构体定义2、初始化3、销毁4、显示5、增删查改 四、分析无头单向非循环链表1、存储方式2、优点3、缺点 五、总结1、练习题2、源代码 一、引…...

认识结构体
目录 一.结构体类型的声明 1.结构的声明 2.定义结构体变量 3.结构体变量初始化 4.结构体的特殊声明 二.结构体对齐(重点难点) 1.结构体对齐规则 2.结构体对齐练习 (一)简单结构体对齐 (二)嵌套结构体对齐 3.为什么存在内存对齐 4.修改默认对齐数 三.结构体传参 1…...

Linux驱动.之MT7601,USB-WiFi网卡移植到X210开发板,wpa_supplicant配置工具的使用(一)
一、移植前 1、下载与解压无线网卡MT7601U驱动源码压缩包 DPO_MT7601U_LinuxSTA_3.0.0.4_20130913.tar.bz2 解压后有如下文件 ate common iwpriv_usage.txt Makefile mgmt phy README_STA_usb RT2870STA.dat sta_ate_iwpriv_usage.txt chips include m…...

ChatGPT 在国内使用的方法
AI如今很强大,聊聊天、写论文、搞翻译、写代码、写文案、审合同等等,ChatGPT 真是无所不能~ 作为一款出色的大语言模型,ChatGPT 实现了人类般的对话交流,最主要是能根据上下文进行互动。 接下来,我将介绍 ChatGPT 在国…...

思通数科开源产品:免费的AI视频监控卫士安装指南
准备运行环境: 确保您的服务器或计算机安装了Ubuntu 18.04 LTS操作系统。 按照产品要求,安装以下软件: - Python 3.9 - Java JDK 1.8 - MySQL 5.5 - Redis 2.7 - Elasticsearch 8.14 - FFmpeg 4.1.1 - RabbitMQ 3.13.2 - Minio (…...

阿里HPN-用于大型语言模型训练的数据中心网络
阿里巴巴HPN:用于大型语言模型训练的数据中心网络 探索大规模语言模型训练新方法:阿里巴巴HPN数据中心网络论文。 摘要 本文介绍了阿里云用于大型语言模型(LLM)训练的数据中心网络HPN。由于LLM和一般云计算之间的差异(例如,在流量模式和容错性方面)&…...

re题(27)BUUFCTF-[MRCTF2020]Transform
BUUCTF在线评测 (buuoj.cn) 先到ida,先看一下字符串 找到主函数 int __cdecl main(int argc, const char **argv, const char **envp) {char Str[104]; // [rsp20h] [rbp-70h] BYREFint j; // [rsp88h] [rbp-8h]int i; // [rsp8Ch] [rbp-4h]sub_402230(argc, argv…...

偶数、奇数、整数与指数
引言 在前面的课程中,我们已经学习了 Python 的基本输入输出、数据类型及其转换、顺序结构、分支结构、循环结构、循环控制语句、字符串类型、列表类型、元组类型、字典类型、集合类型、函数的定义与使用、函数调用与作用域、函数的高级应用、质数、倍数与余数。本课…...

关于c#中异步async和await的理解
之前给大家介绍了所谓异步编程的用法,但是没有细致的理解到,今天想和大家一起探讨一下; 前文: C#笔记14 异步编程Async,await,task类-CSDN博客 异步的起初 应用程序会启动一个进程,一个进程可以有很多…...

mysql等保数据库命令
mysql数据库命令 默认安装位置:C:\Program Files\MySQL\MySQL Server 8.0\bin select version() from dual; desc mysql.user; 查看表中有哪些列 1、SELECT user, host, authentication_string, account_locked ,password_lifetime FROM mysql.user; 查询用户表…...

云平台在大规模设备管理和数据分析中的作用
在当代数字化转型的浪潮中,云平台作为信息技术基础设施的核心组件,扮演着无可替代的角色,尤其在大规模设备管理和数据分析领域,其重要性和影响力日益凸显。本文旨在深入探讨云平台如何通过其独特的优势,促进数据的高效…...

数据结构-树和二叉树
树 和 二叉树 1.树的概念 树 tree 是n(n>0)个节点的有限集 在任意的一个非空树中 (1)有且仅有一个特定的被称为 根(root) 的节点 (2)当n>1时, 其余的节点可分为m(m>0)个互不相交的有限集T1, T2, T3, .... …...

树和二叉树的概念以及结构
一起加油学数据结构 目录 树的概念以及结构 树的概念 树的相关概念 树的表示 二叉树的概念以及结构 二叉树的概念 特殊的二叉树 二叉树的性质 二叉树的存储结构 树的概念以及结构 树的概念 树是一种非线性的数据结构,它是由n(n>0)…...

c语言习题
第三章 数据类型、运算符与表达式 一 单项选择题 1.下面四个选项中,均不是 c 语言关键字的选项是( )。 A) define IF Type B) getc char printf C) include scanf case D…...

Python 低层多线程接口_thread的用法
_thread是python标准库中的一个低层多线程API,可以在进程中启动线程来处理任务,并且提供了简单的锁机制来控制共享资源的同步访问。本文就_thread模块的用法和特性做个简单的演示。 文章目录 一、进程和线程的区别二、_thread模块的用法2.1 派生线程2.2…...

flutter基础 --dart语法学习
由于想要写一款性能较好,但是又可以一套代码多个平台运行的客户端app,所以选择了flutter 就去看了官方文档,大体发现flutter使用的dart语言和java和js差不多,感觉就是缝合怪。 Dart 是一种面向对象的编程语言,语法上与 Java、JavaScript 等语言有一些相似之处&…...

新手必看:一步步教你绑定常见邮箱到第三方应用(如何绑定QQ、163、Hotmail、Gmail等邮箱)
文章目录 📖 介绍 📖🏡 演示环境 🏡📒 邮箱绑定 📒📫 QQ邮箱📫 163邮箱📫 Hotmail邮箱📫 Gmail邮箱📫 Yahoo邮箱📫 iCloud邮箱📫 其他邮箱⚓️ 相关链接 ⚓️📖 介绍 📖 你是否曾经为绑定第三方邮箱而感到困惑?你不是一个人!许多人在尝试将QQ邮…...

mac 怎么查看CPU核数
在 macOS 系统中,可以通过以下几种方法查看 CPU 核心数: 1. 使用“关于本机”查看 点击左上角的苹果图标()。选择“关于本机”。在弹出的窗口中,系统会显示 Mac 的基本信息,包括 CPU 的类型和核心数。比…...