当前位置: 首页 > article >正文

【Azure 架构师学习笔记】- Azure Databricks (12) -- Medallion Architecture简介

本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Databricks】系列。
接上文 【Azure 架构师学习笔记】- Azure Databricks (11) – UC搭建

前言

使用ADB 或者数据湖,基本上绕不开一个架构“Medallion”, 它使得数据管理更为简单有效。ADB 通过把数据分为“金”,“银”,“铜” 三层来实现Medallion架构。同时搭配UC,使得medallion更加健壮,安全和合规。

除了Medallion, 还有一些概念如data warehouse, data lake, 和data lakehouse。

  • Data lake: 是一个中央存储库,以原始格式存储任意规模的结构化和非结构化数据。与传统存储相比,这样可以减少很多前期转换开销。其核心优势之一就是灵活性,另外还有对大量大数据处理工具的支持。
  • Data lakehouse:跟data lake的名字非常相似,在data lake中的数据,在展现给最终用户前,通常都需要进行处理。 但是data lake的目标是存储,而非处理。data warehouse可以提供处理,但需要预先范式化、模式化再存储,同时存储的量一般有限。基于这两种不足,最好的办法就是优势整合,保留data lake的强大存储功能和data warehouse的数据处理功能,从而出现了data lakehouse。
  • ETL/ELT:两者区别在于先转换然后存储(TL)还是先存储再转换(LT)。ETL 往往需要先转换成预定格式再存储,随着数据集成过程的量和速度要求,在大数据领域ETL非常容易出现性能瓶颈,且费用昂贵。而ELT如果搭配lakehouse,则可以很好地平衡性能与开销。

问题

上面提到了lakehouse和ELT 的好处,但是这更多集中于收集和存储,那么如何管理和组织数据呢?

传统的数据仓库环境,数据通过下图的流程完整数据准备。
在这里插入图片描述
在datalake中,数据以原始格式存储,但是实际上你需要对数据进行使用,而不是简单存储。这种几乎随意式的直接存储很难马上用于数据使用(主要是分析),因此还是需要进行清晰(clean),转换(transform)。

由于量大,分析复杂,传统的数据仓库处理方式如果直接应用在data lake上,会导致如时间久,资源消耗大,数据组织困难导致结果不准确等情况。这时候Medallion 架构就应运而生。

它为湖仓一体化而定制。主要目标是在从源到最终使用的过程中逐步增加结构和数据质量。

ADB Medallion

下图是来自于Databricks官网的架构图,Medallion的核心在于3个层(layer):Bronze,Silver, Gold, 也就是铜、银、金。 Medallion就是奖牌的意思。
在这里插入图片描述

Bronze (铜)

Bronze 层充当外部源系统的数据的初始登陆点。这层的数据反映了原始状态的源系统结构,并带有元数据信息,如加载日期/时间和进程 ID。这层的管理重点是变更数据捕获,支持源数据的历史存档,维护数据血缘,还有审计跟踪,并允许在必要时进行重新处理,而无需从源系统重新读取。

Silver (银)

下一层是 Silver 层。在这层中,来自 Bronze 层的数据经过一系列作,达到 一种叫做“Just-enough” 状态。提供包含基本业务实体、概念和事务的 “企业视图”。

Gold (金)

最后一层是 Gold 层。Gold 层中的数据通常被结构化到特定于主题领域的数据库中,以供使用。此层专用于报告,并采用非规范化、读取优化的数据模型,具有最少的联接。它是应用数据转换和质量规则的最终阶段。

在这三层里面, 铜是原始存储外加元数据信息,金是最终用于展示的数据集,跟传统的数据仓库类似。重点在于银这一层。

这一层是转换后的数据, 它存储了不同源系统数据转换成统一视图后的结果。但是之所以叫做“Just-enough”,是因为它又并不完全转换,而是最小转换,包含:

  1. 数据清洗,是识别和纠正数据集中的错误、不一致和不准确之处以提高其分析和可靠性的过程。这是数据准备过程中的关键步骤,通常在数据分析或集成之前执行。涉及的一些常见任务包括:删除重复项、更正拼写错误、标准化数据格式(尤其是日期和地址)、处理缺失值等。
  2. 数据验证:数据验证是通过各种验证技术确保数据准确、一致和可靠的过程。它通常包括根据已知的质量控制措施验证数据、确认数据符合公司数据治理策略、通过交叉引用不同的数据源或应用业务规则和逻辑来解决不一致问题、标准化和规范化数据以及处理异常值。
  3. 数据合规:数据合规是指确保数据符合特定标准、格式或要求的过程。它涉及转换和标准化数据,以使其与特定数据模型、架构或系统保持一致和兼容。
  4. 有目的地进行数据匹配:为了提供统一的企业视图,来自不同来源的数据最终必须进行整合和集成。为了使数据可整合,您必须将来自不同来源的数据汇集在一起,识别和确定不同数据集或来源的记录之间的关系,并将它们转换为一致且连贯的格式。

通过这些处理之后, silver中的数据已经变得有意义且可用于后续整合。但是一般来说,数据后进一步处理就不需要在这一层进行了,否则会出现过度预处理,最终使其成为了gold层。

Medallion 是一个设计模式,而不是数据模型,也就是说它更多是一个指引,然后在特定环境中(这主要指云环境)按需实现。比如用ADB+ADLS 来实现。

小结

介绍了什么是Medallion之后,接下来将使用ADB 来实现它。

相关文章:

【Azure 架构师学习笔记】- Azure Databricks (12) -- Medallion Architecture简介

本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Databricks】系列。 接上文 【Azure 架构师学习笔记】- Azure Databricks (11) – UC搭建 前言 使用ADB 或者数据湖,基本上绕不开一个架构“Medallion”, 它使得数据管理更为简单有效。ADB 通过…...

什么是Ollama?什么是GGUF?二者之间有什么关系?

一、Ollama:本地化大模型运行框架 Ollama 是一款开源工具,专注于在本地环境中快速部署和运行大型语言模型(LLM)。它通过极简的命令行操作简化了模型管理流程,支持离线运行、多模型并行、私有化部署等场景。 核心特性 本地化运行:无需依赖云端API,用户可在个人电脑或服务…...

智能证件照处理器(深度学习)

功能说明:支持常见证件照尺寸(一寸、二寸、护照等) 智能背景去除(使用深度学习模型)自定义背景颜色选择自动调整尺寸并保持比例实时预览处理效果注意:整合rembg进行抠图,使用Pillow处理图像缩放和背景替换,定义常见证件照尺寸,并提供用户交互选项。首次运行时会自动下…...

【软考】【2025年系统分析师拿证之路】【啃书】第十五章 系统运行与维护(十六)

目录 运维技术指标系统运行管理系统用户管理网络资源管理软件资源管理 系统故障管理软件系统维护系统评价遗留系统处理遗留系统的评价遗留系统的演化 新旧系统转换数据转换和迁移 现有系统演进 运维技术指标 平均故障修复时间(MTTR)平均应答时间&#x…...

C++-第十三章:红黑树

目录 第一节:红黑树的特征 第二节:实现思路 2-1.插入 2-1-1.unc为红 2-1-2.cur为par的左子树,且par为gra的左子树(cur在最左边) 2-1-2-1.unc不存在 2-1-2-2.unc为黑 2-1-3.cur为par的右子树,且par为gra的右子树(cur在最右侧) 2-…...

推荐3个背景渐变色的wordpress主题

干净、清爽、背景渐变色的wordpress企业主题 ​ 服务类公司wordpress企业主题https://www.jianzhanpress.com/?p8255 红色大气的wordpress企业主题,适合服务行业的公司搭建企业官方网站使用。 ​ wordpress询盘型独立站主题https://www.jianzhanpress.com/?p8258…...

Scrapy:隧道代理中移除 Proxy-Authorization 的原理解析

隧道代理中移除 Proxy-Authorization 的原理解析 背景 在 Scrapy 的 HTTP 下载处理中,当使用隧道代理(TunnelingAgent)时,会移除请求头中的 Proxy-Authorization。这个操作看似简单,但背后有着重要的安全考虑和技术原…...

Qt for Android下QMessageBox背景黑色、文字点击闪烁

最近在基于Qt开发安卓应用的时候,在红米平板上默认QMessageBox出现之后,背景黑色,并且点击提示文字会出现闪烁,影响用户体验。 问题分析 1、设置QMessageBox样式,设置背景色、文字颜色,如下所示: QMessageBox {background: white;color: white; } 尝试之后,问题仍存…...

Docker数据卷操作实战

什么是数据卷 数据卷 是一个可供一个或多个容器使用的特殊目录,它绕过 UFS,可以提供很多有用的特性: 数据卷 可以在容器之间共享和享用对 数据卷 的修改立马生效对 数据卷 的更新,不会影响镜像数据卷 默认会一直存在,即时容器被…...

nginx 动态计算拦截非法访问ip

需求:在Nginx上实现一个动态拦截IP的方法,具体是当某个IP在1分钟内访问超过60次时,将其加入Redis并拦截,拦截时间默认1天。 技术选型:使用NginxLuaRedis的方法。这种方案通过Lua脚本在Nginx处理请求时检查Redis中的黑…...

微信小程序-二维码绘制

wxml <view bindlongtap"saveQrcode"><!-- 二维码 --><view style"position: absolute;background-color: #FFFAEC;width: 100%;height: 100vh;"><canvas canvas-id"myQrcode" style"width: 200px; height: 200px;ba…...

Node.js与MySQL的深入探讨

Node.js与MySQL的深入探讨 引言 Node.js,一个基于Chrome V8引擎的JavaScript运行时环境,以其非阻塞、事件驱动的方式在服务器端应用中占据了一席之地。MySQL,作为一款广泛使用的开源关系型数据库管理系统,凭借其稳定性和高效性,成为了许多应用的数据库选择。本文将深入探…...

【10】RUST的迭代器与闭包

文章目录 闭包(Closures)定义捕获方式:迭代器(Iterator)核心方法:创建方式:适配器(Adapter)常见适配器及示例消费方法(Consumer)所有权与引用处理性能与惰性求值闭包(Closures) 类比C++里的lambda表达式 闭包是能够捕获其所在环境变量的匿名函数,支持灵活的类型推…...

Fiddler 的安装与使用

目录 1、Fiddler 的安装2、Fiddler 的使用 1、Fiddler 的安装 通过Fiddler 官网进行下载&#xff08;下载免费的经典版本&#xff09;&#xff0c;填写用途、邮箱、国家信息即可开始下载。 Fiddler 官网下载链接 双击安装包即可进行安装&#xff0c;显示以下界面说明安装成功。…...

Hadoop架构详解

Hadoop 是一个开源的分布式计算系统&#xff0c;用于存储和处理大规模数据集。Hadoop 主要由HDFS&#xff08;Hadoop Distributed File System&#xff09;、MapReduce、Yarn&#xff08;Jobtracker&#xff0c;TaskTracker&#xff09;三大核心组件组成。其中HDFS是分布式文件…...

清华大学DeepSeek文档下载,清华大学deepseek下载(完成版下载)

文章目录 前言一、清华大学DeepSeek使用手册下载二、清华大学DeepSeek使用手册思维导图 前言 这是一篇关于清华大学deepseek使用手册pdf的介绍性文章&#xff0c;主要介绍了DeepSeek的定义、功能、使用方法以及如何通过提示语设计优化AI性能。以下是对这些核心内容的简要概述&…...

Hadoop第2课(伪分布式集群的搭建)

jdk和hadoop安装包&#xff1a; hadoop-2.9.2.t......等2个文件官方版下载丨最新版下载丨绿色版下载丨APP下载-123云盘 1、用XFTP发送hadoop安装包和jdk到/home/hadoop/目录下&#xff08;hadoop用户的主目录&#xff09; 2、解压jdk安装包到~目录 卸载jdk的命令&#xff1a;r…...

DeepSeek开源周第二弹:DeepEP如何用RDMA+FP8让MoE模型飞起来?

一、引言&#xff1a;MoE模型的通信瓶颈与DeepEP的诞生 在混合专家&#xff08;MoE&#xff09;模型训练中&#xff0c;专家间的全对全&#xff08;All-to-All&#xff09;通信成为性能瓶颈。传统方案在跨节点传输时带宽利用率不足50%&#xff0c;延迟高达300μs以上。DeepSee…...

IoT 测试:智能互联时代的质量保障

一、IoT(物联网)概述 物联网(Internet of Things, IoT)指的是将各种设备、传感器和系统连接到互联网&#xff0c;实现数据采集、传输、处理和智能化应用。随着 5G、云计算、人工智能等技术的发展&#xff0c;IoT 在智能家居、工业自动化、医疗健康、智能交通等领域的应用日益广…...

使用Crawlee可破题js渲染采集数据

使用 Crawlee 实现自动化爬虫流程 1. Crawlee 简介 Crawlee 是一个强大的爬虫框架&#xff0c;用于快速构建和维护可靠的爬虫。它支持多种爬虫类型&#xff0c;包括基于 Cheerio 和 Playwright 的爬虫&#xff0c;能够高效处理静态和动态网页。 2. 项目目标 通过自动化脚本实…...

短连接服务器压测-wrk

背景 由于业务需要我们从原来的 长连接 转为 短连接&#xff0c;提高单服同时在线人数。 老压测 在服务器编写机器人&#xff0c;编写一部分客户端逻辑&#xff08;这里如果客户端严格使用mvc 模式&#xff0c;其实可以把 view 层换为 服务器测试代码层&#xff0c;而一般不…...

DAV_postgresql_2-user_role

数据库角色用来管理数据库访问权限&#xff0c;简化权限的管理 用户和角色在整个数据库集簇中是全局性的&#xff0c;不是针对某个单一数据库&#xff0c;只要有足够的权限&#xff0c;用户可以访问所有数据库的对象。 数据库用户可以分为两类 超级用户 -- postgres 普通…...

php 获取head参数

php 获取head参数 在PHP中&#xff0c;获取HTTP头部&#xff08;head&#xff09;参数可以通过不同的方式实现&#xff0c;下面为你详细介绍几种常见的方法。 1. 使用$_SERVER超全局变量 $_SERVER 是PHP中的一个超全局变量&#xff0c;它包含了诸如头信息、路径、脚本位置等…...

Fiddler在Windows下抓包Https

文章目录 1.Fiddler Classic 配置2.配置浏览器代理自动代理手动配置浏览器代理 3.抓取移动端 HTTPS 流量&#xff08;可选&#xff09;解决抓取 HTTPS 失败问题1.Fiddler证书过期了 默认情况下&#xff0c;Fiddler 无法直接解密 HTTPS 流量。需要开启 HTTPS 解密&#xff1a; 1…...

SQLite数据库从0到1

SQLite SQLite基础知识 SQLite数据库功能特性&#xff1a;ACID事务&#xff1b;支持数据库大小至2TB&#xff1b;足够小&#xff0c;大致13万行C代码4MB左右&#xff1b;存储在单一磁盘文件中的完整数据库。独立&#xff0c;无额外依赖。源码完全开源。支持多种编程语言&#…...

PMP项目管理—整合管理篇—7.结束项目或阶段

文章目录 基本信息过程4W1HITTO输入工具与技术输出 收尾过程组项目收尾&#xff08;结束项目或阶段&#xff09;行政收尾/管理收尾 合同收尾&#xff08;结束采购&#xff09; 最终报告 基本信息 项目无论何因何时终止&#xff0c;都必须用结束项目或阶段过程来正式关闭。通过…...

计算机网络基础简答题资料(对口高考)

1、什么是计算机网络&#xff1f;计算机网络的功能有哪些&#xff1f; 答案&#xff1a;计算机网络&#xff0c;是指将分布在不同地理位置、具有独立功能的多台计算机及其外围设备&#xff0c;通过通信设备和通信线路连接起来&#xff0c;在网络操作系统、网络管理软件及网络通…...

Java语法基础知识点1

目录 一、数组 1.1数组的初始化&#xff1a; 1.2数组的遍历方法&#xff1a; 1.3数组的常见使用方法&#xff1a; 二、类和对象 2.1构造方法&#xff1a; 2.2this关键字: 三、封装 3.1访问限定符&#xff1a; 3.2static关键字&#xff1a; 3.3代码块&#xff1a; 一…...

2025年跟上AI新时代:带AI人工智能的蜜罐系统T-Pot

T-Pot是一个集成式、可选分布式的、支持多架构&#xff08;amd64、arm64&#xff09;的蜜罐平台&#xff0c;它支持20多种蜜罐&#xff0c;并提供了使用Elastic Stack的无数可视化选项、动态实时攻击地图以及众多安全工具&#xff0c;以进一步提升蜜罐系统体验。源码地址&#…...

【新手入门】SQL注入之盲注

一、引言 在我们的注入语句被带入数据库查询但却什么都没有返回的情况我们该怎么办? 例如应用程序返回到一个"通用的"的页面&#xff0c;或者重定向一个通用页面(可能为网站首页)。这时&#xff0c;我们之前学习的SQL注入的办法就无法使用了。这种情况我们称之为无…...