当前位置：首页 > news >正文

【Azure 架构师学习笔记】- Azure Databricks (15) --Delta Lake 和Data Lake

news 2026/5/18 6:43:38

本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Databricks】系列。
接上文【Azure 架构师学习笔记】- Azure Databricks (14) – 搭建Medallion Architecture part 2

前言

ADB 除了UC 这个概念之外，前面【Azure 架构师学习笔记】- Azure Databricks (12) – Medallion Architecture简介中也提到了lakehouse，那么现在再深入一下了解ADB 的lakehouse。同时看看Data Lake和Delta Lake之间的区别与联系。
Data Lake是一个中央存储库，存储和处理原始数据。
Delta Lake则是一个开源的，针对数据存储的“表结构”。对比起Data Lake，它通过支持ACID,架构演变，数据版本控制等多个特性来提升数据存储中的各种能力。
Data Lake 是一个通用术语，描述了数据存储方法。
Delta Lake 是一种特定的开源技术。数据使用delta lake技术存储在delta 表中。使数据更加安全和高性能。这种技术通常就跟lakehouse架构相关联。
在Delta lake中，如果你的data lake包含了非表格数据，那么还要把它们存进表中。

Data lake

数据湖是把数据环境类比成一个湖（中央存储），有多条河流（数据流）流入到湖中。这些数据流最终都流到同一个地方，无需严格的预定义结构。它的出现主要是应对数据仓库这种需要预定义架构的存储模式。数据仓库对特定的查询进行了性能优化，意味着以牺牲灵活性为代价提高速度。另外由于不同的供应商有专用数据存储格式，意味着你可能会被供应商“绑架”。

相比数据仓库，数据湖针对灵活性进行优化，对数据存储没有格式要求，同时也支持不需要复杂昂贵的预处理的数据分析。

在这里插入图片描述

数据沼泽

数据湖提供了灵活度和相对低廉的存储价格，各方异构数据都可以简单直接地存储到单一位置。但是当数据不停增长，这样的灵活就可能带来问题，比如文件的版本跟踪，数据架构，数据恢复等。
这种情况将会使得数据湖，退化成数据沼泽。导致下游应用的“数据源”变得不准确或者需要花费大量成本进行清洗才能使用。

Delta Lake

Delta lake 可以运行在已有的data lake 基础架构之上。它把数据以parquet文件格式存储在后台。
从磁盘上看Delta Lake的文件存储将会试一下结构，有文件夹，包含了事务日志，数据的变更记录，delta 表的分区。

your_delta_table/		<-- 	this is the top-level table directory
_delta_log			    <-- 	this is the transaction log which tracks00.json				        all the changes to your data01.json…n.json
file1.parquet			<-- 	these are your Delta table partitions,
file2.parquet				    ordered for maximum query performance
…
fileN.parquet

Delta Lake 相对于 Data Lake的优势

ACID：跟数据库的ACID 类似，想象一下当你使用集群向Data Lake写入数据，如果此时集群中途崩溃了，数据文件会以损坏或者只有部分存储到datalake上。你需要手动识别并清理这些残缺文件然后重跑。但是对于Delta lake，则会把整个写操作回退，而不写入到存储上。
性能：Parquet格式文件，在很多大数据应用上都远比其他类型的格式快得多，因为其具有一些如压缩，列存储等特点。同时Delta Lake对其进行了一些改进，使其更加适合lakehouse。
文件搜索：在data lake中读取数据需要先列出所有的文件，非常耗时，特别是云环境这种使用Key-value 存储的文件系统。KV 存储在范围扫描过程中速度远不如其他系统，它更适合精确查找。Delta Lake 则通过预先把路径存储到Parquet的事务日志中，减少全量扫描的开销从而加快文件搜索。
元数据：在Data Lake的parquet 文件存储每个文件关于列的元数据，这些元数据包含每个行组内列的最大，最小值，每一次查询范围数据都不得不遍历所有文件。在Delta Lake中，对parquet进行了改进把这些元数据独立存储在单个事务日志文件中，减少扫描的范围和数量。
架构演变：由于输入的数据总是在变，你不能总是知道最后数据集的架构，或某种原因你需要增减列。在Delta lake中通过write.option(“mergeSchema”,“true”)的方式来实现即可。
除此之外，还有包括版本控制等优点，就不一一列举。

小结

下一文将介绍一下DataBricks在Delta方面的知识。

【Azure 架构师学习笔记】- Azure Databricks (15) --Delta Lake 和Data Lake

前言

Data lake

数据沼泽

Delta Lake

Delta Lake 相对于 Data Lake的优势

小结

相关文章：

【Azure 架构师学习笔记】- Azure Databricks (15) --Delta Lake 和Data Lake

WPF高级 | WPF 应用程序部署与发布：确保顺利交付到用户手中

在 IntelliJ IDEA(2024) 中创建 JAR 包步骤

【C++】5.4.3 范围for语句

达梦数据库备份

Linux系统基于ARM平台的LVGL移植

C++ 二叉搜索树代码

DeepSeek+知识库+鸿蒙，助力鸿蒙高效开发

蓝桥杯牛客1-10重点（自用）

Kafka - 高吞吐量的七项核心设计解析

Towards Precise and Explainable Hardware Trojan Localization at LUT Level

Python实现鼠标点击获取窗口进程信息

Mac安装jdk教程

【HeadFirst系列之HeadFirst设计模式】第14天之与设计模式相处：真实世界中的设计模式

JDBC 完全指南：掌握 Java 数据库交互的核心技术

Vue父子组件传递笔记

文件上传漏洞与phpcms漏洞安全分析

【deepseek】辅助思考生物学问题：ICImapping构建遗传图谱gap较大

linux磁盘非lvm分区

Windows下sql server2012安装流程

ONNXRuntime GPU推理想用BFloat16加速？手把手教你搞定PyTorch + CUDA环境配置与避坑

Umi-OCR：完全免费开源的离线OCR神器，3分钟快速上手文字识别

终极免费Switch模拟器yuzu：解决电脑玩任天堂游戏的5大痛点

3个按键冲突场景，Hitboxer如何帮你重获游戏控制权？

UEFITool终极指南：轻松解析和编辑UEFI固件的开源利器

qmcdump终极指南：三步解锁QQ音乐加密音频文件

Qdrant客户端库实战：从向量数据库连接到生产级应用开发

为AI编程助手构建安全防线：Cursor自定义规则实战指南

从零构建Go Web框架：解析the0极简框架的设计原理与实现

构建通用Docker工具镜像：从设计到实践的全流程指南