数据仓库之维度建模
维度建模(Dimensional Modeling)是一种用于数据仓库设计的方法,旨在优化查询性能并提高数据的可读性。它通过组织数据为事实表和维度表的形式,提供直观的、易于理解的数据模型,使业务用户能够轻松地进行数据分析和查询。
维度建模的基本概念
-
事实表(Fact Table)
- 定义:存储与业务过程相关的度量数据(Measures),如销售金额、订单数量等。
- 特征:
- 度量:数值型数据,可以进行聚合(如求和、平均)。
- 外键:引用多个维度表的主键。
- 记录量大:每条记录代表一个业务事件或事务。
-
维度表(Dimension Table)
- 定义:存储业务实体的描述性信息,为事实表中的度量提供上下文。
- 特征:
- 主键:单一列,通常是代理键(Surrogate Key)。
- 属性:多个描述性的属性(如客户姓名、产品类别、日期等)。
- 记录量小:相对事实表记录数较少,且变化缓慢。
维度建模的步骤
- 选择业务过程:确定需要建模的业务过程,如销售、订单、库存等。
- 声明粒度:确定事实表的粒度,即一条事实记录所代表的业务事件的详细程度。
- 识别维度:确定与业务过程相关的维度,如时间、地点、产品、客户等。
- 识别事实:确定需要在事实表中存储的度量数据。
维度建模的典型模式
-
星形模型(Star Schema)
- 结构:一个中心事实表,周围连接多个维度表,结构类似星形。
- 特点:结构简单、查询性能高、易于理解和实现。
- 示例:销售数据仓库的星形模型。
-
雪花模型(Snowflake Schema)
- 结构:星形模型的扩展,维度表进行规范化处理,进一步分解为子维度表。
- 特点:数据冗余减少、存储空间节省、查询性能稍低于星形模型。
- 示例:产品维度表进一步分解为产品类别表、品牌表等。
-
星座模型(Constellation Schema)
- 结构:多个事实表共享维度表,形成复杂的多星形结构。
- 特点:能够支持多个业务过程的分析需求,灵活性高。
- 示例:销售和订单数据仓库共享时间和客户维度。
维度建模的设计技巧
-
代理键(Surrogate Key)
- 定义:人工生成的唯一标识符,作为维度表的主键。
- 优点:避免使用业务主键,提高数据一致性和查询性能。
- 实现:通常使用自增序列或 UUID 作为代理键。
-
缓慢变化维度(Slowly Changing Dimensions, SCD)
- 类型:
- SCD Type 1:直接覆盖旧值,简单快速。
- SCD Type 2:新增记录,保留历史数据,适合需要追踪变化的场景。
- SCD Type 3:增加字段,存储历史和当前值,适合需要追踪最近一次变化的场景。
- 选择:根据业务需求选择合适的 SCD 类型。
- 类型:
-
退化维度(Degenerate Dimension, DD)
- 定义:事实表中没有对应维度表的维度,通常是业务事务号或标识符。
- 用途:简化模型设计,减少维度表的数量。
-
多值维度(Multi-valued Dimension)
- 定义:一个事实记录与多个维度值相关联。
- 实现:通常通过桥接表(Bridge Table)解决多对多关系。
- 示例:一个订单可以包含多个产品。
-
度量聚合(Aggregated Measures)
- 定义:对度量数据进行预聚合,如月度销售总额、季度利润等。
- 优点:提高查询性能,减少运行时的计算量。
- 实现:在事实表中增加预聚合列或创建汇总事实表。
维度建模的示例
假设我们有一个零售商的销售数据仓库,以下是一个星形模型的示例:
销售事实表(Sales Fact Table)
时间键(Time Key) | 产品键(Product Key) | 客户键(Customer Key) | 销售金额(Sales Amount) | 销售数量(Sales Quantity) |
---|---|---|---|---|
20220101 | 1001 | 5001 | 1000.00 | 10 |
20220101 | 1002 | 5002 | 1500.00 | 15 |
... | ... | ... | ... | ... |
时间维度表(Time Dimension Table)
时间键(Time Key) | 年(Year) | 季度(Quarter) | 月(Month) | 日(Day) |
---|---|---|---|---|
20220101 | 2022 | Q1 | 1 | 1 |
20220102 | 2022 | Q1 | 1 | 2 |
... | ... | ... | ... | ... |
产品维度表(Product Dimension Table)
产品键(Product Key) | 产品名称(Product Name) | 类别(Category) | 品牌(Brand) |
---|---|---|---|
1001 | 产品A | 电子产品 | 品牌X |
1002 | 产品B | 家居用品 | 品牌Y |
... | ... | ... | ... |
客户维度表(Customer Dimension Table)
客户键(Customer Key) | 客户姓名(Customer Name) | 地址(Address) | 联系方式(Contact Info) |
---|---|---|---|
5001 | 客户甲 | 地址A | 联系方式A |
5002 | 客户乙 | 地址B | 联系方式B |
... | ... | ... | ... |
维度建模的优缺点
优点
- 高效查询:模型设计优化了查询性能,适合复杂的分析查询。
- 易于理解:维度建模结构简单直观,业务用户容易理解。
- 灵活扩展:新增维度和事实表较为方便,支持业务需求变化。
缺点
- 维护成本:需要处理缓慢变化维度,数据清洗和转换过程复杂。
- 数据冗余:维度表中可能存在数据冗余,增加存储开销。
- 复杂性:随着业务复杂度增加,模型设计和维护变得更加复杂。
维度建模是数据仓库设计中的核心技术,通过合理的模型设计,可以显著提升数据分析和查询的效率,为业务决策提供强有力的支持。
相关文章:
数据仓库之维度建模
维度建模(Dimensional Modeling)是一种用于数据仓库设计的方法,旨在优化查询性能并提高数据的可读性。它通过组织数据为事实表和维度表的形式,提供直观的、易于理解的数据模型,使业务用户能够轻松地进行数据分析和查询…...

解决远程服务器连接报错
最近使用服务器进行数据库连接和使用的时候出现了一个报错: Error response from daemon: Conflict. The container name “/mysql” is already in use by container “1bd3733123219372ea7c9377913da661bb621156d518b0306df93cdcceabb8c4”. You have to remove …...
通过电脑查看Wi-Fi密码的方法,提供三种方式
式一: 右击桌面右下角的网络图标,依次选择【网络和Internet设置】、【WLAN】、【网络和共享中心】。点击已连接的无线网络。依次点击【无线属性】、【安全】,勾选下方【显示字符】即可。 方式二: 在开始菜单输入“cmd”进入命令…...

Nvidia 目前的市值为 3.01 万亿美元,超过苹果Apple
人工智能的繁荣将英伟达的市值推高到足以使其成为全球第二大最有价值的公司。 英伟达已成为全球第二大最有价值的公司。周三下午,这家芯片制造巨头的市值达到 3.01 万亿美元,领先于苹果公司的 3 万亿美元。 喜好儿网AIGC专区:https://heehe…...

用langchain搭配最新模型ollama打造属于自己的gpt
langchain 前段时间去玩了一下langchain,熟悉了一下大模型的基本概念,使用等。前段时间meta的ollama模型发布了3.0,感觉还是比较强大的,在了解过后,自己去用前后端代码,调用ollama模型搭建了一个本地的gpt应用。 核心逻辑 开始搭…...

工业互联网基本概念及关键技术(295页PPT)
资料介绍: 工业互联网的核心是通过工业互联网平台把设备、生产线、工厂、供应商、产品和客户紧密地连接融合起来。这种连接能够形成跨设备、跨系统、跨厂区、跨地区的互联互通,从而提高效率,推动整个制造服务体系智能化。同时,工…...

Python pandas openpyxl excel合并单元格,设置边框,背景色
Python pandas openpyxl excel合并单元格,设置边框,背景色 1. 效果图2. 源码参考 1. 效果图 pandas设置单元格背景色,字体颜色,边框 openpyxl合并单元格,设置丰富的字体 2. 源码 # excel数字与列名互转 import o…...

【vue3|第7期】 toRefs 与 toRef 的深入剖析
日期:2024年6月6日 作者:Commas 签名:(ง •_•)ง 积跬步以致千里,积小流以成江海…… 注释:如果您觉得有所帮助,帮忙点个赞,也可以关注我,我们一起成长;如果有不对的地方ÿ…...
git代码冲突处理软件P4Merge
文章目录 1. 下载安装2. 配置脚本参考链接 1. 下载安装 下载地址:https://www.perforce.com/downloads/helix-visual-client-p4v 下载教程:http://blog.csdn.net/wirelessqa/article/details/9035215 这里下载之前需要注册。 2. 配置脚本 编写一个全局…...
Unity物体材质属性Offset动态偏移
Unity物体材质属性Offset动态偏移 MeshRenderer mr;float offset;public float scrollSpeed 0.5F;private void Start(){mr GetComponent<MeshRenderer>();}void Update(){offset -Time.time * scrollSpeed;mr.material.mainTextureOffset new Vector2(0, -offset);}…...

【数据结构】筛选法建堆
💞💞 前言 hello hello~ ,这里是大耳朵土土垚~💖💖 ,欢迎大家点赞🥳🥳关注💥💥收藏🌹🌹🌹 💥个人主页&#x…...

DevExpress Installed
一、What’s Installed 统一安装程序将DevExpress控件和库注册到Visual Studio中,并安装DevExpress实用工具、演示应用程序和IDE插件。 Visual Studio工具箱中的DevExpress控件 Visual Studio中的DevExpress菜单 Demo Applications 演示应用程序 Launch the Demo…...
解决QT QMessageBox 弹出需点击两次才能关闭问题
放个链接不迷路:添加链接描述...
Milvus--向量数据库
Milvus 是一个开源的向量数据库,专为高维向量数据的存储、查询和检索而设计。它支持多种类型的向量数据,如浮点数向量、整数向量等,并且提供了强大的向量相似度计算功能。Milvus采用分布式架构,可以轻松地扩展到大规模数据集&…...

php质量工具系列之PHPCPD
PHPCPD 用于检测重复代码,直观的说就是复制粘贴再稍微改改 该工具作者已经 停止维护 安装 composer global require --dev sebastian/phpcpd执行 phpcpd --log-pmd phpcpd_result.xml ./app参数介绍 --log-pmd 将结果保存在phpcpd_result.xml 中 ./app 是phpcpd扫…...

Android14 WMS-窗口绘制之relayoutWindow流程(二)-Server端
本文接着如下文章往下讲 Android14 WMS-窗口绘制之relayoutWindow流程(一)-Client端-CSDN博客 然后就到了Server端WMS的核心实现方法relayoutWindow里 WindowManagerService.java - OpenGrok cross reference for /frameworks/base/services/core/java/com/android/server…...
安全测试 之 安全漏洞:SQL注入
1. 背景 持续学习安全测试ing,安全测试是在IT软件产品的生命周期中,特别是产品开发基本完成到发布阶段,对产品进行检验以验证产品是否符合安全需求定义和产品质量标准的过程。也就是说安全测试是建立在功能测试的基础上进行的测试。 2. SQL…...
CUDA和驱动版本之间的对应关系
这个之前总结过,可是不太好找,专门写一篇博客再总结一下: 1. CUDA 12.5 Release Notes — Release Notes 12.5 documentation 相信很多朋友有一样的需求。...
MDK(μVsion3)问题总结及解决方法
问题 1:MDK 工具的 CARM 编译器? 我原来对 CARM 编译器比较熟悉,想用 CARM 编译器编译工程,但是却弹出一个不能执 行“cc”的错误,到 KEIL 网站查下才知道原因:由于 CARM 编译器是比较老的编译器࿰…...

手眼标定学习笔记
目录 标定代码: 手眼标定原理学习 什么是手眼标定 手眼标定的目的 eye in hand eye to hand AXXB问题的求解 标定代码: GitHub - pumpkin-ws/HandEyeCalib 推荐博文: https://zhuanlan.zhihu.com/p/486592374 手眼标定原理学习 参…...

树莓派超全系列教程文档--(61)树莓派摄像头高级使用方法
树莓派摄像头高级使用方法 配置通过调谐文件来调整相机行为 使用多个摄像头安装 libcam 和 rpicam-apps依赖关系开发包 文章来源: http://raspberry.dns8844.cn/documentation 原文网址 配置 大多数用例自动工作,无需更改相机配置。但是,一…...
DeepSeek 赋能智慧能源:微电网优化调度的智能革新路径
目录 一、智慧能源微电网优化调度概述1.1 智慧能源微电网概念1.2 优化调度的重要性1.3 目前面临的挑战 二、DeepSeek 技术探秘2.1 DeepSeek 技术原理2.2 DeepSeek 独特优势2.3 DeepSeek 在 AI 领域地位 三、DeepSeek 在微电网优化调度中的应用剖析3.1 数据处理与分析3.2 预测与…...
C++:std::is_convertible
C++标志库中提供is_convertible,可以测试一种类型是否可以转换为另一只类型: template <class From, class To> struct is_convertible; 使用举例: #include <iostream> #include <string>using namespace std;struct A { }; struct B : A { };int main…...

什么是库存周转?如何用进销存系统提高库存周转率?
你可能听说过这样一句话: “利润不是赚出来的,是管出来的。” 尤其是在制造业、批发零售、电商这类“货堆成山”的行业,很多企业看着销售不错,账上却没钱、利润也不见了,一翻库存才发现: 一堆卖不动的旧货…...

[10-3]软件I2C读写MPU6050 江协科技学习笔记(16个知识点)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16...
Neo4j 集群管理:原理、技术与最佳实践深度解析
Neo4j 的集群技术是其企业级高可用性、可扩展性和容错能力的核心。通过深入分析官方文档,本文将系统阐述其集群管理的核心原理、关键技术、实用技巧和行业最佳实践。 Neo4j 的 Causal Clustering 架构提供了一个强大而灵活的基石,用于构建高可用、可扩展且一致的图数据库服务…...

如何理解 IP 数据报中的 TTL?
目录 前言理解 前言 面试灵魂一问:说说对 IP 数据报中 TTL 的理解?我们都知道,IP 数据报由首部和数据两部分组成,首部又分为两部分:固定部分和可变部分,共占 20 字节,而即将讨论的 TTL 就位于首…...
Java多线程实现之Thread类深度解析
Java多线程实现之Thread类深度解析 一、多线程基础概念1.1 什么是线程1.2 多线程的优势1.3 Java多线程模型 二、Thread类的基本结构与构造函数2.1 Thread类的继承关系2.2 构造函数 三、创建和启动线程3.1 继承Thread类创建线程3.2 实现Runnable接口创建线程 四、Thread类的核心…...
2023赣州旅游投资集团
单选题 1.“不登高山,不知天之高也;不临深溪,不知地之厚也。”这句话说明_____。 A、人的意识具有创造性 B、人的认识是独立于实践之外的 C、实践在认识过程中具有决定作用 D、人的一切知识都是从直接经验中获得的 参考答案: C 本题解…...

10-Oracle 23 ai Vector Search 概述和参数
一、Oracle AI Vector Search 概述 企业和个人都在尝试各种AI,使用客户端或是内部自己搭建集成大模型的终端,加速与大型语言模型(LLM)的结合,同时使用检索增强生成(Retrieval Augmented Generation &#…...