数据仓库之维度建模
维度建模(Dimensional Modeling)是一种用于数据仓库设计的方法,旨在优化查询性能并提高数据的可读性。它通过组织数据为事实表和维度表的形式,提供直观的、易于理解的数据模型,使业务用户能够轻松地进行数据分析和查询。
维度建模的基本概念
-
事实表(Fact Table)
- 定义:存储与业务过程相关的度量数据(Measures),如销售金额、订单数量等。
- 特征:
- 度量:数值型数据,可以进行聚合(如求和、平均)。
- 外键:引用多个维度表的主键。
- 记录量大:每条记录代表一个业务事件或事务。
-
维度表(Dimension Table)
- 定义:存储业务实体的描述性信息,为事实表中的度量提供上下文。
- 特征:
- 主键:单一列,通常是代理键(Surrogate Key)。
- 属性:多个描述性的属性(如客户姓名、产品类别、日期等)。
- 记录量小:相对事实表记录数较少,且变化缓慢。
维度建模的步骤
- 选择业务过程:确定需要建模的业务过程,如销售、订单、库存等。
- 声明粒度:确定事实表的粒度,即一条事实记录所代表的业务事件的详细程度。
- 识别维度:确定与业务过程相关的维度,如时间、地点、产品、客户等。
- 识别事实:确定需要在事实表中存储的度量数据。
维度建模的典型模式
-
星形模型(Star Schema)
- 结构:一个中心事实表,周围连接多个维度表,结构类似星形。
- 特点:结构简单、查询性能高、易于理解和实现。
- 示例:销售数据仓库的星形模型。
-
雪花模型(Snowflake Schema)
- 结构:星形模型的扩展,维度表进行规范化处理,进一步分解为子维度表。
- 特点:数据冗余减少、存储空间节省、查询性能稍低于星形模型。
- 示例:产品维度表进一步分解为产品类别表、品牌表等。
-
星座模型(Constellation Schema)
- 结构:多个事实表共享维度表,形成复杂的多星形结构。
- 特点:能够支持多个业务过程的分析需求,灵活性高。
- 示例:销售和订单数据仓库共享时间和客户维度。
维度建模的设计技巧
-
代理键(Surrogate Key)
- 定义:人工生成的唯一标识符,作为维度表的主键。
- 优点:避免使用业务主键,提高数据一致性和查询性能。
- 实现:通常使用自增序列或 UUID 作为代理键。
-
缓慢变化维度(Slowly Changing Dimensions, SCD)
- 类型:
- SCD Type 1:直接覆盖旧值,简单快速。
- SCD Type 2:新增记录,保留历史数据,适合需要追踪变化的场景。
- SCD Type 3:增加字段,存储历史和当前值,适合需要追踪最近一次变化的场景。
- 选择:根据业务需求选择合适的 SCD 类型。
- 类型:
-
退化维度(Degenerate Dimension, DD)
- 定义:事实表中没有对应维度表的维度,通常是业务事务号或标识符。
- 用途:简化模型设计,减少维度表的数量。
-
多值维度(Multi-valued Dimension)
- 定义:一个事实记录与多个维度值相关联。
- 实现:通常通过桥接表(Bridge Table)解决多对多关系。
- 示例:一个订单可以包含多个产品。
-
度量聚合(Aggregated Measures)
- 定义:对度量数据进行预聚合,如月度销售总额、季度利润等。
- 优点:提高查询性能,减少运行时的计算量。
- 实现:在事实表中增加预聚合列或创建汇总事实表。
维度建模的示例
假设我们有一个零售商的销售数据仓库,以下是一个星形模型的示例:
销售事实表(Sales Fact Table)
| 时间键(Time Key) | 产品键(Product Key) | 客户键(Customer Key) | 销售金额(Sales Amount) | 销售数量(Sales Quantity) |
|---|---|---|---|---|
| 20220101 | 1001 | 5001 | 1000.00 | 10 |
| 20220101 | 1002 | 5002 | 1500.00 | 15 |
| ... | ... | ... | ... | ... |
时间维度表(Time Dimension Table)
| 时间键(Time Key) | 年(Year) | 季度(Quarter) | 月(Month) | 日(Day) |
|---|---|---|---|---|
| 20220101 | 2022 | Q1 | 1 | 1 |
| 20220102 | 2022 | Q1 | 1 | 2 |
| ... | ... | ... | ... | ... |
产品维度表(Product Dimension Table)
| 产品键(Product Key) | 产品名称(Product Name) | 类别(Category) | 品牌(Brand) |
|---|---|---|---|
| 1001 | 产品A | 电子产品 | 品牌X |
| 1002 | 产品B | 家居用品 | 品牌Y |
| ... | ... | ... | ... |
客户维度表(Customer Dimension Table)
| 客户键(Customer Key) | 客户姓名(Customer Name) | 地址(Address) | 联系方式(Contact Info) |
|---|---|---|---|
| 5001 | 客户甲 | 地址A | 联系方式A |
| 5002 | 客户乙 | 地址B | 联系方式B |
| ... | ... | ... | ... |
维度建模的优缺点
优点
- 高效查询:模型设计优化了查询性能,适合复杂的分析查询。
- 易于理解:维度建模结构简单直观,业务用户容易理解。
- 灵活扩展:新增维度和事实表较为方便,支持业务需求变化。
缺点
- 维护成本:需要处理缓慢变化维度,数据清洗和转换过程复杂。
- 数据冗余:维度表中可能存在数据冗余,增加存储开销。
- 复杂性:随着业务复杂度增加,模型设计和维护变得更加复杂。
维度建模是数据仓库设计中的核心技术,通过合理的模型设计,可以显著提升数据分析和查询的效率,为业务决策提供强有力的支持。
相关文章:
数据仓库之维度建模
维度建模(Dimensional Modeling)是一种用于数据仓库设计的方法,旨在优化查询性能并提高数据的可读性。它通过组织数据为事实表和维度表的形式,提供直观的、易于理解的数据模型,使业务用户能够轻松地进行数据分析和查询…...
解决远程服务器连接报错
最近使用服务器进行数据库连接和使用的时候出现了一个报错: Error response from daemon: Conflict. The container name “/mysql” is already in use by container “1bd3733123219372ea7c9377913da661bb621156d518b0306df93cdcceabb8c4”. You have to remove …...
通过电脑查看Wi-Fi密码的方法,提供三种方式
式一: 右击桌面右下角的网络图标,依次选择【网络和Internet设置】、【WLAN】、【网络和共享中心】。点击已连接的无线网络。依次点击【无线属性】、【安全】,勾选下方【显示字符】即可。 方式二: 在开始菜单输入“cmd”进入命令…...
Nvidia 目前的市值为 3.01 万亿美元,超过苹果Apple
人工智能的繁荣将英伟达的市值推高到足以使其成为全球第二大最有价值的公司。 英伟达已成为全球第二大最有价值的公司。周三下午,这家芯片制造巨头的市值达到 3.01 万亿美元,领先于苹果公司的 3 万亿美元。 喜好儿网AIGC专区:https://heehe…...
用langchain搭配最新模型ollama打造属于自己的gpt
langchain 前段时间去玩了一下langchain,熟悉了一下大模型的基本概念,使用等。前段时间meta的ollama模型发布了3.0,感觉还是比较强大的,在了解过后,自己去用前后端代码,调用ollama模型搭建了一个本地的gpt应用。 核心逻辑 开始搭…...
工业互联网基本概念及关键技术(295页PPT)
资料介绍: 工业互联网的核心是通过工业互联网平台把设备、生产线、工厂、供应商、产品和客户紧密地连接融合起来。这种连接能够形成跨设备、跨系统、跨厂区、跨地区的互联互通,从而提高效率,推动整个制造服务体系智能化。同时,工…...
Python pandas openpyxl excel合并单元格,设置边框,背景色
Python pandas openpyxl excel合并单元格,设置边框,背景色 1. 效果图2. 源码参考 1. 效果图 pandas设置单元格背景色,字体颜色,边框 openpyxl合并单元格,设置丰富的字体 2. 源码 # excel数字与列名互转 import o…...
【vue3|第7期】 toRefs 与 toRef 的深入剖析
日期:2024年6月6日 作者:Commas 签名:(ง •_•)ง 积跬步以致千里,积小流以成江海…… 注释:如果您觉得有所帮助,帮忙点个赞,也可以关注我,我们一起成长;如果有不对的地方ÿ…...
git代码冲突处理软件P4Merge
文章目录 1. 下载安装2. 配置脚本参考链接 1. 下载安装 下载地址:https://www.perforce.com/downloads/helix-visual-client-p4v 下载教程:http://blog.csdn.net/wirelessqa/article/details/9035215 这里下载之前需要注册。 2. 配置脚本 编写一个全局…...
Unity物体材质属性Offset动态偏移
Unity物体材质属性Offset动态偏移 MeshRenderer mr;float offset;public float scrollSpeed 0.5F;private void Start(){mr GetComponent<MeshRenderer>();}void Update(){offset -Time.time * scrollSpeed;mr.material.mainTextureOffset new Vector2(0, -offset);}…...
【数据结构】筛选法建堆
💞💞 前言 hello hello~ ,这里是大耳朵土土垚~💖💖 ,欢迎大家点赞🥳🥳关注💥💥收藏🌹🌹🌹 💥个人主页&#x…...
DevExpress Installed
一、What’s Installed 统一安装程序将DevExpress控件和库注册到Visual Studio中,并安装DevExpress实用工具、演示应用程序和IDE插件。 Visual Studio工具箱中的DevExpress控件 Visual Studio中的DevExpress菜单 Demo Applications 演示应用程序 Launch the Demo…...
解决QT QMessageBox 弹出需点击两次才能关闭问题
放个链接不迷路:添加链接描述...
Milvus--向量数据库
Milvus 是一个开源的向量数据库,专为高维向量数据的存储、查询和检索而设计。它支持多种类型的向量数据,如浮点数向量、整数向量等,并且提供了强大的向量相似度计算功能。Milvus采用分布式架构,可以轻松地扩展到大规模数据集&…...
php质量工具系列之PHPCPD
PHPCPD 用于检测重复代码,直观的说就是复制粘贴再稍微改改 该工具作者已经 停止维护 安装 composer global require --dev sebastian/phpcpd执行 phpcpd --log-pmd phpcpd_result.xml ./app参数介绍 --log-pmd 将结果保存在phpcpd_result.xml 中 ./app 是phpcpd扫…...
Android14 WMS-窗口绘制之relayoutWindow流程(二)-Server端
本文接着如下文章往下讲 Android14 WMS-窗口绘制之relayoutWindow流程(一)-Client端-CSDN博客 然后就到了Server端WMS的核心实现方法relayoutWindow里 WindowManagerService.java - OpenGrok cross reference for /frameworks/base/services/core/java/com/android/server…...
安全测试 之 安全漏洞:SQL注入
1. 背景 持续学习安全测试ing,安全测试是在IT软件产品的生命周期中,特别是产品开发基本完成到发布阶段,对产品进行检验以验证产品是否符合安全需求定义和产品质量标准的过程。也就是说安全测试是建立在功能测试的基础上进行的测试。 2. SQL…...
CUDA和驱动版本之间的对应关系
这个之前总结过,可是不太好找,专门写一篇博客再总结一下: 1. CUDA 12.5 Release Notes — Release Notes 12.5 documentation 相信很多朋友有一样的需求。...
MDK(μVsion3)问题总结及解决方法
问题 1:MDK 工具的 CARM 编译器? 我原来对 CARM 编译器比较熟悉,想用 CARM 编译器编译工程,但是却弹出一个不能执 行“cc”的错误,到 KEIL 网站查下才知道原因:由于 CARM 编译器是比较老的编译器࿰…...
手眼标定学习笔记
目录 标定代码: 手眼标定原理学习 什么是手眼标定 手眼标定的目的 eye in hand eye to hand AXXB问题的求解 标定代码: GitHub - pumpkin-ws/HandEyeCalib 推荐博文: https://zhuanlan.zhihu.com/p/486592374 手眼标定原理学习 参…...
SpringBoot-17-MyBatis动态SQL标签之常用标签
文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…...
后进先出(LIFO)详解
LIFO 是 Last In, First Out 的缩写,中文译为后进先出。这是一种数据结构的工作原则,类似于一摞盘子或一叠书本: 最后放进去的元素最先出来 -想象往筒状容器里放盘子: (1)你放进的最后一个盘子(…...
深度学习在微纳光子学中的应用
深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向: 逆向设计 通过神经网络快速预测微纳结构的光学响应,替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…...
7.4.分块查找
一.分块查找的算法思想: 1.实例: 以上述图片的顺序表为例, 该顺序表的数据元素从整体来看是乱序的,但如果把这些数据元素分成一块一块的小区间, 第一个区间[0,1]索引上的数据元素都是小于等于10的, 第二…...
深入浅出:JavaScript 中的 `window.crypto.getRandomValues()` 方法
深入浅出:JavaScript 中的 window.crypto.getRandomValues() 方法 在现代 Web 开发中,随机数的生成看似简单,却隐藏着许多玄机。无论是生成密码、加密密钥,还是创建安全令牌,随机数的质量直接关系到系统的安全性。Jav…...
第25节 Node.js 断言测试
Node.js的assert模块主要用于编写程序的单元测试时使用,通过断言可以提早发现和排查出错误。 稳定性: 5 - 锁定 这个模块可用于应用的单元测试,通过 require(assert) 可以使用这个模块。 assert.fail(actual, expected, message, operator) 使用参数…...
论文浅尝 | 基于判别指令微调生成式大语言模型的知识图谱补全方法(ISWC2024)
笔记整理:刘治强,浙江大学硕士生,研究方向为知识图谱表示学习,大语言模型 论文链接:http://arxiv.org/abs/2407.16127 发表会议:ISWC 2024 1. 动机 传统的知识图谱补全(KGC)模型通过…...
微服务商城-商品微服务
数据表 CREATE TABLE product (id bigint(20) UNSIGNED NOT NULL AUTO_INCREMENT COMMENT 商品id,cateid smallint(6) UNSIGNED NOT NULL DEFAULT 0 COMMENT 类别Id,name varchar(100) NOT NULL DEFAULT COMMENT 商品名称,subtitle varchar(200) NOT NULL DEFAULT COMMENT 商…...
ardupilot 开发环境eclipse 中import 缺少C++
目录 文章目录 目录摘要1.修复过程摘要 本节主要解决ardupilot 开发环境eclipse 中import 缺少C++,无法导入ardupilot代码,会引起查看不方便的问题。如下图所示 1.修复过程 0.安装ubuntu 软件中自带的eclipse 1.打开eclipse—Help—install new software 2.在 Work with中…...
HTML前端开发:JavaScript 常用事件详解
作为前端开发的核心,JavaScript 事件是用户与网页交互的基础。以下是常见事件的详细说明和用法示例: 1. onclick - 点击事件 当元素被单击时触发(左键点击) button.onclick function() {alert("按钮被点击了!&…...
