当前位置: 首页 > news >正文

数据仓库模型评估的标准

面试中,肯定有数仓同学被问到:数据模型如何去评估、如何优化,那今天就聊一聊这个话题。

基本概念

模型:表达的是某一个主题、某一个业务过程,赋值业务价值,最终落地还是一个建表的过程

数仓模型:表赋予业务含义,简单来说还是表,可以理解成圆和球的关系

算法模型:输入数据集和样本集、训练超参,输出一系列参数,本质上就是数学公式

数据分析模型:通过看待业务不同角度去分析业务数据,本质上封装的是某个角度分析的策略

表:一个数字字典的结构体,比如:字段A、B、C没有实际业务含义,但是当表中字段是sku_id,sku_name以及相关维度信息,具备业务含义后就可以理解成一个sku的相关模型

ER模型:对三范式要求较高,强调的是实体关系,对数据冗余不太包容。需要基于整个业务梳理出所有的实体之间关系,这种方式好处就是没有数据冗余,但是成本较高,周期长

维度模型:对数据冗余相对宽容,基于事实和维度构建模型。基于需要分析的业务过程或者业务事实去划分事实和维度,根据看待的不同角度去划分维度

模型评估标准

高内聚,低耦合

在dwd层划划分主题域的过程中,可能一些业务过程比较复杂,层层抽离出实体对象到最细粒度的一个动作,比如:下单、支付等等,这样做主要是建设一个细粒度模型,降低业务过程之间的耦合度,模型更加灵活 ,减少不同模型之间对相同业务的依赖,尽量把这种细粒度的业务流程汇聚到一个模型中,减少依赖。

核心模型和扩展模型分离

一些重要的数据作为核心模型产出(典型的就是一些大宽表)

一些不是很边缘的业务数据在不影响核心模型的情况下其实可以合并到核心模型,保证核心模型不会太重,不影响产出时效

公共逻辑下沉

出现相同逻辑的时候可以在dwd或者做个中间层收口,万一口径发生变化,只需要在最底层修改逻辑,上层只需要回溯验证数据即可,而不是说到处修改用到的地方

成本和性能平衡

成本:宽表不能过大,存储成本

性能:产出时效性

提倡建设公共层,减少逻辑的重复加工(将数据武装到每个人都可以兼容装备)

数据可回滚

确保一些经常变化的维度可以回滚,比如:当下游每天产出指标的时候,突然今天的指标值和昨天的差异性很大,这个时候我们就要去回滚昨天的数据,看今天数据是否异常还是逻辑错误等等

规范

主要是一些数仓的研发规范,如表命名规则:dwd_部门_一级主题域_最小业务流程_业务流程缩写_全量/增量缩写(数仓笔记语雀中详细记载)

枚举值的一致性

优化:主要分为两个方面合并和拆

合并

为什么合并:可能存在相似的业务流程,有一些小模型,彼此之间还存在对相同业务过程的依赖

合并原则:在不破坏核心模型的简洁性和产出时效方面,可以进行合并,减少对这些不是很边缘业务的关联

拆分

影响到核心模型的产出时效、维护难,可读性差,比如:用户购物这个业务流程,显然不可能把订单和商品的一些信息放在一起的

相关文章:

数据仓库模型评估的标准

面试中,肯定有数仓同学被问到:数据模型如何去评估、如何优化,那今天就聊一聊这个话题。 基本概念 模型:表达的是某一个主题、某一个业务过程,赋值业务价值,最终落地还是一个建表的过程 数仓模型&#xf…...

121231

实打实大苏打...

【机器学习】逻辑回归原理(极大似然估计,逻辑函数Sigmod函数模型详解!!!)

目录 🍔 逻辑回归应用场景 🍔 极大似然估计 2.1 为什么要有极大似然估计? 2.2 极大似然估计步骤 2.3 极大似然估计的例子 🍔 Sigmod函数模型 3.1 逻辑斯特函数的由来 3.2 Sigmod函数绘图 3.3 进一步探究-加入线性回归 3…...

网络热门编程项目导学:黑马点评

本文作者:程序员鱼皮 免费编程学习 - 编程导航网:https://www.code-nav.cn 大家好,我是鱼皮。 之前已经给大家分享了三个全栈项目,比如瑞吉外卖什么的,这几个项目都是侧重于带大家学习框架的运用、以及一些简单的业务…...

如何在本地和远程删除 Git 分支?

如何在本地和远程删除 Git 分支? 欢迎来到英杰社区https://bbs.csdn.net/topics/617804998 欢迎来到我的主页,我是博主英杰,211科班出身,就职于医疗科技公司,热衷分享知识,武汉城市开发者社区主理人 擅长.n…...

08 STM32 DMA

DMA 协助CPU,完成数据转运工作。 两个程序: DMA数据转运,DMAAD多通道 DMA数据转运,将使用DMA,进行存储器到存储器的数据转运,也就是把一个数组里面的数据,复制到另一个数组里。 定义一个数组D…...

LLM之基于llama-index部署本地embedding与GLM-4模型并初步搭建RAG(其他大模型也可,附上ollma方式运行)

前言 日常没空,留着以后写 llama-index简介 官网:https://docs.llamaindex.ai/en/stable/ 简介也没空,以后再写 注:先说明,随着官方的变动,代码也可能变动,大家运行不起来,可以进…...

Python 异步爬虫:高效数据抓取的现代武器

标题:“Python 异步爬虫:高效数据抓取的现代武器” 在当今信息爆炸的时代,网络爬虫已成为数据采集的重要工具。然而,传统的同步爬虫在处理大规模数据时往往效率低下。本文将深入探讨如何使用 Python 实现异步爬虫,以提…...

【数据结构算法经典题目刨析(c语言)】使用数组实现循环队列(图文详解)

💓 博客主页:C-SDN花园GGbond ⏩ 文章专栏:数据结构经典题目刨析(c语言) 目录 一.题目描述 二.解题思路 1.循环队列的结构定义 2.队列初始化 3.判空 4.判满 5.入队列 6.出队列 7.取队首元素 8.取队尾元素 三.完整代码实…...

PTA L1-005 考试座位号

L1-005 考试座位号(15分) 每个 PAT 考生在参加考试时都会被分配两个座位号,一个是试机座位,一个是考试座位。正常情况下,考生在入场时先得到试机座位号码,入座进入试机状态后,系统会显示该考生…...

软件测试3333

禅道? 学习正则表达式 目标: 能说出软件测试缺陷判定标准 能说出项目中缺陷的管理系统 能使用Excel对于缺陷进行管理 能使用工具管理缺陷 一、用例执行 说明:用例执行不通过,执行结果与用例的期望结果不一致(含义&…...

JJJ:结构体定义中常加的后缀:attribute ((packed))

__attribute__ ((packed)): 的作用就是告诉编译器取消结构体在编译过程中的优化对齐,按照实际占用字节数进行对齐,是GCC特有的语法。这个功能是跟操作系统没关系,跟编译器有关 在GCC下:struct my{ char ch; int a;} sizeof(int)4…...

【HTML】DOCTYPE作用

<!DOCTYPE html> DOCTYPE是document type&#xff08;文档类型&#xff09;的缩写。是HTML5中一种标准通用标记语言的文档类型声明&#xff0c;告诉浏览器文档的类型&#xff0c;便于解析文档。不同渲染模式会影响浏览器对CSS代码甚至JS脚本的解析。它必须声明在第一行。…...

STM32学习记录-04-EXTI外部中断

1 中断系统 &#xff08;1&#xff09;中断&#xff1a;在主程序运行过程中&#xff0c;出现了特定的中断触发条件&#xff08;中断源&#xff09;&#xff0c;使得CPU暂停当前正在运行的程序&#xff0c;转而去处理中断程序&#xff0c;处理完成后又返回原来被暂停的位置继续…...

Android Studio 动态表格显示效果

最终效果 一、先定义明细的样式 table_row.xml <?xml version"1.0" encoding"utf-8"?> <RelativeLayout xmlns:android"http://schemas.android.com/apk/res/android"android:layout_width"match_parent"android:layout_h…...

Python 全栈系列264 使用kafka进行并发处理

说明 暂时考虑的场景是单条数据处理特别复杂和耗时的场景。 场景如下&#xff1a; 要对一篇文档进行实体处理&#xff0c;然后再对实体进行匹配。在这个过程当中&#xff0c;涉及到了好几部分服务&#xff1a; 1 实体识别服务2 数据库查询服务3 es查询服务 整个处理包成了服…...

【安全靶场】-DC-7

❤️博客主页&#xff1a; iknow181 &#x1f525;系列专栏&#xff1a; 网络安全、 Python、JavaSE、JavaWeb、CCNP &#x1f389;欢迎大家点赞&#x1f44d;收藏⭐评论✍ 一、收集信息 1.查看主机是否存活 nmap -T4 -sP 192.168.216.149 2.主动扫描 看开放了哪些端口和功能 n…...

0065__windows开发要看的经典书籍

windows开发要看的经典书籍_window编程书籍推荐-CSDN博客...

第133天:内网安全-横向移动域控提权NetLogonADCSPACKDC永恒之蓝

案例一&#xff1a;横向移动-系统漏洞-CVE-2017-0146 这个漏洞就是大家熟悉的ms17-010&#xff0c;这里主要学习cs发送到msf&#xff0c;并且msf正向连接后续 原因是cs只能支持漏洞检测&#xff0c;而msf上有很多exp可以利用 注意msf不能使用4.5版本的有bug 这里还是反弹权…...

【IoTDB 线上小课 06】列式写入=时序数据写入性能“利器”?

【IoTDB 视频小课】更新来啦&#xff01;今天已经是第六期了~ 关于 IoTDB&#xff0c;关于物联网&#xff0c;关于时序数据库&#xff0c;关于开源... 一个问题重点&#xff0c;3-5 分钟&#xff0c;我们讲给你听&#xff1a; 列式写入到底是&#xff1f; 上一期我们详细了解了…...

开源客户端工具设计:从API封装到健壮实现的工程实践

1. 项目概述&#xff1a;一个开源客户端工具的诞生与价值在开源世界里&#xff0c;我们经常会遇到一些功能强大但使用门槛较高的服务端项目。它们往往提供了核心的API或服务&#xff0c;但缺少一个能让普通用户或开发者快速上手、直观操作的“门面”。lotsoftick/openclaw_clie…...

基于RAG的智能文档问答系统:从原理到DocsGPT实战部署

1. 项目概述&#xff1a;当文档库遇上大语言模型如果你和我一样&#xff0c;经常需要和一堆技术文档、API手册或者内部知识库打交道&#xff0c;那你肯定体会过那种“大海捞针”的痛苦。明明知道答案就在某个PDF、某个网页或者某个Markdown文件里&#xff0c;但你就是找不到。传…...

C++默认成员函数

构造函数构造函数是特殊的成员函数&#xff0c;需要注意的是&#xff0c;构造函数虽然名称叫构造&#xff0c;但是构造函数的主要任务并不是开空间创建对象(局部对象在栈帧创建时&#xff0c;空间就开好了)&#xff0c;而是对象实例化时初始化对象。构造函数的本质是要替代我们…...

Eur J Nucl Med Mol Imaging(IF=7.6)南方医科大学南方医院北京协和医院等团队:基于PET/CT的深度学习预测食管癌PD-L1与免疫疗效

01文献学习今天分享的文献是由南方医科大学南方医院联合西安电子科技大学、北京协和医院等团队于2025年8月在《European Journal of Nuclear Medicine and Molecular Imaging》&#xff08;中科院1区&#xff0c;IF7.6&#xff09;上发表的研究“Deep learning-based non-invas…...

Qt Creator 6.0.2 保姆级配置指南:从深色主题到代码字体,打造你的专属开发环境

Qt Creator 6.0.2 深度定制指南&#xff1a;打造高效舒适的开发环境 当你第一次打开Qt Creator时&#xff0c;是否感觉这个界面既熟悉又陌生&#xff1f;就像搬进一间精装修的房子&#xff0c;虽然功能齐全&#xff0c;但总少了些个人特色。本文将带你从零开始&#xff0c;像装…...

【光学】基于菲涅尔光谱和角光谱ASPSAP模拟聚焦高斯光束传播附Matlab代码

​✅作者简介&#xff1a;热爱科研的Matlab仿真开发者&#xff0c;擅长毕业设计辅导、数学建模、数据处理、程序设计科研仿真。&#x1f34e;完整代码获取 定制创新 论文复现点击&#xff1a;Matlab科研工作室&#x1f447; 关注我领取海量matlab电子书和数学建模资料 &#x1…...

告别简单门禁:用KP-ABE(密钥策略属性基加密)为你的云盘文件打造精细到‘行’的访问控制

告别简单门禁&#xff1a;用KP-ABE为云盘文件打造精细到"行"的访问控制 想象一下这样的场景&#xff1a;一份包含市场预算、产品路线图和财务数据的项目文档&#xff0c;需要让市场团队查看营销章节但隐藏成本细节&#xff0c;允许产品经理编辑技术方案但仅能阅读财务…...

别再套用老模板了!我们敏捷团队实战打磨的PRD模板2.5版,附Axure源文件

敏捷团队PRD模板2.5版&#xff1a;从理论到实战的轻量化解决方案 在快节奏的敏捷开发环境中&#xff0c;传统PRD文档往往成为拖累团队效率的"纸面工程"。我们团队在经历37次迭代后&#xff0c;发现市面上90%的模板都存在三个致命问题&#xff1a;过度文档化导致维护成…...

Infineon DPS310压力传感器评估与开发实践

1. Infineon DPS310压力传感器评估环境解析在当今快速发展的消费电子领域&#xff0c;高精度压力传感器已成为无人机、可穿戴设备和室内外导航等应用的核心组件。作为行业领先的解决方案&#xff0c;Infineon DPS310凭借其出色的性能和完整的评估环境&#xff0c;为工程师提供了…...

告别重启!用JRebel插件在IDEA里实现Java代码秒级热更新(附最新激活与离线配置)

告别重启&#xff01;用JRebel插件在IDEA里实现Java代码秒级热更新&#xff08;附最新激活与离线配置&#xff09; 每次修改Java代码后漫长的重启等待&#xff0c;是否让你在调试时频繁分心&#xff1f;传统开发流程中&#xff0c;即使是微小的代码调整也需要重新编译、部署&am…...