2、数仓理论概述与相关概念
1、问:数据仓库 建设过程中 经常会遇到那些问题?
模型(逻辑)重复建设
数据不一致性
维度不一致:命名、维度属性值、维度定义
指标不一致:命名、计算口径
数据不规范(字段命名、表名、分层、主题命名规范)
2、OneData数据建设核心方法论?

3、OneData数据建设体系架构?

4、数据仓库中经常用到的概念?
4.1 什么是 业务过程?
指的是 企业活动中的一个行为事件,如 下单、支付、退款都是业务过程
业务过程是一个不可拆分的行为事件,也可以说 业务过程 = 企业活动中的事件
4.2 什么是 数据域/主题域?
指定是 将业务过程或者维度进行抽象的集合
为保证数仓的稳定性,数据域需要抽象提炼,并且长期维护和更新,但不轻易变动。
4.3 什么是 度量/原子指标?
原子指标和度量含义相同,是基于某个业务过程下的度量值,表示不可再拆分的指标
经常以数值的形式出现,具有明确的业务含义的名称,如支付金额
4.4 什么是 修饰词?
业务过程中对业务场景限定的抽象(除维度以外),例如 流量域中有修饰词 PC端、APP端
4.5 什么是 修饰类型?
对修饰词抽象划分,修饰类型从属于某个业务域
如流量域中有访问终端类型,该类型下有 PC端、移动端
4.6 什么是 维度?
维度是业务过程中度量的环境,也可以称为实体对象
4.7 什么是 维度属性?
维度属性隶属于一个维度,是维度的组成部分
如 地理维度包含(国家、地区、省份、城市等级等属性)
4.8 什么是 时间周期?
用来明确数据统计的时间范围或者时间点,如最近30天、自然周、历史至今
4.9 什么是 派生指标?
派生指标 = 一个原子指标 + 修饰词(可选多个) + 时间周期
可以理解为 对原子指标按照业务统计范围的圈定
例如:原子指标:支付金额
派生指标:最近1天海外买家的支付金额
(最近一天为时间周期、海外为修饰词、买家为维度)
5、指标体系的构成是什么?

原子指标:
含义:某个业务过程中不可拆分的度量
构成:动作 + 度量
示例:支付金额、借款金额
派生指标:
含义:将原子指标按照业务范围的圈定(聚合)
构成:多个修饰词(可选) + 时间周期 + 原子指标
示例:最近一天海外买家的支付金额
派生指标分类:
事务型指标、存量型指标、复合型指标
事务型指标:
含义:对某个业务活动进行衡量的指标
示例:订单支付金额、新增会员数
存量型指标:
含义:对实体对象(如商品、会员)某些状态的统计
示例:商品总数、注册会员数
复合型指标:
含义:在 事务型指标和存量型指标的基础上复合而成
示例:流量UV-下单买家数的转化率
6、数仓中模型设计时的指导理论?
设计数据模型时,主要以维度建模为理论基础,基于维度数据模型总线架构,构建一致性的维度和一致性的事实。
7、问:数据仓库为什么要分层设计(分层的好处)?
分层能够使数据有秩序的流转,数据的生命周期能够清晰的被数仓开发人员和使用人员感知到
数据结构清晰:
每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解
减少重复开发:
规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算
统一数据口径:
通过数据分层,提供统一的数据出口,统一对外输出的数据口径
复杂问题简单化:
将一个复杂的任务分解成多个步骤来完成,每一层解决特定的问题
通过构建全域的公共层数据,极大地控制了数据规模的增长,同时也能提高数据研发的效率
,解约成本,提高性能。

8、问:数据仓库应该如何分层?

ODS_数据操作层:
存储数据特点:各个业务系统的原始数据、日志数据、第三方数据
数据加工方式:几乎无处理(基础清洗数据)
作用:数据同步(增量、全量),清洗,保存历史
CDM_公共维度模型层:
存储数据特点:存放明细事实数据、维度数据、公共指标汇总数据
细分: DWD、DWS
作用:提升公共指标的复用性,减少重复加工
DWD_明细数据层:
存储数据特点:存放明细事实数据
数据加工方式:
以维度建模为理论基础,将业务相同或相似且粒度相同的数据放到同一个模型中
采用维度退化的手段,来构建明细宽表,基于ODS和DIM表加工而成
作用:
1、整合业务相同或相似数据:
构建明细宽表,复用关联计算,减少数据扫描(DWD)
2、公共指标统一加工:
基于 OneData体系构建 命名规范、口径统一、算法统一的统计指标
为上层数据产品、应用、服务提供公共指标,并建立汇总宽表
3、构建一致性维度:
建立一致性的维表,降低多维度分析时计算口径、算法不统一的风险
DWS_汇总数据层:
存储数据特点:公共指标汇总数据
数据加工方式:
加强指标的维度退化,采用宽表化手段,构建公共指标数据层
常基于DWD和DIM表加工而成
作用:
存放公共指标汇总数据,构建公共指标宽表,提升公共指标的复用性、减少重复加工
ADS_应用数据层:
存储数据特点:存储个性化的统计指标数据
作用:计算个性化的指标(没有公用性,复杂)、基于应用的数据组装(跨主体构建宽表)
9、问:下游使用数仓模型时,应该遵循哪些原则?
优先使用公共维度模型层(CDM)数据,当公共层没有数据时,需要评估是否需要创建公共层数据,当不需要建设公共层数据时,方可直接使用操作数据层数据(ODS)

相关文章:
2、数仓理论概述与相关概念
1、问:数据仓库 建设过程中 经常会遇到那些问题? 模型(逻辑)重复建设 数据不一致性 维度不一致:命名、维度属性值、维度定义 指标不一致:命名、计算口径 数据不规范(字段命名、表名、分层、主题命名规范) 2、OneData数据建设核心方…...
YOLOv5 分类模型 OpenCV和PyTorch两者实现预处理的差异
YOLOv5 分类模型 OpenCV和PyTorch两者实现预处理的差异 flyfish PyTorch封装了PIL库 简单对比下两者的使用方法 import cv2 from PIL import Image import numpy as npfull_path_file_name"/media/a//ILSVRC2012_val_00001244.JPEG"#OpenCV读取图像默认是BGR顺序 …...
使用NPOI处理EXCEL文件:例1-关于优化的一些问题
记得有一次处理Excel文件对比,自己前后使用VBA和NPOI对比了下效率。由于涉及到页面的渲染和刷新,二者的处理速度差了个数量级(10多秒和几十分钟的差别)。当然使用NPOI操作时也做了一定优化。印象这么深刻这次一有需求就想到了NPOI…...
连接k8s和凌鲨
通过连接k8s和凌鲨,可以让研发过程中的重用操作更加方便。 更新容器镜像调整部署规模查看日志运行命令 架构 所有操作通过k8s proxy连接,通过设置namespace label赋予访问权限。只有赋予特定label的namespace才能被访问。 使用步骤 部署k8s proxy 你…...
C语言——结构体的应用
归纳编程学习的感悟, 记录奋斗路上的点滴, 希望能帮到一样刻苦的你! 如有不足欢迎指正! 共同学习交流! 🌎欢迎各位→点赞 👍 收藏⭐ 留言📝 路还在继续,梦还在期…...
人机交互——机器人形态
1.聊天机器人 2.任务型机器人 3.面向FAQ的问答机器人 4.面向KB的问答机器人...
BGP的基础知识
BGP——边界网关协议 IGP——内部网关协议——OSPF、RIP、ISIS EGP——外部网关协议——EGP、BGP 边界网关协议BGP是一种实现自治系统AS之间的路由可达,并选择最佳路由的路径矢量路由协议。目前在IPV4环境下主要使用BGPV4,目前市场上也存在BGPV4&…...
2023.11.18 每日一题(AI自生成应用)【C++】【Python】【Java】【Go】 动态时间序列分析
目录 一、编程挑战:动态时间序列分析 实际应用: 实现提示: 二、实现 1. C 2. Python 3. JAVA 4. Go 一、编程挑战:动态时间序列分析 问题描述: 假设你是一名软件工程师,需要开发一个应用来分析和预…...
uniapp相关记录
一、自定义我的物品组件 my_goods.vue <template><view class"goods-item"><!-- 左侧 --><view class"goods-item-left"><radio :checked"goods.goods_state" color"#c00000" v-if"showRadio" …...
优质猫罐头有哪些品牌?分享5款宠物店自用值得推荐的猫罐头!
不知不觉已经开宠物店7年啦,店里的猫猫大大小小也算是尝试过很多品牌的猫罐头了。优质猫罐头有哪些品牌?在猫罐头的选购上一开始我也是踩了很多坑,各种踩雷。我深知猫罐头的各种门道,新手一不小心就会着道了。 优质猫罐头有哪些品…...
HTML新手入门笔记整理:HTML基本标签
结构标签 <html> </html> 告诉浏览器这个页面是从<html> 开始,到 </html>结束 <head> </head> 网页的头部,用于定义一些特殊内容,如页面标题、定时刷新、外部文件等。 <body> </body> …...
Redis高级特性和应用(发布 订阅、Stream)
目录 发布和订阅 操作命令 发布消息 订阅消息 查询订阅情况 查看活跃的频道 查看频道订阅数 使用场景和缺点 Redis Stream Stream总述 常用操作命令 生产端 消费端 单消费者 消费组 创建消费组 消息消费 在Redis中实现消息队列 基于pub/sub 基于Stream Re…...
RoCE、IB和TCP等网络的基本知识及差异对比
目前有三种RDMA网络,分别是Infiniband、RoCE(RDMA over Converged Ethernet)、iWARP。 其中,Infiniband是一种专为RDMA设计的网络,从硬件级别保证可靠传输 ,技术先进,但是成本高昂。 而RoCE 和 iWARP都是基于以太网的…...
c语言-操作符详解(含优先级与结合性)
文章目录 了解什么是操作数、操作符操作数:操作符 操作符详解:1.算术操作符: 、- 、* 、/ 、%2.移位操作符: << >>3.位操作符: & | ^4. 赋值操作符: 、 、 - 、 * 、 / 、% 、<< 、>> 、& 、| 、^5. 单⽬操…...
ubuntu安装nvm
需求 在 virtualbox 虚拟机上运行的 ubuntu (22.04.3)里安装 nvm (Node Version Manager) 简述 官网文档 (github地址)上有提到两种安装方式,一种是直接 curl | wget 命令安装,一…...
opengl制作天空盒
首先创建顶点数组 unsigned int m_uiVaoBufferID; glGenVertexArrays(1, &m_uiVaoBufferID); 然后创建顶点缓冲区 float skyboxVertices[] {// positions-1.0f, 1.0f, -1.0f,-1.0f, -1.0f, -1.0f,1.0f, -1.0f, -1.0f,1.0f, -1.0f, -1.0f,1.0f, 1.0f, -1.0f,-1.0f, 1.…...
单片机和FreeRTOS上跑机器人ROS的应用
机器人的应用越来越广泛了,大家熟知的稚晖君直接创业搞机器人,可想而至,接下来的十年,机器人绝对是热门的行业。 目前市面上很多机器人都是基于一套叫做ROS的系统开发的,今天就给大家分享一个跑在MCU上,基…...
Spring Cloud学习(十一)【深入Elasticsearch 分布式搜索引擎03】
文章目录 数据聚合聚合的种类DSL实现聚合RestAPI实现聚合 自动补全拼音分词器自定义分词器自动补全查询completion suggester查询RestAPI实现自动补全 数据同步数据同步思路分析实现elasticsearch与数据库数据同步 集群搭建ES集群创建es集群集群状态监控创建索引库1)…...
【gitlab初始密码登录失败】
gitlab初始密码登录失败 修改密码 修改密码 [rootlocalhost ~]# gitlab-rake "gitlab:password:reset[root]" Enter password: Confirm password: Password successfully updated for user with username root. # 再重新配置gitlab [rootlocalhost ~]# gitlab-ctl…...
2017年全国硕士研究生入学统一考试管理类专业学位联考数学试题——解析版
文章目录 2017 级考研管理类联考数学真题解析一、问题求解(本大题共 5 小题,每小题 3 分,共 45 分)下列每题给出 5 个选项中,只有一个是符合要求的,请在答题卡上将所选择的字母涂黑。真题(2017-…...
别再用`--ignore-certificate-errors`了!Electron WebView HTTPS白屏的三种更优解
别再用--ignore-certificate-errors了!Electron WebView HTTPS白屏的三种更优解 当你在Electron应用中遇到WebView加载HTTPS页面时出现白屏,第一反应可能是搜索解决方案并找到--ignore-certificate-errors这个看似简单的修复方法。但作为一名有经验的Ele…...
新手福音:在快马平台用交互式脚本零失败安装ccswitch
最近在折腾网络配置时,发现ccswitch这个工具特别实用,但安装过程对新手来说确实不太友好。作为一个过来人,我决定在InsCode(快马)平台上制作一个零失败的交互式安装脚本,帮助其他初学者顺利跨过这个门槛。 为什么需要交互式安装脚…...
用 AI 智能体自动写代码、自动测代码、自动部署,全程零手动操作
前言 以前写代码:自己构思→敲代码→本地调试→改 Bug→打包→传服务器→配置环境→上线部署,一套流程耗几小时。 现在AI Agent 智能体可以做到:你只说需求一句话,智能体自动:需求分析 → 生成完整代码 → 自动写单元…...
别再死记硬背‘枚举’和‘哈希’了!通过‘奶牛拼图’这道趣题,真正理解它们的应用场景与配合
从奶牛拼图到算法思维:枚举与哈希的趣味实践 想象一下,一群奶牛围坐在谷仓里,不是在咀嚼干草,而是在玩单词拼图游戏。它们对"MOO"这个词情有独钟,甚至发明了一套加密系统来保护自己的拼图不被农夫约翰轻易破…...
Audacity音频编辑框架:从信号处理到现代架构的技术演进
Audacity音频编辑框架:从信号处理到现代架构的技术演进 【免费下载链接】audacity Audio Editor 项目地址: https://gitcode.com/GitHub_Trending/au/audacity Audacity作为开源音频编辑软件的标杆,其技术架构的演进历程反映了音频处理领域从传统…...
MCP协议开源工具库:构建安全可控的AI智能体工作环境
1. 项目概述:MCP协议下的开源工具库最近在折腾AI应用开发,特别是想让大语言模型(LLM)能更“接地气”地操作我本地的工具和数据时,绕不开一个概念——模型上下文协议(Model Context Protocol, MC…...
图像处理避坑指南:RAW10/RAW12的Packed与Unpacked存储差异及MIPI CSI-2接收解析
图像处理避坑指南:RAW10/RAW12的Packed与Unpacked存储差异及MIPI CSI-2接收解析 在嵌入式图像处理领域,RAW数据的处理效率直接影响整个ISP pipeline的性能。当你在调试一款新的图像传感器时,是否遇到过这样的场景:明明配置了正确的…...
固件加固真的会变砖吗?详解测试验证、OTA兼容与风险责任界定
“方案听起来不错,但万一加固后设备变砖怎么办?”这是每次和硬件团队聊固件安全,他们问的第一个问题。这个担心太正常了。系统级的改动,一旦出问题就是批量性的,而且很多团队都听过“某某项目因为加固导致OTA失败&…...
从面包板到智能家居:用Arduino Uno和几个传感器打造你的第一个物联网项目
从面包板到智能家居:用Arduino Uno和几个传感器打造你的第一个物联网项目 当你第一次接触Arduino时,可能觉得它只是个点亮LED的小玩具。但今天,我们要打破这个刻板印象。想象一下,早晨醒来,窗帘自动拉开,咖…...
将Hermes Agent的模型提供商切换至Taotoken的配置要点
将Hermes Agent的模型提供商切换至Taotoken的配置要点 1. 准备工作 在开始配置前,请确保已安装Hermes Agent框架并具备基本运行环境。同时需要在Taotoken控制台获取有效的API Key,并在模型广场确认目标模型的ID。这些信息将用于后续配置步骤。 2. 配置…...
