数据库、数据仓库、数据中台、数据湖相关概念
文章目录
- 序言
- 1数据库,数据仓库,数据中台,数据湖-概念对比释义
- 1.1概念产生的时间顺序
- 1.2在使用功能方面对比
- 1.3在使用工具方面对比
- 2数据仓库
- 2.1数据仓库的发展阶段
- 2.2 数据仓库的设计
- 2.3数据仓库常用工具,方法
- 2.3.1分析型数据库和关系数据库区别
- 2.3.2常用ETL工具
- 2.3.3常用的任务调度工具介绍
序言
简单的回顾记录一下,数据库,数据仓库,数据中台,数据湖的概念。
避免混淆了。
1数据库,数据仓库,数据中台,数据湖-概念对比释义
通常而言,数据库概念,一般说的是传统数据库,或者说关系型数据库。
不传统的数据库,就是存非结构化数据了。涉及到数据的增删改查。
而数据仓库,使用时主要是查询为主,约束不像关系型那么严格。
在互联网还是搜索引擎和电脑网页浏览冲浪的时间段,主要就是上述这两个概念或者说配套工具就够用了。【这个时间点,应该有很多人在用小屏手机刷盗版小说。当时常用的,迅雷,优酷,百度网盘,金山打字,office四件套,windows7】
前两个整的久了,就有了数据中台,数据湖概念。
对应的互联网时代,乔布斯搞出来智能手机后,移动互联网广泛铺开之后,外加有了能联网的一些IOT设备,对应的是手机电商购物app,自媒体平台啊,抖音啊,美团啊,脸书,油管等等等等。前两个概念,在中小企业还是够用的,在大企业就不够用了,于是,就有了后两个概念及配套工具。
我认为前两个概念比较基础,现在解释一下不会有歧义,而后两个概念及配套工具,截止目前2025还在发展调整,所以后文不会讲太多。
参考链接
https://zhuanlan.zhihu.com/p/890301514
https://zhuanlan.zhihu.com/p/1898757990221353099
https://www.aliyun.com/getting-started/what-is/what-is-data-lake
1.1概念产生的时间顺序
先有基础的数据库,然后才有的数据仓库概念。这两个概念,都会用到关系型数据库,对于数据的存储过程,有进行范式约束,数据库严格,数据仓库宽松一些,这样方便进行数据管理使用。
再后来,出现了更多的非结构化数据,文本啊,图片啊,视频啊,音频啊。这些数据存储多了,就有了数据湖的概念。这个概念2015年提出来的。比前面两个概念要晚了快50年。
数据中台也是2015年提出来的,简单的理解就是对数据集中处理的一个开发平台,有点像pycharm,ide一样,就是集成开发工具,或者说,就是一个专门面向数据构建处理的一个操作平台。
1.2在使用功能方面对比
数据库涉及到的有增删改查,颗粒度基本上都是最细的层级。
数据仓库涉及到的数据量更大,主要就是查询,同时数据具备不同层次的颗粒度,相当于存储了非常多不同主题的统计指标。
其次,数据仓库的构建也会涉及到更多的专项主题,例如某一个财务方向的bi面板主题,以及一个生产流程业务指标的bi面板主题,二者所涉及到的下钻指标,都是有所差异的。
1.3在使用工具方面对比
数据库和数据仓库所使用的的。差距并不是特别大,基本上都会用到一些常规的etl工具,然后是数据库模式的设计工具,然后就是一些任务调度啥的。
2数据仓库
数据库,简单分类,关系型,非关系型。mysql,oracle,mongodb,基本上了解一下表结构设计的范式,会写sql就能用起来了。以前我有文章梳理了,所以我这里不做赘述。
数据仓库,就是从不同数据库A\B\C\D\E里,拉过来一堆数据,存到一个新的库OLAP里,这个库里存的数据更多,颗粒度更多,但是实时性没有前面的几个高,然后这个OLAP库,就是数据仓库了。
2.1数据仓库的发展阶段
数据仓库产生条件,不同数据库之间的数据太多太分散了,分布在好几个服务器里,不能直接一个sql查,需要先查出来集成到一起。
于是就数据仓库,就把数据库给集成了,给搞到一个服务器里,或者几个集成一起的分布式平台,这样查数据就方便了,还是一个sql跑一跑就完事,集成的多了,自然就需要更大的空间。
参考链接:
https://blog.csdn.net/weixin_39032019/article/details/107386931
https://notomato.blog.csdn.net/article/details/120306023
2.2 数据仓库的设计
数据仓库设计原则
参考链接:
https://blog.csdn.net/a1473227656/article/details/136576973
简单的说,就是bi分析面板完整就行,最好面板上数据下钻快,没有缺失数据,而且能及时刷新没有延迟,就完了。
参考链接
https://www.fanruan.com/blog/article/335588/
https://developer.baidu.com/article/detail.html?id=401808
2.3数据仓库常用工具,方法
数据仓库和数据库在使用工具上,有几个点是有交集的。
1都得用数据库,只是类型有所差异,mysql,doris爱用啥用啥
2用数据库以后,都得用到数模表定义工具,powerdesigner啥的
3都会涉及到数据的etl,不同表格之间数据ETL,不同数据库之间的ETL等,都会涉及到etl工具
4使用etl工具后,假如涉及到大量数据的同步处理,那么就会使用到一些任务调度工具,xxljob,airflow, DolphinScheduler等。
反正不限于ETL,随便什么任务或程序,只要涉及到周期性触发,条件触发,都会用到任务调度工具,就跟闹钟一样。
参考链接:
https://blog.csdn.net/qq_44696532/article/details/124295101
https://cloud.tencent.com/developer/article/2061289
https://blog.csdn.net/ok060/article/details/130964387
个人纯主观认为数据仓库和数据库差异最大的地方不在工具上,最大的差异就是二者的定义,关系型数据库olap,数据仓库主要oltp
参考链接
https://cloud.tencent.com/developer/article/1496285
2.3.1分析型数据库和关系数据库区别
分析型数据:Greenplum、ClickHouse、Doris、StarRocks等
关系数据库:mysql,oracle,sqlite , postgresql, sql server等
参考链接:
https://www.zhihu.com/question/544332548
https://www.selectdb.com/blog/1101
2.3.2常用ETL工具
sqoop,datax,kettle等等。navicate,dbeaver这种算数据库管理工具,不算etl,当然也有一些些ETL功能就是。
参考链接
https://cloud.tencent.com/developer/article/2061289
https://cloud.tencent.com/developer/article/1531141?policyId=1004
2.3.3常用的任务调度工具介绍
基本上都是开源的任务调度工具。xxljob,airflow, DolphinScheduler,Oozie
其中海豚调度,有开源版本和商业版本。
搞开发的人,都会涉及一些定时任务,定时任务多了,任务复杂了,任务流程多了,任务流程时间久,自然就会有这种任务调度工具的出现。
参考链接:
https://zhuanlan.zhihu.com/p/668612821
XXL-JOB简单介绍:https://blog.csdn.net/m0_65152767/article/details/141865495
airflow介绍: https://blog.csdn.net/yuan_jiaoyoung/article/details/129302903
海豚调度官网文档:https://dolphinscheduler.apache.org/zh-cn/docs/3.3.0-alpha
相关文章:
数据库、数据仓库、数据中台、数据湖相关概念
文章目录 序言1数据库,数据仓库,数据中台,数据湖-概念对比释义1.1概念产生的时间顺序1.2在使用功能方面对比1.3在使用工具方面对比 2数据仓库2.1数据仓库的发展阶段2.2 数据仓库的设计2.3数据仓库常用工具,方法2.3.1分析型数据库和…...

模拟搭建私网访问外网、外网访问服务器服务的实践操作
目录 实验环境 实践要求 一、准备工作 1、准备四台虚拟机,分别标号 2、 防火墙额外添加两块网卡,自定义网络连接模式 3、 关闭虚拟机的图形管理工具 4、关闭防火墙 5、分别配置四台虚拟机的IP地址,此处举一个例子(使用的临…...
【RAG召回】BM25算法示例
rank-bm25 功能示例 本篇将通过多个示例,快速展示 rank-bm25 库的核心功能。不使用jieba。 准备工作 首先,确保您已经安装了 rank-bm25。 pip install rank-bm25接下来,我们定义一个通用的中文语料库和分词函数。这里我们使用简单的单字切…...

vue中Echarts的使用
文章目录 Echarts概述什么是EchartsEcharts的好处 Vue中Echarts的使用Echarts的安装Echarts的引入 Echarts概述 什么是Echarts Apache ECharts:一个基于 JavaScript 的开源可视化图表库。 其官网如下:https://echarts.apache.org/zh/index.html Echar…...

【C++项目】负载均衡在线OJ系统-1
文章目录 前言项目结果演示技术栈:结构与总体思路compiler编译功能-common/util.hpp 拼接编译临时文件-common/log.hpp 开放式日志-common/util.hpp 获取时间戳方法-秒级-common/util.hpp 文件是否存在-compile_server/compiler.hpp 编译功能编写(重要&a…...
Linux环境-通过命令查看zookeeper注册的服务
假设前置条件如下: 1.root权限用户名:zookeeper 2.zookeeper所在服务器地址:168.7.3.254(非真实ip) 3.zookeeper的bin文件路径:/opt/zookeeper/bin 4.确保zookeeper注册中心已启动 查看注册中心服务如下&a…...

Spring Boot微服务架构(十一):独立部署是否抛弃了架构优势?
Spring Boot 的独立部署(即打包为可执行 JAR/WAR 文件)本身并不会直接丧失架构优势,但其是否体现架构价值取决于具体应用场景和设计选择。以下是关键分析: 一、独立部署与架构优势的关系 内嵌容器的优势保留 Spring Boot 独立部署…...

(四)Linux性能优化-CPU-软中断
软中断 中断其实是一种异步的事件处理机制,可以提高系统的并发处理能力 由于中断处理程序会打断其他进程的运行,所以,为了减少对正常进程运行调度的影响,中断处理程序就需要尽可能快地运行 Linux 将中断处理过程分成了两个阶段&a…...
SCADA|RESTful学习,Apipost通过GET获取KingSCADA实时数据
哈喽,你好啊,我是雷工! 以前记录过一篇《安装APIPost工具,了解RESTful》的笔记。 最近涉及到SCADA程序和MES对接,这种信息化的对接,常常要用到RESTful。 好像还有什么Webservices,我是听的一头雾水。 根本听不懂啊,于是加班补补课,先了解下RESTful。 01 RESTful传…...
【CSS-7】深入解析CSS伪类:从基础到高级应用
CSS伪类是前端开发中不可或缺的强大工具,它们允许我们根据文档树之外的信息或简单选择器无法表达的状态来样式化元素。本文将全面探讨CSS伪类的各种类型、使用场景和最佳实践。 1. 伪类基础概念 1.1 什么是伪类? 伪类(Pseudo-class&#x…...

QT的工程文件.pro文件
文章目录 QT的工程文件.pro文件QT5中的基本模块Qt CoreQt GUIQt WidgetsQt QMLQt QuickQt NetworkQt SQLQt MultimediaQt ConcurrentQt WebEngineQt TestLib TARGET 可选择的模版CONFIG的配置项 QT的工程文件.pro文件 每一个QT项目都至少有一个.pro文件,用来配置项目…...
用 DeepSeek 高效完成数据分析与挖掘
一、DeepSeek 是什么? DeepSeek 是由深度求索推出的智能助手(当前版本 DeepSeek-R1),具备强大的自然语言理解、代码生成与数据分析能力。它支持 128K超长上下文,可处理复杂数据文档,并直接生成可运行的 Python 数据分析代码,是数据工作者的“AI副驾驶”。 二、DeepSeek…...

安科瑞防逆流方案落地内蒙古中高绿能光伏项目,筑牢北疆绿电安全防线
一、项目概况 内蒙古阿拉善中高绿能能源分布式光伏项目,位于内蒙古乌斯太镇,装机容量为7MW,采用自发自用、余电不上网模式。 用户配电站为35kV用户站,采用两路电源单母线分段系统。本项目共设置12台35/0.4kV变压器,在…...
stress 服务器压力测试的工具学习
一、stress 工具介绍 tress 是一种工具,可以对符合 POSIX 标准的操作系统施加可配置数量的 CPU、内存、I/O 或磁盘压力,并报告其检测到的任何错误。 stress 不是一个基准测试。它是由系统管理员用来评估其系统扩展性的工具,由内核程序员用来…...

在本地电脑中部署阿里 Qwen3 大模型及连接到 Elasticsearch
在今天的文章中,我将参考文章 “使用 Elastic 和 LM Studio 的 Herding Llama 3.1” 来部署 Qwen3 大模型。据测评,这是一个非常不错的大模型。我们今天尝试使用 LM Studio 来对它进行部署,并详细描述如何结合 Elasticsearch 来对它进行使用。…...

八股---7.JVM
1. JVM组成 1.1 JVM由哪些部分组成?运行流程? 难易程度:☆☆☆ 出现频率:☆☆☆☆ Java Virtual Machine:Java 虚拟机,Java程序的运行环境(java二进制字节码的运行环境)好处:一次编写,到处运行;自动内存管理,垃圾回收机制程序运行之前,需要先通过编译器将…...

C++性能优化指南
思维导图(转载) https://www.processon.com/view/5e5b3fc5e4b03627650b1f42 第 1 章 优化概述 1.1 优化是软件开发的一部分 优化更像是一门实验科学。 1.2 优化是高效的 1.3 优化是没有问题的 **90/10 规则:**程序中只有 10% 的代码…...

数据集-目标检测系列- 猴子 数据集 monkey >> DataBall
贵在坚持! * 相关项目 1)数据集可视化项目:gitcode: https://gitcode.com/DataBall/DataBall-detections-100s/overview 2)数据集训练、推理相关项目:GitHub - XIAN-HHappy/ultralytics-yolo-webui: ultralytics-yo…...
【RAG召回】bge实现向量相似度索引
sentence-transformers 是一个非常强大的 Python 框架,它可以将句子或段落转换成高质量、高信息密度的数字向量(称为“嵌入”或 Embeddings)。它厉害的地方在于,语义上相似的句子,其向量在空间中的距离也更近。 这使得…...

算法-数论
C-小红的数组查询(二)_牛客周赛 Round 95 思路:不难看出a数组是有循环的 d3,p4时,a数组:1、0、3、2、1、0、3、2....... 最小循环节为4,即最多4种不同的数 d4,p6时,a数组:1、5、3、…...
原型对象(Prototype)详解
原型对象(Prototype)详解 一、核心概念 本质:每个 JavaScript 对象(除 null 外)都有的内置属性作用:实现对象间的属性/方法继承(原型继承)存储位置:[[Prototype]] 内部属性(通过 __proto__ 或 Object.getPrototypeOf() 访问)二、关键特性图示 对象实例 (obj)│├─…...
MongoDB账号密码笔记
先连接数据库,新增用户密码 admin用户密码 use admin db.createUser({ user: "admin", pwd: "yourStrongPassword", roles: [ { role: "root", db: "admin" } ] })用户数据库用户密码 use myappdb db.createUser({ user: &…...

SQL导出Excel支持正则脱敏
SQL to Excel Exporter 源码功能特性核心功能性能优化安全特性 快速开始环境要求安装运行 API 使用说明1. 执行SQL并导出Excel2. 下载导出文件3. 获取统计信息4. 清理过期文件 数据脱敏配置支持的脱敏类型脱敏规则配置示例 配置说明应用配置数据库配置 测试运行单元测试运行集成…...
05.查询表
查询表 字段显示可以使用别名: col1 AS alias1, col2 AS alias2, … WHERE子句:指明过滤条件以实现“选择"的功能: 过滤条件: 布尔型表达式算术操作符:,-,*,/,%比较操作符:,<>(相等或都为空),<>,!(非标准SQL),>,>,<,<范围查询: BETWEEN min_num …...
基于深度强化学习的智能机器人导航系统
前言 随着人工智能技术的飞速发展,机器人在日常生活和工业生产中的应用越来越广泛。其中,机器人导航技术是实现机器人自主移动的关键。传统的导航方法依赖于预设的地图和路径规划算法,但在复杂的动态环境中,这些方法往往难以适应。…...

【第三十九周】ViLT
ViLT 摘要Abstract文章信息介绍提取视觉特征的方式的演变模态融合的两种方式四种不同的 VLP 模型Q&A 方法模型结构目标函数Whole Word Masking(WWM) 实验结果总结 摘要 本篇博客介绍了ViLT(Vision-and-Language Transformer)…...

代码随想录算法训练营第60期第六十天打卡
大家好,今天因为有数学建模比赛的校赛,今天的文章可能会简单一点,望大家原谅,我们昨天主要讲的是并查集的题目,我们复习了并查集的功能,我们昨天的题目其实难度不小,尤其是后面的有向图…...

数据结构——D/串
一、串的定义和基本操作  1. 串的定义   1)串的概念   组成结构: 串是由零个或多个字符组成的有限序列,记为 S′a1a2⋯an′Sa_1a_2\cdots a_nS′a1a2⋯an′&#x…...
瀚文机械键盘固件开发详解:HWKeyboard.cpp文件解析与应用
🔥 机械键盘固件开发从入门到精通:HWKeyboard模块全解析 作为一名嵌入式开发老司机,今天带大家拆解一个完整的机械键盘固件代码。即使你是单片机小白,看完这篇教程也能轻松理解机械键盘的工作原理,甚至自己动手复刻一…...
Nginx+Tomcat负载均衡与动静分离架构
目录 简介 一、Tomcat基础部署与配置 1.1 Tomcat应用场景与特性 1.2 环境准备与安装 1.3 Tomcat主配置文件详解 1.4 部署Java Web站点 二、NginxTomcat负载均衡群集搭建 2.1 架构设计与原理 2.2 环境准备 2.3 Tomcat2配置(与Tomcat1对称) 2.4…...