当前位置: 首页 > news >正文

数据湖的概念(包含数据中台、数据湖、数据仓库、数据集市的区别)--了解数据湖,这一篇就够了

文章目录

  • 一、数据湖概念
    • 1、企业对数据的困扰
    • 2、什么是数据湖
    • 3、数据中台、数据湖、数据仓库、数据集市的区别


网上看了好多有关数据湖的帖子,还有数据中台、数据湖、数据仓库、数据集市的区别的帖子,发现帖子写的都很多,而且专业名词很多,不是一般人还真的看不懂。

下面我以简单的语言总结概括一下:

一、数据湖概念

1、企业对数据的困扰

数据孤岛:数据分散度过高,无法集中利用(解决方案:可以通过ETL等程序将各个数据孤岛的数据抽取到数仓,进行集中分析)

数据价值的提升:数据增长太快,导致原本遗忘在角落中的数据慢慢有了价值

非结构化数据分析:数仓只适合处理结构化数据,不适合处理非结构化数据

想要海量保留原始数据:由于大规模存储的成本以及大数据技术尚未发展起来的原因,造成企业对于数据的存储都是精简的,无法大量长期保存原始数据

企业的要求:
1、数据的集中存储,可以解决数据孤岛
2、成本可控、维护简单
3、可以存储任意结构的数据
4、能够支持大多数框架(比如:spark,flink等)

而为了迎合这种需求,提出了数据湖的概念

2、什么是数据湖

一句话总结:一种能够满足海量存储和海量分析的系统架构方案(不是数据库,也不是技术架构,是一种概念、一种方案和思路)
切记!!!!!数据湖不是框架,也不是技术的实现,只是一种思想,一种方案!!!!

3、数据中台、数据湖、数据仓库、数据集市的区别

具体区别,看下面一张图即可:
在这里插入图片描述

写时模式:数据写入前已经定义好Schema,更改Schema成本高

读时模式:数据在利用的时候再定义Schema,灵活方便(比如:SparkSQL)

所以在数据湖的实现方案中,SparkSQL占了很大份额

以AWS(亚马逊旗下的一个平台)为例,简单说明一下数据中台和数据仓库的区别:
在这里插入图片描述

相关文章:

数据湖的概念(包含数据中台、数据湖、数据仓库、数据集市的区别)--了解数据湖,这一篇就够了

文章目录 一、数据湖概念1、企业对数据的困扰2、什么是数据湖3、数据中台、数据湖、数据仓库、数据集市的区别 网上看了好多有关数据湖的帖子,还有数据中台、数据湖、数据仓库、数据集市的区别的帖子,发现帖子写的都很多,而且专业名词很多&am…...

EDKII之安全启动详细介绍

文章目录 安全启动简介安全启动流程介绍签名过程BIOS实现小结 安全启动简介 安全启动(Secure Boot)是一种计算机系统的安全功能,旨在确保系统启动过程中只能加载经过数字签名的受信任的操作系统和启动加载程序。通过使用安全启动&#xff0c…...

原生js上传图片

无样式上传图片 创建一个 FormData 对象:这个对象可以用于存储数据。 将文件添加到 FormData 对象:通过 append() 方法,将用户选择的文件添加到 formData 对象中。 使用 fetch 发送请求:使用 fetch API 或者其他方法将 FormDat…...

使用torch==2.5.1版本用的清华源遇到的坑

解决安装torch后,torch.cuda.is_available()结果为false的问题 清华源下载到的torch2.5.1版本的Lib\site-packages\torch\version.py 其中,清华源指的是: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorchhttps://mirrors.tuna.tsinghua.…...

泷羽Sec-星河飞雪-BurpSuite之解码、日志、对比模块基础使用

免责声明 学习视频来自 B 站up主泷羽sec,如涉及侵权马上删除文章。 笔记的只是方便各位师傅学习知识,以下代码、网站只涉及学习内容,其他的都与本人无关,切莫逾越法律红线,否则后果自负。 泷羽sec官网:http…...

对拍详细使用方法

对拍的作用 对于我们在学校OJ,cf,牛客…各种只提供少量测试数据的题目,常常交上代码常常超时,能写出正确的暴力代码而题目要求的时间复杂度更低。然而这时你写出了能通过样例且时间复杂度更低的代码,但交上去就是错误…...

Python面向对象编程与模块化设计练习

需求: 编写一个BankAccount类,模拟银行账户功能: 属性:账户名、余额 方法:存款、取款、查询余额 使用模块将类和测试代码分离。 模块文件:bank_account.py 该模块包含 BankAccount 类。 class BankAccoun…...

Linux系统硬件老化测试脚本:自动化负载与监控

简介: 这篇文章介绍了一款用于Linux系统的自动化硬件老化测试脚本。该脚本能够通过对CPU、内存、硬盘和GPU进行高强度负载测试,持续运行设定的时长(如1小时),以模拟长时间高负荷运行的环境,从而验证硬件的稳…...

搭建一个基于Web的文档管理系统,用于存储、共享和协作编辑文档

搭建一个基于Web的文档管理系统,用于存储、共享和协作编辑文档 本项目采用以下架构: NFS服务器: 负责存储文档资料。Web服务器: 负责提供文档访问和编辑功能。SELinux: 负责权限控制,确保文档安全。Git服务器: 负责存储文档版本历史&#x…...

排序学习整理(1)

1.排序的概念及运用 1.1概念 排序:所谓排序,就是使⼀串记录,按照其中的某个或某些关键字的大小,递增或递减的排列起来的操作,以便更容易查找、组织或分析数据。 1.2运用 购物筛选排序 院校排名 1.3常见排序算法 2.实…...

《深入探究 Java 中的 boolean 类型》

在 Java 编程语言的世界里,boolean 类型虽然看似简单,却在程序的逻辑控制和决策中起着至关重要的作用。本文将带你深入了解 Java 中的 boolean 类型,从其基本概念、用法到实际应用场景,以及一些常见的注意事项。 一、boolean 类型…...

智享 AI 自动无人直播系统:打破地域与时间枷锁中小微企业的营销破局利器

中小微企业,在商业浪潮中恰似逐浪扁舟,常面临营销成本高、推广渠道窄、专业人才缺等 “暗礁”,而智享 AI 自动无人直播系统恰如精准导航的灯塔,助其破浪前行、突出重围。 成本维度,传统直播人力成本让中小微企业望而却…...

接口测试工具:reqable

背景 在众多接口测试工具中挑选出一个比较好用的接口测试工具。使用过很多工具,如Postman、Apifox、ApiPost等,基本上是同类产品,一般主要使用到的功能就是API接口和cURL,其他的功能目前还暂未使用到。 对比 性能方面&#xff…...

同时多平台git配置:GitHub和Gitee生成不同的SSH Key

文章目录 GitHub和Gitee生成不同的SSH Key步骤1:生成SSH Key步骤2:配置SSH配置文件步骤3:查看SSH公钥步骤4:将SSH公钥添加到GitHub和Gitee步骤5:测试SSH连接步骤6:添加remote远程库 GitHub和Gitee生成不同的…...

刷题计划day24 回溯(三)【复原 IP 地址】【子集】【子集 II】

⚡刷题计划day24 回溯(三)继续,回溯一共会有五个专题,敬请期待关注,可以点个免费的赞哦~ 往期可看专栏,关注不迷路, 您的支持是我的最大动力🌹~ 目录 题目一:复原 IP…...

从“找三角形”讲“等腰三角形”

【题目】 周长为11,且各边长均为整数的三角形有哪些? 【答案】 四种,边长分别为: 2 4 5 3 3 5 1 5 5 3 4 4 【解析】 讲解等腰三角形的概念时,传统方法一般向学生展示一个等腰三角形的实物模型,这…...

Java中的泛型方法和泛型类

在Java编程语言中,泛型(Generics)是一个强大的特性,它使得类、接口和方法能够灵活地操作各种数据类型,同时保持类型安全。泛型主要通过类型参数(Type Parameters)来实现,这些类型参数…...

springboot学习-spring-boot-data-jdbc分页/排序/多表查询的例子

上次使用的是JdbcTemplate实现的,是比较老的方式,重新用spring boot data jdbc和jdbc client 实现一遍。也比较一下这几种的编码差异。数据库方面JAVA给了太多选择,反而不好选了。 上次就试图直接用: public interface UserRepo…...

通信与网络基础

1.网络通信基本概念 通信:人、物通过某种介质和行为进行信息传递与交流 网络通信:终端设备之间通过计算机网络进行通信 两个终端通过网线传递文件 多个终端通过路由器传递文件 终端通过Internet下载文件 2.信息传递过程 图1-1 假定A计算机访问B的web…...

【3.存储系统】综合大题

【考点】存储系统综合大题 【2011年408真题】某计算机存储器按字节编址,虚拟(逻辑)地址空间大小为16 MB,主存(物理)地址空间大小为1 MB,页面大小为4 KB;Cache采用直接映射方式,共8行;主存与Cache之间交换的…...

OpenClaw工作空间管理工具:自动化配置维护与AI Agent开发效率提升

1. 项目概述:一个为OpenClaw工作空间量身打造的“管家”如果你正在使用OpenClaw,或者对AI Agent、Claude这类工具构建的自动化工作流感兴趣,那你大概率和我一样,经历过一个甜蜜的烦恼:随着项目越来越复杂,工…...

企者不立,跨者不行,SAP BTP 开发里的克制、边界与长久之道

老子这句话很像一段架构评审意见。站得太高,脚跟离地,反而站不稳;步子跨得太大,身体失衡,反而走不远;只相信自己的视角,反而看不明;只认自己的判断,反而不能显明价值;自我夸功,功劳反而站不住;自我矜持,生命力反而不长。把这段话放到 SAP BTP 开发里,它不是劝我们…...

Next.js 页面和路由

Next.js 页面与路由学习笔记 Next.js 13 的 App Router 基于文件系统路由,通过文件夹和文件的命名约定自动生成路由,无需手动配置路由表。 1. 基本路由规则 1.1 核心约定 文件作用是否必须page.tsx定义路由的 UI(页面内容)是&a…...

AI代码助手评测体系构建:从原理到实践的完整指南

1. 项目概述:AI代码助手评测,到底在测什么?最近在GitHub上看到一个挺有意思的项目,叫ameerkhan9394/ide-ai-benchmark。光看名字,你大概能猜到,这是一个给集成开发环境(IDE)里的AI助…...

PyWxDump:微信数据解析技术的合规边界与技术挑战

PyWxDump:微信数据解析技术的合规边界与技术挑战 【免费下载链接】PyWxDump 删库 项目地址: https://gitcode.com/GitHub_Trending/py/PyWxDump PyWxDump是一个曾专注于微信数据解析的开源项目,它展示了在复杂软件生态中进行数据提取和分析的技术…...

互联网大厂 Java 求职者的面试:Spring Boot 的核心与微服务应用

互联网大厂 Java 求职之路:面试官的严肃与程序员燕双非的搞笑 在当今快速发展的互联网行业,Java 开发者的面试显得尤为重要。以下是一次精彩的面试场景,面试官与搞笑程序员燕双非之间的对话,展示了技术与幽默的完美结合。第一轮提…...

Serverless函数优化:提升无服务器应用性能

Serverless函数优化:提升无服务器应用性能 一、Serverless函数优化概述 1.1 Serverless函数的定义 Serverless函数是一种事件驱动的计算服务,它允许开发者编写小块代码来响应事件,而无需管理服务器。Serverless函数优化是指通过各种技术手段提…...

告别手动开关!用ESP8266+Arduino IDE实现高精度定时控制(实测误差<1秒)

ESP8266高精度定时控制系统:从网络校时到误差优化实战 清晨6点整,阳台的智能花盆准时启动灌溉系统;下午5点59分59秒,宠物喂食器精准投放今日最后一餐——这些需要分秒不差的物联网场景,往往让开发者们头疼不已。传统定…...

如何将微信聊天记录永久保存?WeChatMsg完整免费指南帮你实现数据自主权

如何将微信聊天记录永久保存?WeChatMsg完整免费指南帮你实现数据自主权 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_T…...

SITS 2026议程背后隐藏的3条技术演进红线(附Gartner/IEEE双认证时间轴对比图)

更多请点击: https://intelliparadigm.com 第一章:2026奇点智能技术大会完整议程曝光:SITS 2026四大看点抢先看 全球瞩目的奇点智能技术大会(Singularity Intelligence Technology Summit, SITS)将于2026年5月12–15日…...