当前位置: 首页 > article >正文

数据仓库处理架构: lambda架构、kappa架构

大数据处理架构详解Lambda架构、Kappa架构、流批一体、Dataflow模型、实时数仓LambdaLambda架构Lambda Architecture是由Twitter工程师南森·马茨Nathan Marz提出的大数据处理架构。它的目标是构建一个通用的、健壮的大数据系统能够同时满足实时查询和历史数据批处理的需求。随着大数据的兴起越来越多的公司开始面临海量数据的处理问题。传统的批处理系统无法满足实时数据处理的需求而简单的流式处理系统又无法进行复杂的历史数据分析。这就需要一种混合架构能够兼顾实时性和复杂分析。Lambda架构应运而生。关于 Lambda 架构的详情请参考我的博客——《什么是Lambda架构》Lambda架构的缺点Lambda架构解决了大数据量下实时计算的问题但架构本身也存在一定缺点。实时与批量计算结果不一致引起的数据口径问题因为批量和实时计算走的是两个计算框架和计算程序算出的结果往往不同经常看到一个数字当天看是一个数据第二天看昨天的数据反而发生了变化。批量计算在计算窗口内无法完成在IOT时代数据量级越来越大经常发现夜间只有4、5个小时的时间窗口已经无法完成白天20多个小时累计的数据保证早上上班前准时出数据已成为每个大数据团队头疼的问题。开发和维护的复杂性问题Lambda 架构需要在两个不同的 APIapplication programming interface应用程序编程接口中对同样的业务- - 逻辑进行两次编程一次为批量计算的ETL系统一次为流式计算的Streaming系统。针对同一个业务问题产生了两个代码库各有不同的漏洞。这种系统实际上非常难维护服务器存储大数据仓库的典型设计会产生大量的中间结果表造成数据急速膨胀加大服务器存储压力。KappaKappa架构是对Lambda架构的改进和优化由Jay Kreps于2014年首次提出。随着流式计算系统的发展Lambda架构存在的一些问题逐渐显现出来系统复杂度高需要同时开发和维护批处理系统和流式系统。通过日志重播实现低延迟查询会导致数据冗余。实时视图和批处理视图存在延迟不一致的问题。为了解决这些问题Jay Kreps提出了Kappa架构。Kappa架构去除了Lambda架构的批处理层直接通过流式处理系统实现整个流程。Kappa架构主要包含两个层:流式处理层通过流式处理系统接收所有数据并进行实时计算更新存储中的结果视图。服务层对外提供查询服务直接基于流式处理层更新的结果视图进行查询返回。统一流处理所有数据实时和历史均通过流处理层处理历史数据通过事件日志重放实现重新计算Kappa架构减少了系统复杂度避免了数据冗余和数据不一致的问题。但需要流式处理系统能够保证Exactly-once语义以保证流式计算的正确性。而且去除批处理系统后对历史数据的复杂计算会更加困难。流批一体流批一体(Unified Batch and Streaming Processing)是指将流式处理和批处理统一在一个运行时框架中进行一体化的处理。在流批一体架构中实时数据流和历史数据批量处理可以使用同一组数据处理工具和技术例如Apache Spark、Apache Flink等。流批一体架构可以将实时数据和历史数据进行统一的处理和分析以简化数据处理的复杂性和提高数据处理的效率。在流批一体架构中实时数据流和历史数据批量处理可以使用同一套数据处理代码。这意味着数据处理人员可以使用同一种编程语言、框架和工具来处理实时数据和历史数据。这样可以减少数据处理人员的学习和使用成本并提高数据处理的效率和精度。流批一体架构还可以将实时数据和历史数据存储在同一套数据存储系统中例如Apache HBase、Apache Cassandra等。这样可以简化数据存储的管理和维护并提高数据的可用性和可靠性。总之流批一体是一种将流数据处理和批数据处理整合在一起的数据处理架构它可以简化数据处理的复杂性和提高数据处理的效率。流批一体架构可以在实时数据处理和历史数据批量处理之间实现无缝切换以满足不同的数据处理需求。

相关文章:

数据仓库处理架构: lambda架构、kappa架构

大数据处理架构详解:Lambda架构、Kappa架构、流批一体、Dataflow模型、实时数仓 Lambda Lambda架构(Lambda Architecture)是由Twitter工程师南森马茨(Nathan Marz)提出的大数据处理架构。 它的目标是构建一个通用的…...

部署完成虚拟机RHEL9.7

Part1第一步 先打开虚拟机 然后创建虚拟机第二步第三步第四步第五步第六步第七步 推荐2G内存即可第八步第九步第十步第十一步第十二步第十三步第十四步然后点击自定义硬件第十五步选择使用已下载的ISO映像文件第十六步usb和声卡暂时不用 所以可以直接移除第十七步显示器&#…...

LeetCode 148. 排序链表:归并排序详解

拆解 LeetCode 中等难度题目「148. 排序链表」,这道题核心考察链表的归并排序,是链表操作与排序算法结合的经典题型,也是面试中高频出现的考点。本文会从题目分析、解题思路、代码拆解到注意事项,一步步帮大家搞懂这道题&#xff…...

淘宝商品详情字段解析:SKU、价格、库存接口全梳理

在电商数据采集、竞品分析、价格监控等场景中,淘宝商品详情数据是核心资产。本文聚焦淘宝开放平台商品详情接口的SKU、价格、库存三大核心字段,从接口调用到字段解析,再到实战代码与避坑指南,提供一套完整的技术方案,助…...

算法设计与分析-习题4.3

目录 1.在你的计算机上实现一个要求生成 25 个元素组成的集合的全部排列的算法是否现实?如果是生成该集合的所有子集呢? 2.使用下面的方法生成{1,2,3,4}的全部排列: a.从底向上的最小变化算法。 b. Johnson-Trotter算法。 ​…...

一篇看懂:进程、服务、启动项、计划任务到底是什么?

很多刚接触电脑、运维、Windows / 服务器的朋友,都会被这四个词绕晕:进程、服务、启动项、计划任务。它们长得像、功能像、还经常一起出现,但职责完全不同。这篇用最通俗的话,帮你一次性分清。一、进程(Process&#x…...

sdut-程序设计基础Ⅰ-实验7-函数(函数题)

6-1 sdut-C语言实验-计算组合数分数 10作者 马新娟单位 山东理工大学计算组合数。C(n,m),表示从n个数中选择m个的组合数。 计算公式如下: 若:m0,C(n,m)1 否则, 若 n1,C(n,m)1 否则,若mn,C(n,m)1…...

为2026年营销活动找富士山素材,这五类站点的筛选顺序很重要

作为一名市场专员,上周我接到了一个有些紧急的任务:为公司一个重要的日式主题营销活动设计主视觉,并在当晚拿出第一版概念稿。核心元素是富士山,但要求风格现代、简约,避免使用那些随处可见的游客照或过时的插画。问题…...

在 Kata Containers 中编译支持 eBPF 的 Guest Kernel 并验证生效

此前在 8 月份因项目需求,我对 Kata 容器进行了调研,并在 CentOS 上部署了单机版 Kata 环境。当时受限于进度,仅完成基础环境搭建。近期我重新开始探索 eBPF 在 Kata 容器中的支持与适配情况,于是有了这篇文章。后续我还会输出 Ka…...

51单片机驱动共阴极数码管显示0~9

文章目录 概要 硬件设计 软件设计 编译下载 小结 概要 项目采用共阴极单支数码管作为显示器件,通过单片机I/O口输出段选信号控制数码管段亮灭,配合延时函数实现数字0~9每隔1秒自动加1,并循环往复显示的功能。 硬件设计 1. 核心器件 …...

模拟1688商品详情的Python API实现,返回符合风格的JSON数据

该文件包含两个模拟商品数据,结构完整覆盖以下核心字段:商品基础信息:商品ID、标题、价格(含原价与现价)、库存量商品描述:富文本描述内容视觉展示:多图链接列表(主图详情图&#xf…...

Google Banana pro 画卡通信息图

提示词:[System / Prompt]You are an illustration assistant specialized in creating hand-drawn cartoon-style infographics. Follow all rules below strictly and without deviation.🎨 STYLE RULES(风格规则)Use a pure ha…...

算力焦虑终结?揭秘GPU云服务器的民主化之路

从算力焦虑到算力民主:一份GPU云服务器的深度观察 在大模型参数规模朝着万亿单位迈进之时,于文生视频应用在短短几秒内所消耗的算力等同于传统应用数月用量之际,一个无法争议的事实呈现眼前:算力,特别是 GPU 算力&…...

Spring AI + RAG + 向量库 10 道模拟面试

文章目录1. 什么是 Spring AI?它解决什么问题?2. Spring AI 的核心组件有哪些?3. Spring AI 和 LangChain 的区别?4. 什么是 RAG?为什么要用 RAG?5. RAG 的完整流程是什么?6. 为什么要用向量数据…...

Obsidian笔记记录与Gitee云存储

Obsidian下载 首先下载ObsidianObsidian - 磨砺你的思维,下载完成后打开会弹出本地仓库创建的提示 每个仓库都是一个相对独立的空间,我们的笔记和插件都存放在里面,如核心插件的插入模板的模板文件夹和第三方插件都是各仓库独立,…...

Dev-C++中项目类型如何选择?

在Dev-C中选择项目类型时,主要根据开发需求来决定。以下是常见选项及其适用场景:1. 控制台程序(Console Application)用途:适用于命令行界面的程序(如算法练习、数据处理等)。特点:运…...

破解密码.

1.开启虚拟机,快速点击鼠标,用上下键选择第二个选项2.然后按E键3.按左右上下键,将光标移到”quiet"后边,4.输入“rd.break"5.按”ctrlx或F10“,进入该界面6.输入此代码后设置密码(不要设置和之前…...

Chrome DevTools在Agent编程工具上的安装

1.Cursor上安装vscode打开Agent Settings{"mcpServers": {"chrome-devtools": {"command": "npx","args": ["chrome-devtools-mcplatest"]}} }claude code和codex在CLI中# Claude Codeclaude mcp add chrome-devt…...

CMD和PowerShell在激活conda环境中遇到的问题

问题引入近日在部署一个agent项目中遇到了激活虚拟环境的问题,现在的IDE默认终端一般是powershell,用conda命令创建、删除环境没啥问题,但是就是激活进入不了。而平时我用conda命令一般用cmd终端(其实之前一直没注意cmd和powershe…...

HakcMyVM-Darkside

信息搜集 主机发现 ┌──(kali㉿kali)-[~] └─$ nmap -sn 192.168.2.0/24 Starting Nmap 7.95 ( https://nmap.org ) at 2026-03-15 03:46 EDT Nmap scan report for darkside (192.168.2.19) Host is up (0.00023s latency). MAC Address: 08:00:27:3B:49:15 (PCS Systemt…...

基于C语言的轻量级在线商城服务端设计与实现

在当前以Java、Go和Python为主导的电商后端技术生态中,使用C语言构建Web服务似乎显得格格不入。然而,在资源受限环境或对性能有极致追求的场景下,C语言的价值不容忽视。它能够提供对内存和系统调用的精确控制,避免高级语言运行时带…...

欧姆龙CP1H与台达VFD - M变频器的MODBUS RTU通讯实战

欧姆龙CP1H的MODBUS RTU简易主站通讯,通过CP1W-CIF11板与台达VFD-M变频器进行。PLC程序进行轮询通讯,正常情况下只进行读操作,当修改频率或者操作启停命令时,才进行写操作,写操作完成后自动移除。 从而起到保护从站变频…...

从能跑到跑得快:一次大模型硬件加速的工程实践

从能跑到跑得快:一次大模型硬件加速的工程实践 写大模型应用时,很多团队最先遇到的问题不是“模型会不会答”,而是“模型为什么这么慢”。 一套模型在开发阶段能跑起来,和它能在线上稳定、低延迟、可并发地服务用户,是…...

【第二周】RAG与Agent实战13:通用提示词模板 (PromptTemplate)

在之前我们直接将字符串传给模型: model.invoke("帮我写一首诗")这种写法叫做 Zero-shot(零样本) 提示。但在实际应用中,我们需要动态地替换提示词中的内容(比如用户的名字、查询的问题、文档的片段&#xf…...

基于VirtualLab Fusion的复合光源仿真

摘要能够在一个系统中包含多个光源是许多应用的基础,如成像或照明。VirtualLabFusion提供了解决这类问题的高级选项。在本文档中,我们简要概述了如何设置复合光源,并给出了几个仿真示例。概览复合光源可以:包含任意数量的主光源。…...

快速清理手机QQ大量占用的存储空间

快速清理手机QQ大量占用的存储空间 众所周知,手机QQ随着使用会占据越来越多的磁盘空间,甚至多达上百GB。 在面对如此大量的存储数据时,无论是QQ自带的清理工具,还是手机管家之类系统自带的清理工具,其实往往都表现很糟…...

LITESTAR 4D 新模块:Sport Plus-运动场高级照明管理模块

您是否想要一个程序以自动,简单和快速的方式设计运动区域的照明?如果是这样,LITESTAR 4D Litecalc 运动区的额外模块 Sport Plus 是理想的解决方案。区域和高桅杆定义运动区域和高杆定义中可以设定以下内容:1. 运动设施的一般区域…...

使用OpenClaw+Skill自动发布微信公众号文章

一、OpenClaw 介绍 OpenClaw 是一款‌本地优先、可自托管的AI自动化代理工具‌,可以运行在你自己的电脑上,通过各种聊天工具(飞书、QQ、Telegram 等)与你对话,帮你完成各种任务。 1.1 什么是 OpenClaw? 你可…...

受激发射损耗(STED)显微镜原理

摘要受激发射损耗(STED)显微镜描述了一种常用的技术,以实现在生物应用的超分辨率。在这种方法中,两束激光—一束正常,一束转变成甜甜圈模式—被叠加到荧光样品上。通过使用荧光过程的发射和损耗以及利用由此产生的饱和效应,与通常…...

电工操作证报名照片太大?1分钟学会照片压缩技巧

报考电工操作证,作为从事电力作业、设备维修、线路安装的一线人员,日常工作强度大、时间零散,报名办证时照片上传常常成为麻烦事。很多电工朋友已经按要求拍好证件照,清晰度、着装、背景都没问题,就因为照片文件体积太…...