当前位置: 首页 > article >正文

从分钟到秒级:我们用 Fluss + Paimon 替换掉 Kafka + Iceberg,实时宽表终于不用 Flink 死扛了

从分钟到秒级我们用 Fluss Paimon 替换掉 Kafka Iceberg实时宽表终于不用 Flink 死扛了 更新于 2026-05-21 | ️ Fluss · Paimon · 湖流一体 · 实时数仓 · 架构升级摘要上一代湖仓一体架构中Kafka Iceberg 的组合存在数据冗余、实时更新代价高、Lambda 架构维护负担重三大痛点。本文完整复盘我们引入 Apache Fluss Apache Paimon 构建「湖流一体」新底座的全过程从组件替换逻辑、核心数据流设计、性能实测收益到迁移方案毫无保留。如果你也在被实时宽表和流批两套代码折磨这篇实战经验或许能帮你省下半年折腾。引言当 Iceberg 的分钟级延迟成为业务天花板上一代数据中台我们基于 Apache Iceberg 构建了经典的湖仓一体架构。存算分离、多引擎共享、ACID 事务——这些能力稳定支撑了两年多的业务增长。但最近半年三个问题越来越尖锐实时宽表场景下Merge-On-Read 的写放大让集群不堪重负。Kafka 和 Iceberg 两份存储数据冗余 一致性校验运维成本居高不下。流批两套代码的 Lambda 架构需求一变动两个地方都要改开发速度跟不上业务节奏。我们意识到湖仓一体的分钟级延迟已经成为实时风控、秒级报表、AI 特征供给这些新场景的硬瓶颈。是时候在数据湖之上加一层真正的实时流存储了。经过调研和 POC我们选定了 Fluss Paimon 的组合。这篇文章就是这次架构升级的完整复盘。一、旧架构Iceberg Kafka 做了很多事但每件事都留了尾巴老读者都知道我们的计算引擎层跑在 Kubernetes 上核心组件如下Spark 批处理 ────┐ Flink 流处理 ────┼──→ Iceberg 表MinIO 对象存储 Trino 即席查询 ──┘ ↑ Hive Metastore MySQL 元数据 实时链路单独一套Kafka → Flink → Iceberg这套架构做了很多事但每件事都留了尾巴痛点具体表现对团队的影响数据冗余实时链路 Kafka 存一份离线 Iceberg 再存一份两份数据可能不一致半夜对账成了常规操作实时更新代价高Iceberg 的 Merge-On-Read 在大量 Upsert 场景下写放大严重宽表拼接任务经常 OOMLambda 维护重实时和离线两套代码改一个逻辑两个地方都要动新需求交付周期长延迟只能到分钟级Commit 间隔 小文件合并端到端延迟很难压到 30 秒以内实时风控场景无法接受元数据压力HMS 在高频 DDL 下成为瓶颈偶尔雪崩影响全局说白了Kafka 负责“快”Iceberg 负责“稳”但它们之间有一条缝。这条缝靠 Flink 来粘合而 Flink 的状态越积越重维护成本越来越高。二、新架构Fluss Paimon让流和湖长在一起我们的目标很明确用一个可查询的流存储替换 Kafka既能像消息队列一样快又能像表一样被 SQL 直接查询。用一个与流存储深度集成的湖格式替换 Iceberg让热数据自动归档为冷数据查询时自动联合。尽量不改变上层应用DolphinScheduler 调度、自研 PSC 采集引擎、Trino 即席查询、Kyuubi 批处理入口全部保留。新架构的核心变化只有两处原Kafka → Flink → Iceberg → MinIO 新Fluss热数据→ 自动归档 → Paimon冷数据→ MinIO但这两处变化解决了上一代架构的所有尾巴。新架构分层总览应用层数据门户、BI、指标中心 ↓ JDBC 服务层即席查询、API 网关、结果缓存 ↓ JDBC 治理层元数据、质量、脱敏、权限、审计 ↓ JDBC 调度开发层DolphinScheduler 自研采集引擎 PSC SQL 编辑器 ↓ JDBC / Flink SQL 计算引擎层Kyuubi / Trino / Spark / Flink ├── 实时写入 → Fluss 集群流存储秒级新鲜度 │ ↓ 自动分层归档 └── 批量/即席查询 → Paimon 表湖格式冷数据高性能分析 ↓ 存储层MinIOParquet 文件 MySQL元数据三、Fluss 和 Paimon到底分别解决了什么3.1 Fluss不只是 Kafka 的替代品Fluss 是阿里巴巴开源的新一代流存储系统定位超越消息队列Fluss 的能力对 Kafka 的升级主键表 UpsertKafka 是日志Fluss 是表。原生支持按主键更新和删除列式存储基于 Arrow查询只读需要的列网络开销降低 10 倍自动归档到 Paimon热数据自动下沉冷热分层查询自动联合Flink 一等公民原生 Flink SQL Connector读写和 CDC 订阅都比 Kafka 稳定SQL 可查询无需额外 OLAP 引擎Fluss 自身就支持 SQL 点查和即席分析3.2 Paimon为流而生的湖格式Paimon 的前身是 Flink Table Store与 Flink 生态深度绑定Paimon 的能力对 Iceberg 的升级CDC 原生支持Iceberg 消费 CDC 需要额外处理Paimon 直接消费变更日志主键表 Compaction后台自动合并不需要手动的 Compaction 作业标签快照类似 Iceberg 的时间旅行但创建和管理更轻量流式读写同一张表可以被流任务写入同时被批任务读取互不阻塞3.3 组合后的化学反应Flink SQL (实时写入) ↓ Fluss 主键表 (秒级可见支持 Upsert 和点查) ↓ 自动归档按时间或数据量 Paimon 表 (历史数据列存高性能分析) ↓ Trino / Spark 查询时自动 Union 两部分数据一句话以前 Flink 既要管实时写入又要管状态拼接现在 Fluss 管写入和热数据Paimon 管冷数据和归档Flink 的压力被大幅卸载。四、三个关键技术细节部分列更新、Delta Join、流式裁剪4.1 部分列更新实时宽表不用再写复杂 Flink 作业以前的宽表拼接需要 Flink 多流 Join状态膨胀到几百 GB动不动就 OOM。现在利用 Fluss 的部分列更新能力订单表、用户表、商品表分别写入 Fluss 主键表的不同列Fluss 自动按主键合并查询时直接得到完整宽表Flink 作业只需简单的单表写入不再维护大状态实测下来同一场景的 Flink 作业内存消耗从 120GB 降到了 18GB。4.2 Delta Join内存和 CPU 消耗下降超 86%传统双流 Join 需要维护两个流的状态而利用 Fluss 的实时 KV 点查一条流当主表另一条流通过索引直接查询 Fluss 中的维表数据状态只需维护一份。某风控宽表场景Delta Join 替代双流 Join 后TaskManager 堆内存从 32G 降至 4GCPU 利用率降低 86%。4.3 流式列裁剪即席查询不再扫全表Kafka 查询本质是消费全量消息而 Fluss 的 Arrow 列式存储让 Trino 查询时只读取需要的列。结合主键索引和分区裁剪百亿级表的单条点查延迟压到了 50 毫秒以内。五、新旧架构核心对比维度旧Kafka Iceberg新Fluss Paimon数据新鲜度分钟级秒级/亚秒级存储冗余Kafka Iceberg 双份Fluss 一份自动归档实时更新MERGE INTO 写放大主键表原生 Upsert宽表拼接Flink 多流 Join状态重部分列更新Flink 轻量化查询效率Kafka 全行扫描列式存储 列裁剪架构模式Lambda流批独立Kappa流批统一开发效率两套代码统一 SQL宽表开发效率提升 60%六、迁移方案我们的分步走策略6.1 数据迁移历史 Iceberg 表通过 Spark 作业批量转换为 Paimon 表。Paimon 提供从 Iceberg 迁移的兼容工具格式转换可以离线完成。6.2 实时链路切换原来Kafka → Flink → Iceberg的链路改为Flink → Fluss写入。Flink 作业需要修改 Sink Connector但 SQL 逻辑基本不变。切换时采用双跑验证确认数据一致性后再下线旧链路。6.3 对上游应用的影响DolphinScheduler 调度任务仅调整数据源配置任务编排逻辑不变。自研 PSC 采集引擎离线采集链路不受影响仍写 Iceberg 或 Paimon 均可。Trino 即席查询增加 Paimon 连接器和 Fluss 连接器前端 SQL 编辑器无需改动。七、结语从 Iceberg 到 Paimon从 Kafka 到 Fluss不是追逐新技术而是业务倒逼的结果。当实时风控要求秒级响应当宽表拼接把 Flink 集群压到报警边缘当两份数据的对账脚本越来越长——我们就知道架构必须往前走一步。Fluss Paimon 的组合让我们的数据新鲜度从分钟级跃升到秒级同时 Flink 作业的内存占用大幅降低。更重要的是流和湖的边界终于被打破了。如果你也在做实时数仓或湖仓升级点个赞让更多同行看到这套方案。你们团队目前用 Kafka Iceberg 还是已经升级了遇到过什么坑评论区聊聊。⭐收藏本文下次做实时架构选型时直接翻出来对比。延伸阅读【运维必备】Docker/K8s/Linux 高频命令速查手册持续更新延伸阅读从 Hadoop 到湖流一体数据底座的三次革命与终极选型指南延伸阅读揭秘大型数据中台湖仓一体架构如何支撑万亿级数据流转延伸阅读再见组件地狱我们将 7 个开源引擎替换成一个华为云 GaussDB(DWS)数据中台彻底变轻了

相关文章:

从分钟到秒级:我们用 Fluss + Paimon 替换掉 Kafka + Iceberg,实时宽表终于不用 Flink 死扛了

从分钟到秒级:我们用 Fluss Paimon 替换掉 Kafka Iceberg,实时宽表终于不用 Flink 死扛了 📅 更新于 2026-05-21 | 🏷️ Fluss Paimon 湖流一体 实时数仓 架构升级 摘要:上一代湖仓一体架构中,Kafka …...

3步快速上手:Windows安卓应用安装器的终极指南

3步快速上手:Windows安卓应用安装器的终极指南 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否曾想在Windows电脑上直接运行安卓应用?告别…...

显卡怎么越来越贵?聊聊GPU算力背后那些事

老实说,我也难以确切记起,究竟是自哪一日起始,电脑显卡的价格便如同乘坐了火箭那般。 可能就连楼下从事修电脑工作的陈师傅都未曾想到,在过去几年的时候,还能够运用“甜品卡”这个词汇去夸赞一张显卡在性价比方面较高&…...

工业AI数字孪生技术:工业制造的虚拟革命 数字孪生(Digital Twin)通过实时数据采集、三维建模和AI仿真,为物理设备创建动态虚拟副本,实现工业全生命周期的监控与优化的方案

CSDN标签: 数字孪生 Digital Twin 工业AI 虚拟仿真 Unity3D BIM 引言:当工厂有了自己的"虚拟分身" 想象一下,如果你有一个和你一模一样的"克隆体"——它知道你的心跳、呼吸、每一个动作,甚至能预测你下一秒会…...

好用只是入场券,敢用才是护城河:企业级Agent如何进入真实业务

好用只是入场券 2026 年,小龙虾、OpenClaw、Hermes 等 Agent 产品接连出圈之后,很多企业开始重新审视一件事:AI 不再只是一个回答问题的工具,它正在变成可以接任务、调系统、走流程的数字执行单元。 这件事在演示里通常很顺。 一句…...

戴森球计划工厂蓝图仓库技术架构深度探索

戴森球计划工厂蓝图仓库技术架构深度探索 【免费下载链接】FactoryBluePrints 游戏戴森球计划的**工厂**蓝图仓库 项目地址: https://gitcode.com/GitHub_Trending/fa/FactoryBluePrints 在《戴森球计划》这款深受玩家喜爱的自动化工厂建造游戏中,工厂蓝图的…...

Lamini:5分钟快速搭建专属AI模型的高效Python客户端

Lamini:5分钟快速搭建专属AI模型的高效Python客户端 【免费下载链接】lamini The Official Python Client for Laminis API 项目地址: https://gitcode.com/gh_mirrors/la/lamini Lamini作为一款革命性的AI开发平台,为技术开发者和AI爱好者提供了…...

基于qstock的北向资金量化分析框架构建与策略应用

基于qstock的北向资金量化分析框架构建与策略应用 【免费下载链接】qstock qstock由“Python金融量化”公众号开发,试图打造成个人量化投研分析包,目前包括数据获取(data)、可视化(plot)、选股(stock)和量化回测(策略b…...

MatterGen完整指南:如何用AI在5分钟内生成高性能无机材料

MatterGen完整指南:如何用AI在5分钟内生成高性能无机材料 【免费下载链接】mattergen Official implementation of MatterGen -- a generative model for inorganic materials design across the periodic table that can be fine-tuned to steer the generation to…...

【能力进阶】测试工程师必须了解的 Tokenization(分词器)避坑指南

写作日期:2026年5月 适用读者:后端/算法测试工程师、AI产品测试、LLM应用QA 1 为什么测试工程师必须关注分词器? 2 竞品对比:同一句话,不同模型差出一个量级 2.1 「中文税」到底有多重 2.2 各模型中文分词效...

5步完成黑苹果配置:OpCore Simplify终极简化指南 [特殊字符]

5步完成黑苹果配置:OpCore Simplify终极简化指南 🚀 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 还在为复杂的OpenCore配置…...

Java SE与Spring Boot在智慧城市中的应用

Java SE与Spring Boot在智慧城市中的应用 在互联网大厂求职的面试中,技术栈与场景应用是考察重点。今天,我们将通过一位搞笑程序员燕双非的面试经历来了解Java SE与Spring Boot在智慧城市中的应用。 第一轮面试 场景:智慧城市的背景 面试官&a…...

Coq终极实践指南:深入解析形式化证明系统架构与应用

Coq终极实践指南:深入解析形式化证明系统架构与应用 【免费下载链接】coq The Rocq Prover is an interactive theorem prover, or proof assistant. It provides a formal language to write mathematical definitions, executable algorithms and theorems togeth…...

PDF补丁丁终极指南:5分钟学会PDF元数据精准修改技巧

PDF补丁丁终极指南:5分钟学会PDF元数据精准修改技巧 【免费下载链接】PDFPatcher PDF补丁丁——PDF工具箱,可以编辑书签、剪裁旋转页面、解除限制、提取或合并文档,探查文档结构,提取图片、转成图片等等 项目地址: https://gitc…...

通过Taotoken的CLI工具一键配置开发环境与API密钥

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 通过Taotoken的CLI工具一键配置开发环境与API密钥 对于需要接入多个大模型服务的开发团队而言,统一管理API密钥和端点配…...

免费德州扑克GTO求解器终极指南:如何用Desktop Postflop提升你的扑克技术

免费德州扑克GTO求解器终极指南:如何用Desktop Postflop提升你的扑克技术 【免费下载链接】desktop-postflop [Development suspended] Advanced open-source Texas Holdem GTO solver with optimized performance 项目地址: https://gitcode.com/gh_mirrors/de/d…...

戴森球计划工厂蓝图宝典:5000+免费设计助你轻松建设星际工厂

戴森球计划工厂蓝图宝典:5000免费设计助你轻松建设星际工厂 【免费下载链接】FactoryBluePrints 游戏戴森球计划的**工厂**蓝图仓库 项目地址: https://gitcode.com/GitHub_Trending/fa/FactoryBluePrints 还在为戴森球计划中复杂的工厂布局头疼吗&#xff1…...

企业级SECS/GEM协议实现:secsgem库的深度解析与实战指南

企业级SECS/GEM协议实现:secsgem库的深度解析与实战指南 【免费下载链接】secsgem Simple Python SECS/GEM implementation 项目地址: https://gitcode.com/gh_mirrors/se/secsgem 在半导体制造和工业自动化领域,设备通信的标准化和可靠性至关重要…...

对比按Token计费与传统套餐在项目中的成本体感差异

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 对比按Token计费与传统套餐在项目中的成本体感差异 在开发项目中引入大模型能力时,成本控制是团队必须面对的现实问题。…...

Vue-Tree-List:轻松构建优雅树形结构的Vue组件指南

Vue-Tree-List:轻松构建优雅树形结构的Vue组件指南 【免费下载链接】vue-tree-list 🌲A vue component for tree structure 项目地址: https://gitcode.com/gh_mirrors/vu/vue-tree-list 你是否曾为在Vue项目中实现复杂的树形结构而感到头疼&…...

5个关键技巧:用ProperTree轻松管理macOS配置文件

5个关键技巧:用ProperTree轻松管理macOS配置文件 【免费下载链接】ProperTree Cross platform GUI plist editor written in python. 项目地址: https://gitcode.com/gh_mirrors/pr/ProperTree ProperTree是一款基于Python开发的跨平台GUI Plist编辑器&#…...

测试工程师用 Claude :它修得了选择器,修不了你的需求理解

测试架构这行有个一直没解决的尴尬:开发一周能写完的功能,QA 写测试要追两周。 你越想把覆盖率补齐,这个口子张得越大。 所以当 Claude Code 加上 Playwright 这套东西开始能"自己写测试"的时候, QA 圈子是真的盯着看。但我想先泼一句:它确实改变了一些事, 但改变的…...

CompreFace人脸识别模型选型实战指南:5步搞定最佳AI模型部署

CompreFace人脸识别模型选型实战指南:5步搞定最佳AI模型部署 【免费下载链接】CompreFace Leading free and open-source face recognition system 项目地址: https://gitcode.com/gh_mirrors/co/CompreFace 面对多样化的应用场景,如何为你的项目…...

嵌入式Linux入门首选:STM32MP157开发板核心优势与学习路径全解析

1. 项目概述:从“学什么”到“用什么学”的抉择每当有朋友或刚入行的新人问我,想入门嵌入式Linux,该从哪块板子开始,我的回答几乎总是绕不开STM32MP157。这听起来像是一个厂商的“标准答案”,但背后是我踩过无数坑、对…...

如何5分钟快速配置Apple Store库存监控:终极自动化助手指南

如何5分钟快速配置Apple Store库存监控:终极自动化助手指南 【免费下载链接】apple-store-helper Apple Store iPhone预约助手 项目地址: https://gitcode.com/gh_mirrors/ap/apple-store-helper Apple Store iPhone预约助手是一个专为果粉设计的开源工具&am…...

如何快速上手SVG编辑:免费在线工具Method Draw完全指南

如何快速上手SVG编辑:免费在线工具Method Draw完全指南 【免费下载链接】Method-Draw Method Draw, the SVG Editor for Method of Action 项目地址: https://gitcode.com/gh_mirrors/me/Method-Draw 你是否曾经需要快速创建或编辑矢量图形,却被复…...

8通道采集控制终端:工业物联网边缘智能的核心硬件解析

1. 项目概述:从“通道”到“终端”的工业物联进化最近在调试一个老旧产线的数据采集项目,现场一堆4-20mA的传感器、干接点的报警信号,还有几个需要远程启停的电机,线缆接得跟蜘蛛网一样。甲方负责人看着头疼,问我有没有…...

基于Intel Core处理器的高性能嵌入式系统定制开发实战指南

1. 项目概述与核心价值最近几年,嵌入式系统的边界被不断拓宽,从传统的工业控制到边缘计算、智能零售,对核心处理单元的要求也越来越高。单纯追求低功耗或极致成本,在很多场景下已经不够用了。我们常常需要在紧凑的空间里&#xff…...

为什么你的NotebookLM中文摘要总漏关键信息?3个被官方文档忽略的语言标记陷阱,90%用户正在踩坑

更多请点击: https://kaifayun.com 第一章:NotebookLM多语言支持 NotebookLM 原生支持多种语言的文档理解与对话生成,其底层模型经过多语言语料联合训练,可无缝处理中、英、日、韩、法、德、西等 20 种语言的混合输入。用户上传非…...

工业机器视觉工控机选型指南:从硬件配置到现场调试

1. 产品定位与核心价值解析在工业自动化领域,尤其是机器视觉应用场景中,稳定、可靠且性能强劲的硬件平台是整套系统能够7x24小时无间断运行的基石。朗锐智科推出的这款机器视觉工控机,从其核心配置来看,精准地瞄准了中高端视觉检测…...