当前位置：首页 > news >正文

Flume原理剖析

news 2026/4/10 18:26:23

一、介绍

Flume是一个高可用、高可靠，分布式的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。其中Flume-NG是Flume的一个分支，其目的是要明显简单，体积更小，更容易部署，其最基本的架构如下图所示：
在这里插入图片描述
Flume-NG由一个个Agent来组成，而每个Agent由Source、Channel、Sink三个模块组成，其中Source负责接收数据，Channel负责数据的传输，Sink则负责数据向下一端的发送。

二、模块说明

名称	说明
Source	Source负责接收数据或通过特殊机制产生数据，并将数据批量放到一个或多个Channel。Source的类型有数据驱动和轮询两种。典型的Source类型如下：1.和系统集成的Sources：Syslog、Netcat。2.自动生成事件的Sources：Exec、SEQ。3.用于Agent和Agent之间通信的IPC Sources：Avro。4.Source必须至少和一个Channel关联。
Channel	Channel位于Source和Sink之间，用于缓存来自Source的数据，当Sink成功将数据发送到下一跳的Channel或最终目的地时，数据从Channel移除。Channel提供的持久化水平与Channel的类型相关，有以下三类：1.Memory Channel：非持久化。2.File Channel：基于WAL（预写式日志Write-Ahead Logging）的持久化实现。3.JDBC Channel：基于嵌入Database的持久化实现。Channel支持事务，可提供较弱的顺序保证，可以和任何数量的Source和Sink工作。
Sink	Sink负责将数据传输到下一跳或最终目的，成功完成后将数据从Channel移除。典型的Sink类型如下：1.存储数据到最终目的终端Sink，比如：HDFS、HBase。2.自动消耗的Sink，比如：Null Sink。3.用于Agent间通信的IPC sink：Avro。Sink必须作用于一个确切的Channel。

Flume也可以配置成多个Source、Channel、Sink，如下图所示：
在这里插入图片描述 Flume的可靠性基于Agent间事务的交换，下一个Agent down掉，Channel可以持久化数据，Agent恢复后再传输。Flume的可用性则基于内建的Load Balancing和Failover机制。Channel及Agent都可以配多个实体，实体之间可以使用负载分担等策略。每个Agent为一个JVM进程，同一台服务器可以有多个Agent。收集节点（Agent1，2，3）负责处理日志，汇聚节点（Agent4）负责写入HDFS，每个收集节点的Agent可以选择多个汇聚节点，这样可以实现负载均衡。
在这里插入图片描述
Flume的架构和详细原理介绍，请参见：https://flume.apache.org/releases/1.9.0.html。

三、Flume原理

Agent之间的可靠性
Agent之间数据交换流程如下图所示。
在这里插入图片描述

Flume采用基于Transactions的方式保证数据传输的可靠性，当数据从一个Agent流向另外一个Agent时，两个Transactions已经开始生效。发送Agent的Sink首先从Channel取出一条消息，并且将该消息发送给另外一个Agent。如果接受消息的Agent成功地接受并处理消息，那么发送Agent将会提交Transactions，标识一次数据传输成功可靠地完成。
当接收Agent接受到发送Agent发送的消息时，开始一个新的Transactions，当该数据被成功处理（写入Channel中），那么接收Agent提交该Transactions，并向发送Agent发送成功响应。
如果在某次提交（commit）之前，数据传输出现了失败，将会再次开始上一次Transactions，并将上次发送失败的数据重新传输。因为commit操作已经将Transactions写入了磁盘，那么在进程故障退出并恢复业务之后，仍然可以继续上次的Transactions。

四、Flume与HDFS的关系

当用户配置HDFS作为Flume的Sink时，HDFS就作为Flume的最终数据存储系统，Flume将传输的数据全部按照配置写入HDFS中。

五、Flume与HBase的关系

当用户配置HBase作为Flume的Sink时，HBase就作为Flume的最终数据存储系统，Flume将传输的数据全部按照配置写入HBase中。

Flume原理剖析

一、介绍

二、模块说明

三、Flume原理

四、Flume与HDFS的关系

五、Flume与HBase的关系

相关文章：

Flume原理剖析

【leetcode】202. 快乐数(easy)

如何用瀑布图分析公司年报

Asynq: 基于Redis实现的Go生态分布式任务队列和异步处理库

保证率计算公式正态分布

docker容器监控：Cadvisor+InfluxDB+Grafana的安装部署

论文讲解——TPU-MLIR: A Compiler For TPU Using MLIR

基于最新导则下生态环评报告编制技术暨报告篇、制图篇、指数篇、综合应用篇系统性实践技能提升

NGZORRO：动态表单/模型驱动的相关问题

第十七次CCF计算机软件能力认证

ApplicationContext在Spring Boot中是如何创建的？

后端开发7.轮播图模块【mongdb开发】

Linux常用命令(一):创建文件目录

如何创建一个Vue组件？如何在父组件和子组件之间传递数据？如何在子组件中向父组件发送消息？

设计模式之适配器模式

让ChatGPT介绍一下ChatGPT（ChatGPT的自我介绍）

CentOS 7 构建 LVS-DR 群集

MySQL8.0.33二进制包安装与部署

RocketMQ发送消息失败：error CODE: 14 DESC: service not available now, maybe disk full

1.Fay-UE5数字人工程导入(UE数字人系统教程)

收藏！逛遍AI论坛发现：京东AI岗薪资竟碾压多家大厂？小白/程序员必看

职业倦怠解药：软件测试从业者如何保持长期动力

LSTM中sigmoid与tanh的协同设计：为何门控与状态更新需要不同激活函数？

MongoDB（90）如何使用Mongoose进行ORM操作？

QmlBook深度解析：Qt5与QML的核心概念与架构设计

如何用Dism++快速清理和优化Windows系统：免费工具完整指南

C99新特性：变长数组（VLA）

【Day 10 Java转Python】@property——把方法当属性用，Python的封装艺术

手把手教你从零训练ChatGPT大模型：数据到部署全攻略（内含代码）

AI编程 - 量化模拟盘实现