当前位置：首页 > article >正文

Flume详解——介绍、部署与使用

article 2026/3/6 14:09:37

1. Flume 简介

Apache Flume 是一个专门用于高效地 收集、聚合、传输 大量日志数据的 分布式、可靠 的系统。它特别擅长将数据从各种数据源（如日志文件、消息队列等）传输到 HDFS、HBase、Kafka 等大数据存储系统。

特点：

可扩展：支持大规模数据传输，灵活扩展
容错性：支持数据恢复和失败重试，确保数据不丢失
多种数据源：支持日志文件、网络数据、HTTP请求、消息队列等多种来源
流式处理：数据边收集边传输，支持实时传输

2. Flume 架构

Flume 的核心架构由三大组件构成，理解它们对掌握 Flume 的原理至关重要：

2.1 Source（来源）

负责从数据源获取数据，比如：

taildir（监听日志文件）
exec（执行命令读取数据）
kafka（从 Kafka 消费数据）
netcat（监听端口接收数据）

2.2 Channel（通道）

作为 缓冲区，临时存储数据，支持两种常见类型：

Memory Channel（内存通道）：速度快，但重启可能丢数据
File Channel（文件通道）：写入磁盘，保证数据持久性

2.3 Sink（下游输出）

负责将数据写入目标位置，支持：

HDFS（写入 Hadoop 分布式文件系统）
HBase（写入 HBase 数据库）
Kafka（推送到 Kafka）
ElasticSearch（支持实时检索）

补充组件：

Sink Processor：管理多个 Sink，支持负载均衡、故障转移
Interceptor：在数据进入 Channel 前拦截处理，比如格式转换、过滤数据等

3. Flume 数据流动原理

数据在 Flume 中是按事件 (Event) 传输的，基本流程如下：

1️⃣ Source 从外部采集数据，将每条数据封装为一个 Event
2️⃣ Event 进入 Channel 暂存
3️⃣ Sink 从 Channel 拉取数据，写入目标系统

👉 示例流程：
Web日志 -> Source（taildir） -> Channel（Memory Channel） -> Sink（HDFS）

4. Flume 部署模式

Flume 支持灵活的部署方式，主要有三种：

单机模式：Source、Channel、Sink 都在同一节点，简单但不适合大规模数据
多机流模式：多个 Flume 节点串联，Source 采集数据，Sink 输出到下一个 Flume 节点的 Source，逐层转发
多 Agent 模式：多个 Flume Agent 独立采集数据，汇总到统一 Sink

5. 本地部署(单机)

下载地址：http://archive.apache.org/dist/flume/

tar -zxf apache-flume-1.9.0-bin.tar.gz -C /export/server/
cd /export/server/
mv apache-flume-1.9.0-bin/ flume--将 lib 文件夹下的 guava-11.0.2.jar 删除以兼容 Hadoop 3.1.3
cd flume/lib
rm guava-11.0.2.jar

6.Flume 入门案例

6.1 监控端口数据官方案例

案例需求：使用 Flume 监听一个端口，收集该端口数据，并打印到控制台。

实现步骤：

yum install -y nc--判断 44444 端口是否被占用
netstat -nlp | grep 44444cd /export/server/flume/
mkdir job
cd job/vim net-flume-logger.conf
--添加如下内容
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444# Describe the sink
a1.sinks.k1.type = logger# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

开启 flume 监听端口

第一种写法：

bin/flume-ng agent --conf conf/ --name a1 --conf-file job/net-flume-logger.conf -
Dflume.root.logger=INFO,console

第二种写法：

bin/flume-ng agent -c conf/ -n a1 -f job/net-flume-logger.conf -Dflume.root.logger=INFO,console

参数说明：

--conf/-c：表示配置文件存储在 conf/目录

--name/-n：表示给 agent 起名为 a1

--conf-file/-f：flume 本次启动读取的配置文件是在 job 文件夹下的 flume-telnet.conf 文件。

-Dflume.root.logger=INFO,console ：-D 表示 flume 运行时动态修改 flume.root.logger 参数属性值，并将控制台日志打印级别设置为 INFO 级别。日志级别包括:log、info、warn、 error。

此时服务端已经开启，新建一个会话作为客户端，使用 netcat 工具向本机的 44444 端口发送内容

nc localhost 44444
hello

在 Flume 监听页面观察接收数据情况

6.2 实时监控单个追加文件

案例需求：实时监控 Hive 日志，并上传到 HDFS 中

实现步骤：

确认 Hadoop 和 Hive 环境已经配置，没有配置的可以参考这两篇文章

本地部署HDFS集群https://blog.csdn.net/m0_73641796/article/details/145998092?spm=1001.2014.3001.5501

本地部署Hive集群https://blog.csdn.net/m0_73641796/article/details/146078614?spm=1001.2014.3001.5501

创建 flume-file-hdfs.conf 文件

vim flume-file-hdfs.conf
--添加如下内容# Name the components on this agent
a2.sources = r2
a2.sinks = k2
a2.channels = c2# Describe/configure the source
a2.sources.r2.type = exec
a2.sources.r2.command = tail -F /export/server/hive/logs/hive.log# Describe the sink
a2.sinks.k2.type = hdfs
a2.sinks.k2.hdfs.path = hdfs://node1:8020/flume/%Y%m%d/%H
# 上传文件的前缀
a2.sinks.k2.hdfs.filePrefix = logs-
# 是否按照时间滚动文件夹
a2.sinks.k2.hdfs.round = true
# 多少时间单位创建一个新的文件夹
a2.sinks.k2.hdfs.roundValue = 1
# 重新定义时间单位
a2.sinks.k2.hdfs.roundUnit = hour
# 是否使用本地时间戳
a2.sinks.k2.hdfs.useLocalTimeStamp = true
# 积攒多少个 Event 才 flush 到 HDFS 一次
a2.sinks.k2.hdfs.batchSize = 100
# 设置文件类型，可支持压缩
a2.sinks.k2.hdfs.fileType = DataStream
# 多久生成一个新的文件
a2.sinks.k2.hdfs.rollInterval = 30
# 设置每个文件的滚动大小
a2.sinks.k2.hdfs.rollSize = 134217700
# 文件的滚动与 Event 数量无关
a2.sinks.k2.hdfs.rollCount = 0# Use a channel which buffers events in memory
a2.channels.c2.type = memory
a2.channels.c2.capacity = 1000
a2.channels.c2.transactionCapacity = 100# Bind the source and sink to the channel
a2.sources.r2.channels = c2
a2.sinks.k2.channel = c2

确保 hadoop 用户有写入权限

mkdir -p /export/server/flume/logs
chown -R hadoop:hadoop /export/server/flume/logs
chmod -R 755 /export/server/flume/logs

运行 Flume（用Hadoop用户运行，因为要操作HDFS）

bin/flume-ng agent --conf conf/ --name a2 --conf-file job/flume-file-hdfs.conf

新建会话，开启 Hadoop 和 Hive 并操作 Hive 产生日志

su hadoopstart-dfs.sh
start-yarn.shcd /export/server/hive/
nohup bin/hive --service metastore  >> logs/metastore.log 2>&1 &
bin/hive

在 HDFS 上查看文件

6.3 实时监控目录下多个新文件

案例需求：使用 Flume 监听整个目录的文件，并上传至 HDFS

实现步骤：

创建配置文件

vim flume-dir-hdfs.conf
--添加如下内容a3.sources = r3
a3.sinks = k3
a3.channels = c3# Describe/configure the source
a3.sources.r3.type = spooldir
a3.sources.r3.spoolDir = /export/server/flume/upload
a3.sources.r3.fileSuffix = .COMPLETED
a3.sources.r3.fileHeader = true
# 忽略所有以.tmp 结尾的文件，不上传
a3.sources.r3.ignorePattern = ([^ ]*\.tmp)# Describe the sink
a3.sinks.k3.type = hdfs
a3.sinks.k3.hdfs.path = hdfs://node1:8020/flume/upload/%Y%m%d/%H
# 上传文件的前缀
a3.sinks.k3.hdfs.filePrefix = upload-
# 是否按照时间滚动文件夹
a3.sinks.k3.hdfs.round = true
# 多少时间单位创建一个新的文件夹
a3.sinks.k3.hdfs.roundValue = 1
# 重新定义时间单位
a3.sinks.k3.hdfs.roundUnit = hour
# 是否使用本地时间戳
a3.sinks.k3.hdfs.useLocalTimeStamp = true
# 积攒多少个 Event 才 flush 到 HDFS 一次
a3.sinks.k3.hdfs.batchSize = 100
# 设置文件类型，可支持压缩
a3.sinks.k3.hdfs.fileType = DataStream
# 多久生成一个新的文件
a3.sinks.k3.hdfs.rollInterval = 30
# 设置每个文件的滚动大小大概是 128M
a3.sinks.k3.hdfs.rollSize = 134217700
# 文件的滚动与 Event 数量无关
a3.sinks.k3.hdfs.rollCount = 0# Use a channel which buffers events in memory
a3.channels.c3.type = memory
a3.channels.c3.capacity = 1000
a3.channels.c3.transactionCapacity = 100# Bind the source and sink to the channel
a3.sources.r3.channels = c3
a3.sinks.k3.channel = c3

创建目录并启动

--创建目录
mkdir upload
chown hadoop:hadoop upload/--启动flume（用hadoop用户）
bin/flume-ng agent --conf conf/ --name a3 --conf-file job/flume-dir-hdfs.conf

新建会话，向 upload 文件夹中添加文件

cd /export/server/flume/upload/
echo "hello world" > 1.txt

查看 HDFS 上的数据

6.4 实时监控目录下的多个追加文件

案例需求:使用 Flume 监听整个目录的实时追加文件，并上传至 HDFS

实现步骤：

创建配置文件

vim flume-taildir-hdfs.conf
--添加如下内容a3.sources = r3
a3.sinks = k3
a3.channels = c3# Describe/configure the source
a3.sources.r3.type = TAILDIR
a3.sources.r3.positionFile = /export/server/flume/tail_dir.json
a3.sources.r3.filegroups = f1 f2
a3.sources.r3.filegroups.f1 = /export/server/flume/files/.*file.*
a3.sources.r3.filegroups.f2 = /export/server/flume/files2/.*log.*# Describe the sink
a3.sinks.k3.type = hdfs
a3.sinks.k3.hdfs.path = hdfs://node1:8020/flume/upload2/%Y%m%d/%H
#上传文件的前缀
a3.sinks.k3.hdfs.filePrefix = upload-
#是否按照时间滚动文件夹
a3.sinks.k3.hdfs.round = true
#多少时间单位创建一个新的文件夹
a3.sinks.k3.hdfs.roundValue = 1
#重新定义时间单位
a3.sinks.k3.hdfs.roundUnit = hour
#是否使用本地时间戳
a3.sinks.k3.hdfs.useLocalTimeStamp = true
#积攒多少个 Event 才 flush 到 HDFS 一次
a3.sinks.k3.hdfs.batchSize = 100
#设置文件类型，可支持压缩
a3.sinks.k3.hdfs.fileType = DataStream
#多久生成一个新的文件
a3.sinks.k3.hdfs.rollInterval = 60
#设置每个文件的滚动大小大概是 128M
a3.sinks.k3.hdfs.rollSize = 134217700
#文件的滚动与 Event 数量无关
a3.sinks.k3.hdfs.rollCount = 0# Use a channel which buffers events in memory
a3.channels.c3.type = memory
a3.channels.c3.capacity = 1000
a3.channels.c3.transactionCapacity = 100# Bind the source and sink to the channel
a3.sources.r3.channels = c3
a3.sinks.k3.channel = c3

创建目录并启动

--创建目录
mkdir files files2
chown hadoop:hadoop files
chown hadoop:hadoop files2--启动flume（用hadoop用户）
bin/flume-ng agent --conf conf/ --name a3 --conf-file job/flume-taildir-hdfs.conf

向 upload 文件夹中添加文件

cd files
echo hello >> file1.txt

查看 HDFS 上的数据

Flume详解——介绍、部署与使用

1. Flume 简介 Apache Flume 是一个专门用于高效地收集、聚合、传输大量日志数据的分布式、可靠的系统。它特别擅长将数据从各种数据源（如日志文件、消息队列等）传输到 HDFS、HBase、Kafka 等大数据存储系统。特点： 可扩展&#xff1…...

编程日记 2026/3/3 18:02:22

一个简单的猜数字游戏的 C 语言例程

一个简单的猜数字游戏的 C 语言例程，代码包含详细注释，适合学习和练习基础语法： #include <stdio.h> #include <stdlib.h> #include <time.h> // 用于生成随机数种子int main() {int target, guess, attempts 0;srand…...

编程日记 2026/1/26 23:35:17

解决diffusers加载stablediffusion模型，输入prompt总是报错token数超出clip最大长度限制

1. StableDiffusion1.5 在加载huggingface中的扩散模型时，输入prompt总是会被报错超过clip的最大长度限制。解决方案：使用compel库 from diffusers import AutoPipelineForText2Image import torch import pdb from compel import Compeldevice torc…...

编程日记 2025/12/25 8:16:47

mysql-查看binlog日志

mysql目前binlog_format默认是row格式， 找到binlog日志文件，通过命令查看 >mysqlbinlog binlog日志路径内容大致如下： /*!*/; # at 1163 #250317 14:13:43 server id 1 end_log_pos 1194 CRC32 0x09c8bcfd Xid 14 COMMIT/*!*…...

编程日记 2026/2/27 9:54:30

【Linux系列】文件压缩

💝💝💝欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan 的首页,持续学…...

编程日记 2026/3/2 2:42:20

微服务架构中10个常用的设计模式

在当今的微服务架构中，常见的十种设计模式，分别是服务发现模式、API网关模式、断路器模式、边车模式、负载均衡模式、Saga事务模式、CQRS模式、分片模式、分布式日志跟踪模式、熔断与降级模式。其中，服务发现模式十分关键，通过…...

编程日记 2026/3/2 10:24:37

Vue3组件+leaflet，实现重叠marker的Popup切换显示

一、前言 GIS开发过程中，经常需要绘制marker，这些marker很大概率会有坐标相同导致的叠加问题，这种情况下会降低使用体验感。所以我们可以将叠加的marker的popup做一个分页效果，可以切换显示的marker。二、技术要点我们以leaf…...

编程日记 2026/3/6 2:39:07

将COCO格式的物体检测数据集划分训练集、验证集和测试集

目录导入所需库定义数据集路径创建输出目录读取JSON注释文件随机打乱图像列表计算划分大小复制图像到相应文件夹完整代码导入所需库我们需要以下Python库： os：处理文件路径。 json：读取和写入JSON文件。 numpy&#xff…...

编程日记 2026/2/22 1:19:14

机器学习之距离度量方法

常见的距离度量方法及相关函数、图示如下： 1. 欧几里得距离（Euclidean Distance）函数公式：对于两个 ( n ) 维向量 ( x = ( x 1 , x 2 , ⋯ ,...

编程日记 2026/2/16 2:47:28

3.1 在VisionPro脚本中添加CogGraphicLabel

本案例需要实现如下功能： 1.加载toolBlock 2.加载图片， 3.运行Block 4.VisionPro中添加脚本显示数值。见下图：详细代码（C#以及visionPro）见下面链接： https://download.csdn.net/download/qq_340474…...

编程日记 2026/2/14 18:29:56

自动化APP测试APPium的元素等待

在使用Appium进行移动应用自动化测试时，有三种等待。隐式等待driver.implicitly_wait() 显式等待（常用） time.sleep() 隐式等待（Implicit Wait） 应用场景： 当你希望对所有元素定位操作设置统一的超时…...

编程日记 2026/2/15 20:37:11

AI：Machine Learning Data Science

机器学习与数据科学左侧机器学习 Machine Learning 机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知…...

编程日记 2026/3/4 16:43:17

软件需求分类、需求获取（高软46）

系列文章目录软件需求分类，需求获取文章目录系列文章目录前言一、软件需求二、获取需求三、真题总结前言本节讲明软件需求分类、需求获取的相关知识。一、软件需求二、获取需求三、真题总结就是高软笔记，大佬请略过！...

编程日记 2026/3/6 1:16:01

vue3vue-elementPlus-admin框架中form组件的upload写法

dialog中write组件代码 let ImageList reactive<UploadFile[]>([])const formSchema reactive<FormSchema[]>([{field: ImageFiles,label: 现场图片,component: Upload,colProps: { span: 24 },componentProps: {limit: 5,action: PATH_URL /upload,headers: {…...

编程日记 2026/2/16 8:46:28

嵌入式Linux | 什么是 BootLoader、Linux 内核（kernel）、和文件系统?

01 什么是 BootLoader 呢？ 它是个引导程序，也就是硬件复位以后第一个要执行的程序，它主要工作就是初始化操作系统运行的环境，比如说内存、定时器、缓冲器等，当这个工作做完以后，再把操作系统的代码加载…...

编程日记 2026/2/19 22:30:12

【ARM中R0寄存器】

ARM中R0寄存器 1 RO介绍1.1 R0 的主要作用1 函数返回值2 函数参数3 通用寄存器4 与其他寄存器的区别 1.2 示例 1 RO介绍在ARM架构中，R0寄存器是一个通用寄存器；是16 个通用寄存器（R0 到 R15）中的第一个，通常用于存储…...

编程日记 2026/2/13 23:00:33

【JDK17】Jlink一秒生成精简的JRE

之前介绍了 Java17模块化的JDK，模块化后按需使用Jlink 用于精简生成 JRE 环境，这让快速的开发环境增强了编码的愉悦感。在实际生产环境中使用 mave 进行项目的构建，其次再是精简 JRE 缩小容器镜像体积，为实现一体化的流程&#xf…...

编程日记 2025/11/20 11:16:48

【第9章】亿级电商平台订单系统-整体技术架构设计

1-1 本章导学课程主题：系统蓝图描绘与整体技术架构设计核心学习内容： ▶️ 订单系统的整体技术架构设计 ▶️ 架构设计核心方法论与实践应用本章核心内容架构 1. 技术预研架构设计的基础支撑环节关键技术可行性分析与选型依据2. 整体技术架构设计方法与步骤结构化设计方法…...

编程日记 2026/2/27 13:33:59

函数（函数的概念、库函数、自定义函数、形参和实参、return语句、数组做函数参数、嵌套调用和链式访问、函数的声明和定义、static和extern）

一、函数的概念 •C语⾔中的函数：⼀个完成某项特定的任务的⼀⼩段代码 •函数又被翻译为子函数（更准确） •在C语⾔中我们⼀般会⻅到两类函数：库函数⾃定义函数二、库函数 1 .标准库和头文件 •C语⾔的国际标准ANSIC规定了⼀…...

编程日记 2026/3/4 13:09:54

AGI大模型（6）：提示词模型进阶

1 零样本提示如今，经过⼤量数据训练并调整指令的LLM能够执⾏零样本任务。代码如下： from openai import OpenAI from dotenv import load_dotenv load_dotenv() # 初始化 OpenAI 服务。 client = OpenAI()prompt = """ 将⽂本分类为中性、负⾯或正⾯。⽂…...

编程日记 2026/2/22 16:22:05

ImGui 学习笔记（五） —— 字体文件加载问题

ImGui 加载字体文件的函数似乎存在编码问题，这一点可能跟源文件的编码也有关系，我目前源文件编码是 UTF-16。当参数中包含中文字符时，ImGui 内部将字符转换为宽字符字符集时候，采用的 MultiByteToWideChar API 参数不太对&#…...

编程日记 2026/3/3 5:43:54

OpenCV计算摄影学（20）非真实感渲染之增强图像的细节函数detailEnhance()

操作系统：ubuntu22.04 OpenCV版本：OpenCV4.9 IDE:Visual Studio Code 编程语言：C11 算法描述此滤波器增强特定图像的细节。 cv::detailEnhance用于增强图像的细节，通过结合空间域和频率域的处理，提升图像中特定细节…...

编程日记 2026/3/5 15:27:25

Android PC 要来了？Android 16 Beta3 出现 Enable desktop experience features 选项

在之前的《Android 桌面窗口新功能推进》我们就聊过，Google 就一直在努力改进 Android 的内置桌面模式，例如添加了适当的窗口标题、捕捉窗口的能力、悬停选项、窗口大小调整、最小化支持、app-to-web 等。比如在搭载 Android 15 QPR 1 Beta 2 的 Pix…...

编程日记 2026/3/5 23:50:44

数据集格式转换——json2txt、xml2txt、txt2json【复制就能用】

秋招面试专栏推荐：深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 💡💡💡本专栏所有程序均经过测试，可成功执行💡💡💡 专栏地址：YOLO11入门 + 改进涨点——点击即可跳转欢迎订阅目录 json2txt脚本 xml2txt txt2json...

编程日记 2026/2/15 18:17:48

Git常用操作之GitLab

Git常用操作之GitLab 小薛博客官网：小薛博客Git常用操作之GitLab官方地址 1、GitLab安装 https://gitlab.cn/install/ 1、Docker安装GitLab https://docs.gitlab.cn/jh/install/docker.html 1、设置卷位置在设置其他所有内容之前，请配置一个新的…...

编程日记 2026/3/5 5:34:28

【商城实战(33)】解锁版本迭代与更新策略

【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用 uniapp、Element Plus、SpringBoot 搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配&#xf…...

编程日记 2026/2/19 0:16:26

强化学习 - PPO控制无人机

PPO（Proximal Policy Optimization，近端策略优化）是一种强化学习算法，用于训练智能体（无人机）如何在环境中做出决策。它本质上是策略梯度（Policy Gradient）方法的一种改进&#xf…...

编程日记 2026/2/15 16:34:45

QT 磁盘文件教程03-创建、删除、复制文件

【1】新建文件 bool CreateFile(QString name){QString fileName name ; //"文件绝对路径名"QFile file(fileName);QFileInfo fileInfo(file);QString fileExtension fileInfo.suffix();if(fileExtension.isEmpty()) {fileName".txt";}file.setFileName…...

编程日记 2026/2/15 7:06:17