当前位置: 首页 > news >正文

Flume的概念和原理

一、Flume的概念

1、flume 作为 cloudera 开发的实时日志收集系统

2、flume一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。

3、flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息,这些Event由Agent外部的Source生成,当Source捕获事件后会进行特定的格式化,然后Source会把事件推入(单个或多个)Channel中。你可以把Channel看作是一个缓冲区,它将保存事件直到Sink持久化该事件到日志或把事件推向另一个Source。

二、Flume 客户端

Client生产数据,运行在一个独立的线程,如:web服务器,应用系统

三、Flume Event

一个数据单元,消息头和消息体组成。(Events可以是日志记录、 avro 对象等。)

四、Flume Flow

Event从源点到达目的点的迁移的抽象

五、Flume Agent 

一个独立的Flume进程,包含组件Source、 Channel、 Sink。(Agent使用JVM 运行Flume。每台机器运行一个agent,但是可以在一个agent中包含多个sources和sinks。)

六、Flume Source插件

1、数据收集组件。(source从Client收集数据,传递给Channel)

2、source的exec配置

agent1.sources.exec-source1.channels = ch1

agent1.sources.exec-source1.type = exec

agent1.sources.exec-source1.command=tail -F /usr/local/hadoop/logs/hadoop-root-namenode-node10.log

3、source的spool配置

agent1.sources.spooldir-source1.channels = ch1 ch2

agent1.sources.spooldir-source1.type = spooldir

agent1.sources.spooldir-source1.spoolDir=/usr/local/flume/tmpData

agent1.sources.spooldir-source1.basenameHeader = true

4、source的avro配置

agent1.sources.avro-source1.channels = ch1

agent1.sources.avro-source1.type = avro

agent1.sources.avro-source1.bind = 0.0.0.0

agent1.sources.avro-source1.port = 41414

七、Flume channel插件

1、中转Event的一个临时存储,保存由Source组件传递过来的Event。(Channel连接 sources 和 sinks ,这个有点像一个队列。)

八、Flume 的sink插件

1、从Channel中读取并移除Event, 将Event持久化到外部存储或传递到FlowPipeline中的下一个Agent(如果有的话)(Sink从Channel收集数据,运行在一个独立线程。)

2、sink到log的配置

agent1.sinks.log-sink1.channel = ch1

agent1.sinks.log-sink1.type = logger

3、sink到kafka的配置

#设置Kafka接收器

agent1.sinks.k2.type= org.apache.flume.sink.kafka.KafkaSink

#设置Kafka的broker地址和端口号

agent1.sinks.k2.brokerList=node10:9092,node11:9092,node12:9092

agent1.sinks.k2.metadata.broker.list=node10:9092,node11:9092,node12:9092

agent1.sinks.k2.producer.type=sync

#设置Kafka的Topic

agent1.sinks.k2.kafka.topic=TestTopic2

#设置序列化方式

agent1.sinks.k2.serializer.class=kafka.serializer.StringEncoder

agent1.sinks.k2.channel=ch1

4、sink的avro配置

agent1.sinks.avro-sink1.channel = ch1

agent1.sinks.avro-sink1.type = avro

agent1.sinks.avro-sink1.hostname=node10

agent1.sinks.avro-sink1.port=41414

九、Flume拦截器

1、需要对数据进行过滤时,需要谁有Flume拦截器

2、拦截器的位置在Source和Channel之间,当我们为Source指定拦截器后,我们在拦截器中会得到event,根据需求我们可以对event进行保留还是抛弃,抛弃的数据不会进入Channel中

3、Flume数据流

十、一个source对应多个channel和多个sink的配置

channel的配置

agent1.channels.ch1.type = memory

agent1.channels.ch2.type = memory

source的配置

agent1.sources.spooldir-source1.channels = ch1 ch2

agent1.sources.spooldir-source1.type = spooldir

agent1.sources.spooldir-source1.spoolDir=/usr/local/flume/tmpData

agent1.sources.spooldir-source1.basenameHeader = true

sink的配置

# 激活各个组件,同类型的组件以空格分开

agent1.channels = ch1 ch2

agent1.sources = spooldir-source1

agent1.sinks = hdfs-sink1 k2

相关文章:

Flume的概念和原理

一、Flume的概念 1、flume 作为 cloudera 开发的实时日志收集系统 2、flume一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种…...

初始nginx

华子目录 nginx介绍nginx功能介绍基础特性web服务相关功能nginx进程结构web请求处理机制 nginx进程间通信nginx启动与http连接建立http处理过程 nginx模块介绍nginx命令演示 nginx介绍 nginx是免费的、开源的、高性能的HTTP和反向代理服务器、邮件代理服务器、以及TCP/UDP代理服…...

vulnhub靶场 Empire LupinOne

使用命令查看靶机ip,访问ip arp-scan -l 使用御剑扫描一下子域名,但是没有获取到什么有用的信息 这是一个Apache文档,没有什么用 紧接着我们尝试暴力破解,这里推荐使用ffuf工具暴力破解目录,kali自带的ffuf扫描速度贼快 参数解释…...

6-Gin 路由详解 --[Gin 框架入门精讲与实战案例]

Gin 是一个用 Go 语言编写的 HTTP Web 框架,以其高性能和简洁的 API 而闻名。它提供了一套强大的路由功能,使得开发者可以轻松地定义 URL 路由规则,并将这些规则映射到具体的处理函数(handler)。以下是关于 Gin 路由的…...

使用Lodash工具库的orderby和sortby进行排序的区别

简介 _.orderBy 和 _.sortBy 是 Lodash 库中用于排序数组的两个函数。 区别 _.orderBy 允许你指定一个或多个属性来排序,并为每个属性指定排序方向(升序或降序)。默认所有值为升序排,指定为"desc" 降序&#xff0c…...

CSS面试题|[2024-12-24]

1.说一下CSS的盒模型 在HTML页面中的所有元素都可以看成是一个盒子 盒子的组成:内容content、内边距padding、边框border、外边距margin 盒模型的类型: 标准盒模型 margin border padding content IE盒模型 margin content(包括border p…...

flask-admin 在modelview 视图中重写on_model_change 与after_model_change

背景: 当我们在使用flask-admin进行WEB开发时应该第一时间想到的是竟可能使用框架推荐的modelView模型,其次才是自定义模型 baseview,因为只有modelview模型下开发才能最大限度的提高效率。 制作: 1、在modelview视图下框架会通过默认视图…...

Excel粘贴复制不完整的原因以及解决方法

在数据处理和分析的过程中,Excel无疑是不可或缺的工具。然而,在使用Excel进行复制粘贴操作时,有时会遇到粘贴不完整的情况,这可能会让人感到困惑和烦恼。本文将深入探讨Excel粘贴复制不完整的原因、提供解决方案,并给出…...

【深度学习环境】NVIDIA Driver、Cuda和Pytorch(centos9机器,要用到显示器)

文章目录 一 、Anaconda install二、 NIVIDIA driver install三、 Cuda install四、Pytorch install 一 、Anaconda install Step 1 Go to the official website: https://www.anaconda.com/download Input your email and submit. Step 2 Select your version, and click i…...

Cocos Creator 3.8.5 正式发布,更小更快更多平台!

在 Cocos Creator 3.8.5 版本中,我们做了新一轮的优化。 在加载速度、代码裁剪、平台增强等多方面做了优化,提升了开发者体验和游戏性能。 希望能够助 Cocos 开发者们的产品更上一层楼。 一、加载速度优化 1、WASM 模块延迟加载 在早期版本中&#xff0c…...

Python中构建终端应用界面利器——Blessed模块

在现代开发中,命令行应用已经不再仅仅是一个简单的文本输入输出工具。随着需求的复杂化和用户体验的重视,终端界面也逐渐成为一个不可忽视的设计环节。 如果你曾经尝试过开发终端UI,可能对传统的 print() 或者 input() 函数感到不满足&#…...

Android 15 状态栏闹钟图标不显示问题修复

Android 15 状态栏闹钟图标不显示问题修复 问题描述 在 Android 15 系统中,发现即使设置了闹钟,状态栏也不会显示闹钟图标。这个问题影响了用户及时查看闹钟状态的体验。 问题分析 通过查看 SystemUI 的配置文件,发现在 frameworks/base/packages/SystemUI/res/values/conf…...

数据采集背后的效率革命:如何优化你的爬虫性能

在爬虫技术日益发展的今天,性能优化成为提升数据采集效率的关键。面对日益复杂的网页结构和庞大的数据量,高效的爬虫能够显著降低运行时间和资源成本。本文将围绕爬虫性能优化的核心方法展开讨论,并通过实例对比多进程、多线程以及普通爬取的…...

【Compose multiplatform教程06】用IDEA编译Compose Multiplatform常见问题

当我们从Kotlin Multiplatform Wizard | JetBrains 下载ComposeMultiplatform项目时 会遇到无法正常编译/运行的情况,一般网页和桌面是可以正常编译的, 我这里着重解决如下问题 1:Gradle版本不兼容或者Gradle连接超时 2:JDK版本不兼容 3:Gradle依赖库连…...

《计算机组成及汇编语言原理》阅读笔记:p128-p132

《计算机组成及汇编语言原理》学习第 10 天,p128-p132 总结,总计 5 页。 一、技术总结 1.8088 organization and architecture 8088处理器是16位电脑,寄存器是16位,数据总线(data bus)是8位,地址总线是20位。 (1)g…...

使用 OpenCV 在图像中添加文字

在图像处理任务中,我们经常需要将文本添加到图像中。OpenCV 提供了 cv2.putText() 函数,可以很方便地在图像上绘制文本,支持多种字体、颜色、大小和位置等参数。 本文将详细介绍如何使用 OpenCV 在图像中添加文字,介绍 cv2.putTe…...

实现某海外大型车企(T)Cabin Wi-Fi 需求的概述 - 4

大家好,我是Q,邮箱:1042484520qq.com。 今天我们在上几讲的基础上再扩展下 Cabin Wi-Fi 的功能需求,讲讲如何使能 5G TCU Wi-Fi STA Bridge 模式。 参考: 实现某海外大型车企(T)Cabin Wi-Fi 需求…...

Linux系统:内核态与用户态的深层思考

背景: 我们学习Linux的系统调用经常会遇到一个概念:“内核态和用户态的切换”,一般人只会告诉你说这个切换代价很大,具体是什么情况?为什么需要切换?一定需要切换吗?怎么就会触发切换&#xff1…...

# 光速上手 - JPA 原生 sql DTO 投影

前言 使用 JPA 时,我们一般通过 Entity 进行实体类映射,从数据库中查询出对象。然而,在实际开发中,有时需要自定义查询结果并将其直接映射到 DTO,而不是实体类。这种需求可以通过 JPA 原生 SQL 查询和 DTO 投影 来实现…...

ASP.NET Web应用程序出现Maximum request length exceeded报错

一、问题描述 在ASP.NET的web应用中,导出数据时出现500 - Internal server error.Maximum request length exceeded。 二、原因分析 这个错误通常出现在Web应用程序中,表示客户端发送的HTTP请求的长度超过了服务器配置的最大请求长度限制。这可能是因为…...

OpenClaw调用Qwen3-32B镜像成本实测:RTX4090D长任务Token消耗分析

OpenClaw调用Qwen3-32B镜像成本实测:RTX4090D长任务Token消耗分析 1. 为什么关注OpenClaw的Token消耗问题 第一次用OpenClaw完成文件整理任务时,我被账单吓了一跳——短短10分钟的操作消耗了近3万Token。这让我意识到:自动化助手的长期使用…...

算法调度问题中的代价模型与优化方法的技术5

算法调度问题概述定义与基本概念:任务调度、资源分配、目标函数典型应用场景:云计算、分布式系统、实时系统核心挑战:多目标权衡、动态环境、不确定性代价模型的设计与分析代价模型的组成:时间代价、资源代价、经济代价常见模型分…...

AI 时代,计算机专业学生该怎么学?恫

整体排查思路 我们的目标是验证以下三个环节是否正常: 登录成功时:服务器是否正确生成了Session并返回了包含正确 JSESSIONID的Cookie给浏览器。 浏览器端:浏览器是否成功接收并存储了该Cookie。 后续请求:浏览器在执行查询等操作…...

阿里通义Z-Image-GGUF使用心得:小白也能玩转的高质量文生图

阿里通义Z-Image-GGUF使用心得:小白也能玩转的高质量文生图 1. 30秒快速上手:从零到第一张AI画作 你是不是也曾在社交媒体上看到那些惊艳的AI生成图片,心里想着"这一定很难操作"?今天我要告诉你一个好消息&#xff1a…...

ThinkPHP5防跨目录访问报错?手把手教你如何安全解除LNMP的open_basedir限制

ThinkPHP5跨目录访问难题:LNMP环境下open_basedir限制的深度解析与安全实践 当你在LNMP环境中部署ThinkPHP5应用时,是否遇到过这样的报错信息?那些红色的"Warning"和"Fatal error"不仅打断了安装流程,更让人对…...

避坑指南:MediaPipe安装常见报错解决方案(附虚拟环境配置技巧)

MediaPipe实战避坑手册:从环境配置到高效开发的完整指南 在计算机视觉和机器学习领域,MediaPipe作为Google开源的多媒体处理框架,因其强大的实时感知能力和跨平台特性而备受开发者青睐。然而,许多开发者在初次接触MediaPipe时&…...

Matlab七次非均匀B样条轨迹规划及基于NSGAII的优化方法

matlab-B样条轨迹规划-1 七次非均匀B样条轨迹规划, 基于NSGAII的时间-能量-冲击最优。 换上自己的关节值和时间就能用,简单好用,最近在搞机器人轨迹规划,发现七次非均匀B样条真是个好东西。它不仅能保证轨迹的平滑性,还…...

HTC Vive定位器固件更新后红灯闪烁?5步急救指南(附LED检测技巧)

HTC Vive定位器固件更新红灯急救手册:从诊断到修复的全流程实战 刚完成HTC Vive定位器的固件更新,却发现设备亮起刺眼的红灯——这种场景足以让任何VR玩家心跳加速。作为一套精密的空间定位系统,Vive定位器(基站)的异常…...

DIY电源设计避坑指南:为什么你的滤波电路总达不到理想效果?

DIY电源设计避坑指南:为什么你的滤波电路总达不到理想效果? 在创客工作坊或学生电子竞赛中,一个稳定可靠的电源往往是项目成功的基础。但许多爱好者都会遇到这样的困扰:明明按照教科书设计了滤波电路,示波器上的纹波却…...

AUTOSAR兼容性验证失败?车载C#中控系统代码合规性自查清单,含ISO 26262 ASIL-B级代码审计模板

第一章:AUTOSAR兼容性验证失败的根因诊断与应对策略AUTOSAR兼容性验证失败往往并非单一模块缺陷所致,而是由配置不一致、接口语义偏差、RTE生成逻辑冲突及基础软件(BSW)版本错配等多维度因素交织引发。快速定位根本原因需构建分层…...