Kafka 入门 (一)
Kafka 入门(一)
Apache Kafka起源于LinkedIn,后来于2011年成为开源Apache项目,然后于2012年成为First-class Apache项目。Kafka是用Scala和Java编写的。 Apache Kafka是基于发布订阅的容错消息系统。 它是快速,可扩展和设计分布。
什么是Kafka?
Apache Kafka是一个分布式发布 - 订阅消息系统和一个强大的队列,可以处理大量的数据,并使您能够将消息从一个端点传递到另一个端点。 Kafka适合离线和在线消息消费。 Kafka消息保留在磁盘上,并在集群内复制以防止数据丢失。 Kafka构建在ZooKeeper同步服务之上。 它与Apache Storm和Spark非常好地集成,用于实时流式数据分析。
优点
高吞吐量和低延迟(High throughput and low lattency):Kafka 设计时就考虑了高吞吐量和低延迟的特点,能够处理高并发的消息传递,同时支持快速、实时的数据处理和分析。
可靠性和容错性 (Reliability and fault-tolerance):Kafka 采用分布式架构,允许多个节点组成集群,支持数据的分区和副本备份,提供了高可用性和容错性。即使某个节点出现故障,也不会影响整个系统的正常运行。
可扩展性 (Scalability):Kafka 集群可以根据实际需求进行水平扩展,只需要增加节点即可。同时,Kafka 的设计也支持多数据中心的部署方式,可以将数据传递到不同的数据中心,以满足不同的需求。
灵活性(Flexibility):Kafka 支持多种数据源和数据格式,可以处理各种类型的数据,包括结构化数据、半结构化数据和非结构化数据。同时,Kafka 也支持多种消费者和生产者的语言和协议,如 Java、Python、C++、REST 等。
可定制性(Customizability):Kafka 提供了可插拔的 API 和插件机制,用户可以自定义各种插件,如自定义序列化和反序列化插件、自定义存储插件等。
易于使用和管理(Easy to use and management):Kafka 的 API 和配置都相对简单,使用和管理起来相对容易。同时,Kafka 还提供了丰富的监控和管理工具,如 Kafka Manager、Kafka Monitor 等,方便用户进行管理和监控。
通常使用场景
消息传递(Messing):将数据从一个系统传输到另一个系统。例如,一个应用程序可以将消息写入Kafka主题,另一个应用程序可以从该主题读取这些消息并执行相应的操作。这个用例可以用于许多不同的场景,如应用程序集成、实时流处理、日志处理等。与RabbitMQ不同之处,RabbitMQ只能消费一次,Kafka可以多次消费。
网站活动跟踪(Website Activity Tracking):收集和处理网站活动跟踪数据。网站活动跟踪数据通常以事件的形式生成,例如页面浏览、搜索、购物车添加等。这些事件可以写入Kafka主题,然后可以用于实时监控、实时处理或离线处理和报告生成。
数据指标(Metrics):聚合和处理各种数据指标。例如,一些应用程序会将指标数据写入Kafka主题,例如应用程序的请求响应时间、错误率、吞吐量等。这些数据可以用于监控应用程序性能和健康状况,并根据需要进行实时或离线处理和报告生成。
日志聚合(Log Aggregation):聚合和处理各种日志数据。许多应用程序会将日志数据写入Kafka主题,例如应用程序日志、服务器日志、安全日志等。这些数据可以用于实时监控、离线处理和报告生成、故障排除等。
流处理(Stream Processing):流处理是一种数据处理模式,可以在数据到达时立即对其进行处理。Kafka提供了流处理库,如Kafka Streams和KSQL,可以用于构建实时流处理应用程序。这些应用程序可以用于各种场景,如实时监控、实时报警、实时分析等。
事件源(Event sourcing):事件源是一种数据源,它以事件的形式生成数据。例如,一个传感器可以生成事件,指示当前温度或湿度。Kafka可以用于收集和处理这些事件,然后将其转换为有用的信息。
提交日志 (Commit Log):提交日志是一种记录系统状态的机制,它可以用于恢复系统状态或进行故障排除。例如,Kafka消费者将消费偏移量写入提交日志中,以便在发生故障时可以恢复到正确的位置。
基本概念
主题(Topic):消息的逻辑容器,每个消息都属于一个主题。主题可以看作是消息流的类别,可以拥有多个生产者和消费者。
分区(Partition):每个主题可以被分成多个分区,每个分区是一个有序的消息队列。分区可以提供更高的并发性和伸缩性,同时还可以实现数据冗余和备份。
生产者(Producer):负责向主题中写入消息的应用程序,可以将消息发送到指定的主题和分区。
消费者(Consumer):从主题中读取消息的应用程序,可以订阅一个或多个主题和分区,并从中读取消息。
代理(Broker):Kafka 集群中的每个节点都是一个代理,负责接收来自生产者和消费者的消息,并将其存储在本地磁盘上的分区中。
偏移量(Offset):每个分区中的每条消息都有一个唯一的偏移量,表示该消息在分区中的位置。消费者可以通过偏移量来跟踪其读取的位置。
消费者组(Consumer Group):多个消费者可以组成一个消费者组来共同消费一个或多个主题。在一个消费者组中,每个消费者都负责消费其中一个或多个分区中的消息。
复制(Replication):使用副本机制来提高数据的可靠性和容错性。每个分区可以配置多个副本,其中一个副本作为领导者(Leader),负责处理生产者和消费者的请求,其他副本作为追随者(Follower),复制领导者的数据并提供备份。
Kafka及生成消费Topic事件
1. 获取 Kafka
下载 Kafka
2. Kafka 安装并启动
$ tar -xzf kafka_2.13-3.4.0.tgz
$ cd kafka_2.13-3.4.0
# Start zookeeper
$ bin/zookeeper-server-start.sh config/zookeeper.properties
# open a new session
# generate random cluster id
$ KAFKA_CLUSTER_ID="$(bin/kafka-storage.sh random-uuid)"
$ echo $KAFKA_CLUSTER_ID
PiqNzmreRbqqlua4uUt3ZQ
# delete files under /tmp as below
$ rm -rf /tmp/kafka-logs /tmp/zookeeper /tmp/kraft-combined-logs
# modify config/kraft/server.properties relevant ip
# controller.quorum.voters=1@192.168.79.177:9093
# listeners=PLAINTEXT://192.168.79.177:9092,CONTROLLER://192.168.79.177:9093
# advertised.listeners=PLAINTEXT://192.168.79.177:9092
$ bin/kafka-storage.sh format -t $KAFKA_CLUSTER_ID -c config/kraft/server.properties
Formatting /tmp/kraft-combined-logs with metadata.version 3.4-IV0.
$ bin/kafka-server-start.sh config/kraft/server.properties
3. 创建Topic
$ bin/kafka-topics.sh --create --topic first-events --bootstrap-server 192.168.79.177:9092
Created topic first-events.
$ bin/kafka-topics.sh --create --topic second-events --bootstrap-server 192.168.79.177:9092
Created topic second-events.
4. 查看Topic
$ bin/kafka-topics.sh --list --bootstrap-server 192.168.79.177:9092
first-events
second-events
5. 查看Topic 分区
$ bin/kafka-topics.sh --describe --topic first-events --bootstrap-server 192.168.79.177:9092
Topic: first-events TopicId: mRi_1FdLTkS45ay3haaUrA PartitionCount: 1 ReplicationFactor: 1 Configs: segment.bytes=1073741824Topic: first-events Partition: 0 Leader: 1 Replicas: 1 Isr: 1
$ bin/kafka-topics.sh --describe --topic second-events --bootstrap-server 192.168.79.177:9092
Topic: second-events TopicId: 8J2iMtGMQdKD2MjsyCXzyw PartitionCount: 1 ReplicationFactor: 1 Configs: segment.bytes=1073741824Topic: second-events Partition: 0 Leader: 1 Replicas: 1 Isr: 1
6. 生产事件/消息
$ bin/kafka-console-producer.sh --topic first-events --bootstrap-server 192.168.79.177:9092
>first-events 01
>first-events 02
# Ctrl+D or Ctrl+C 退出
7. 消费事件/消息
$ bin/kafka-console-consumer.sh --topic first-events --from-beginning --bootstrap-server 192.168.79.177:9092
first-events 01
first-events 02
# open a new session and run the same command
$ bin/kafka-console-consumer.sh --topic first-events --from-beginning --bootstrap-server 192.168.79.177:9092
first-events 01
first-events 02
# Ctrl+C Exit to
多个消费者消费同一个Topic,可以消费无数次,可以用于事件流。
8. 删除topic
$ bin/kafka-topics.sh --delete --topic second-events --bootstrap-server 192.168.79.177:9092
$ bin/kafka-topics.sh --list --bootstrap-server 192.168.79.177:9092
first-events
相关文章:
Kafka 入门 (一)
Kafka 入门(一) Apache Kafka起源于LinkedIn,后来于2011年成为开源Apache项目,然后于2012年成为First-class Apache项目。Kafka是用Scala和Java编写的。 Apache Kafka是基于发布订阅的容错消息系统。 它是快速,可扩展…...
linux内核开发入门二(内核KO模块介绍、开发流程以及注意事项)
linux内核开发入门二(内核KO模块介绍、开发流程以及注意事项) 一、什么是内核模块 内核模块:ko模块(Kernel Object Module)是Linux内核中的可加载模块,它可以动态地向内核添加功能。在运行时,可…...
设计模式(十七)----行为型模式之模板方法模式
行为型模式用于描述程序在运行时复杂的流程控制,即描述多个类或对象之间怎样相互协作共同完成单个对象都无法单独完成的任务,它涉及算法与对象间职责的分配。 行为型模式分为类行为模式和对象行为模式,前者采用继承机制来在类间分派行为&…...
【嵌入式Linux内核驱动】01_内核模块
内核模块 宏内核&微内核 微内核就是内核中的一部分功能放到应用层 内核小,精简,可扩展性好,安全性好 相互之间通信损耗多 内核模块 Linux是宏内核操作系统的典型代表,所有内核功能都整体编译到一起,优点是效…...
Spring——数据源对象管理和Spring加载properties文件
前面一直都是在管理自己内部创建的对象,这个是管理外部的对象。 这里先使用阿里巴巴的druid来演示。需要在pom.xml中添加如下的依赖 <dependency><groupId>com.alibaba</groupId><artifactId>druid</artifactId><version>1.1…...
Zeek安装、使用与压力测试
Zeek安装与压力测试Zeek安装、简单使用与压力测试环境Zeek安装zeek简单运行安装PF_RING修改Zeek配置文件,使用PF_RING,实现集群流量压力测试查看zeek日志Zeek安装、简单使用与压力测试 科研需要,涉及到Zeek的安装、使用和重放流量压力测试评…...
【javaEE初阶】第三节.多线程 (进阶篇 ) 死锁
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、"死锁"出现的典型场景二、产生 "死锁" 的必要条件 三、解决 "死锁" 问题的办法 总结前言 今天对于多线程进阶的学习&#…...
基于密集连接的轻量级卷积神经网络,用于使用边云架构的露天煤矿服务识别
遥感是快速检测非法采矿行为的重要技术工具。由于露天煤矿的复杂性,目前关于露天煤矿自动开采的研究较少。基于卷积神经网络和Dense Block,我们提出了一种用于从Sentinel-2遥感图像中提取露天煤矿区域的轻量级密集连接网络-AD-Net,并构建了三…...
无刷高速风筒方案介绍--【PCBA方案】
疫情三年过去,春节后,一个新的开始,大家满怀希望畅谈今年好气象。 三年来一波一波的封城、隔离、核酸,经济压抑到了无以复加的地步,也导致了诸多社会问题的出现。消费力被磨平,人们小心翼翼的生活。 常跟…...
花括号展开II[栈模拟dfs]
栈模拟dfs前言一、花括号展开II二、栈模拟dfs总结参考资料前言 递归调用,代码非常的简洁。但是可以通过显式栈来模拟栈中的内容,锻炼自己的代码能力,清楚知道栈帧中需要的内容。 一、花括号展开II 二、栈模拟dfs 每碰到一个左括号…...
神经网络分类任务(手写数字识别)
1.Mnist分类任务 网络基本构建与训练方法,常用函数解析 torch.nn.functional模块 nn.Module模块 学习方法:边用边查,多打印,duogua 使用jupyter的优点,可以打印出每一个步骤。 2.读取数据集 自动下载 %matplotl…...
FCN网络(Fully Convolutional Networks)
首个端到端的针对像素级预测的全卷积网络 原理:将图片进行多次卷积下采样得到chanel为21的特征层,再经过上采样得到和原图一样大的图片,最后经过softmax得到类别概率值 将全连接层全部变成卷积层:通常的图像分类网络最后几层是全…...
随想录二刷Day15——二叉树
文章目录二叉树2. 递归遍历二叉树3. 二叉树的迭代遍历4. 二叉树的统一迭代法二叉树 2. 递归遍历二叉树 144. 二叉树的前序遍历 class Solution { public:vector<int> preorderTraversal(TreeNode* root) {vector<int> result;preorder(root, result);return res…...
docker-compose部署kafka服务时如何同时允许内外网访问?
背景 最近在学习kafka相关知识,需要搭建自己的kafka环境。综合考虑后决定使用docker-compose来管理维护这个环境。 docker-compose.yml Bitnami的yml文件就很不错,这里直接拿来用了。 version: "2"services:zookeeper:image: docker.io/bi…...
数据结构刷题(二十):17电话号码的字母组合、39组合总和、40组合总和II
一、电话号码的字母组合题目链接思路:回溯三部曲。确定回溯函数参数:题目中给的 digits,还要有一个参数就是int型的index(记录遍历第几个数字,就是用来遍历digits的,同时也代表了递归的深度)&am…...
Java面试总结(五)
sleep() 方法和 wait() 方法对比 相同点 两者都可以暂停线程的执行;两者都可以响应中断。 不同点 sleep()方法不会释放锁,wait()方法会释放锁; sleep()方法主要用于暂停线程的执行,wait()方法主要用于线程之间的交互/通信&…...
三维人脸实践:基于Face3D的渲染、生成与重构 <二>
face3d: Python tools for processing 3D face git code: https://github.com/yfeng95/face3d paper list: PaperWithCode 3DMM方法,基于平均人脸模型,可广泛用于基于关键点的人脸生成、位姿检测以及渲染等,能够快速实现人脸建模与渲染。推…...
在linux上部署Java项目
在Linux部署Java环境 要是想要部署java web程序,首先要配置环境 jdk tomcat mysql 安装jdk 推荐的方法是使用yum直接安装openjdk(开源的,与官方的jdk功能差不多),目前使用的最多的就是jdk8系列 yum list | grep jdk 在源上搜索所有关于jdk的文件 devel表示development的意思…...
线性表的接口
线性表的实现方式 顺序表 顺序表是一种线性表的实现方式,它是用一组地址连续的存储单元依次存储线性表中的数据元素,使得逻辑上相邻的元素在物理上也相邻⁴。顺序表可以用数组来实现,它的优点是可以快速定位第几个元素,但是缺点…...
spark三种操作模式的不同点分析
通常情况下,由于mapreduce计算引擎的效率问题,大部分公司使用的基本都是hive数仓spark计算引擎的方式搭建集群,所以对于spark的三种操作方式来进行简单的分析。在日常开发中,使用最多的方式取决于具体的需求和场景。以下是每种方式的一些常见用途:Spark …...
深入剖析AI大模型:大模型时代的 Prompt 工程全解析
今天聊的内容,我认为是AI开发里面非常重要的内容。它在AI开发里无处不在,当你对 AI 助手说 "用李白的风格写一首关于人工智能的诗",或者让翻译模型 "将这段合同翻译成商务日语" 时,输入的这句话就是 Prompt。…...
iOS 26 携众系统重磅更新,但“苹果智能”仍与国行无缘
美国西海岸的夏天,再次被苹果点燃。一年一度的全球开发者大会 WWDC25 如期而至,这不仅是开发者的盛宴,更是全球数亿苹果用户翘首以盼的科技春晚。今年,苹果依旧为我们带来了全家桶式的系统更新,包括 iOS 26、iPadOS 26…...
盘古信息PCB行业解决方案:以全域场景重构,激活智造新未来
一、破局:PCB行业的时代之问 在数字经济蓬勃发展的浪潮中,PCB(印制电路板)作为 “电子产品之母”,其重要性愈发凸显。随着 5G、人工智能等新兴技术的加速渗透,PCB行业面临着前所未有的挑战与机遇。产品迭代…...
Psychopy音频的使用
Psychopy音频的使用 本文主要解决以下问题: 指定音频引擎与设备;播放音频文件 本文所使用的环境: Python3.10 numpy2.2.6 psychopy2025.1.1 psychtoolbox3.0.19.14 一、音频配置 Psychopy文档链接为Sound - for audio playback — Psy…...
BCS 2025|百度副总裁陈洋:智能体在安全领域的应用实践
6月5日,2025全球数字经济大会数字安全主论坛暨北京网络安全大会在国家会议中心隆重开幕。百度副总裁陈洋受邀出席,并作《智能体在安全领域的应用实践》主题演讲,分享了在智能体在安全领域的突破性实践。他指出,百度通过将安全能力…...
JDK 17 新特性
#JDK 17 新特性 /**************** 文本块 *****************/ python/scala中早就支持,不稀奇 String json “”" { “name”: “Java”, “version”: 17 } “”"; /**************** Switch 语句 -> 表达式 *****************/ 挺好的ÿ…...
UR 协作机器人「三剑客」:精密轻量担当(UR7e)、全能协作主力(UR12e)、重型任务专家(UR15)
UR协作机器人正以其卓越性能在现代制造业自动化中扮演重要角色。UR7e、UR12e和UR15通过创新技术和精准设计满足了不同行业的多样化需求。其中,UR15以其速度、精度及人工智能准备能力成为自动化领域的重要突破。UR7e和UR12e则在负载规格和市场定位上不断优化…...
初学 pytest 记录
安装 pip install pytest用例可以是函数也可以是类中的方法 def test_func():print()class TestAdd: # def __init__(self): 在 pytest 中不可以使用__init__方法 # self.cc 12345 pytest.mark.api def test_str(self):res add(1, 2)assert res 12def test_int(self):r…...
C# 表达式和运算符(求值顺序)
求值顺序 表达式可以由许多嵌套的子表达式构成。子表达式的求值顺序可以使表达式的最终值发生 变化。 例如,已知表达式3*52,依照子表达式的求值顺序,有两种可能的结果,如图9-3所示。 如果乘法先执行,结果是17。如果5…...
逻辑回归暴力训练预测金融欺诈
简述 「使用逻辑回归暴力预测金融欺诈,并不断增加特征维度持续测试」的做法,体现了一种逐步建模与迭代验证的实验思路,在金融欺诈检测中非常有价值,本文作为一篇回顾性记录了早年间公司给某行做反欺诈预测用到的技术和思路。百度…...
