当前位置：首页 > news >正文

Kafka 消息丢失如何处理？

news 2026/5/26 9:39:11

今天给大家分享一个在面试中经常遇到的问题：Kafka 消息丢失该如何处理？

这个问题啊，看似简单，其实里面藏着很多“套路”。

来，咱们先讲一个面试的“真实”案例。

面试官问：“Kafka 消息丢失如何处理？”

小明一听，反问：“你是怎么发现消息丢失了？”

面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”

小明一头雾水：“问题是都不知道怎么丢的，处理起来岂不是瞎搞吗？”

画面一黑，面试官离开了会议室，留小明一个人凌乱在风中……

👀 这段子虽然搞笑，但实际工作中，确实“消息丢失”这个事儿有点让人摸不着头脑。

大家有没有想过：消息丢失的定义到底是什么？其实，发现消息丢失的过程，才是处理问题的关键！

在用 Pub/Sub 类中间件，比如 Kafka 或 RocketMQ 时，消息丢失可能有很多原因，包括生产者、消费者和网络传输等各个环节。

我们今天就结合实际工作中遇到的情况，聊聊到底怎么发现消息丢失，又该怎么处理。😎

首先，我们要搞清楚消息丢失的几种典型场景：

1.生产者消息发送失败：这个比较简单，如果生产者发消息时，网络抖动、服务宕机或 Kafka broker 挂了，那消息就丢了。

这时候生产者通常会重试，但是如果重试策略不当，还是可能丢消息。

2.消费者消费消息失败：最常见的是消费者拉取了消息，但是业务处理失败，或者消费后没有提交 offset，导致消息“看似”消费了，实际根本没处理。

这种情况不算真正的消息丢失，但你业务数据不一致，这锅还是要 Kafka 来背。😂

3. 网络异常导致消息丢失：有时候消息发送成功了，但是因为网络问题，导致消费者没能拉到这些消息，这类情况更难排查。

OK，分析了几种可能性，接下来看看有哪些方法可以帮助我们及时发现这些问题。

1.监控和告警系统

监控是最基础的保障手段。一般来说，Kafka 提供了很多指标可以监控，比如生产端和消费端的吞吐量、消息积压（lag）情况、消费者组的 offset 等等。

通过这些监控指标，一旦消费端的消息积压开始异常增长，或者 offset 停滞不前，就说明很可能有消息丢失了。

很多公司会用 Prometheus + Grafana 来做监控和可视化，再配合告警系统（如 Alertmanager）实时提醒。

比如可以监控 `kafka_consumer_lag` 这个指标，一旦消息积压超过预设阈值，就触发告警。

# Prometheus 配置监控 Kafka 消费者积压
kafka_consumer_lag{consumer_group="your-consumer-group", topic="your-topic"} > 100

在工作中，这类告警往往是消息丢失的第一个信号，反应速度极快。

2.消息追踪机制

消息追踪就像在每个消息上打个“追踪码”，确保每条消息都能被追踪到。

具体做法是：生产者在发送每条消息时，生成一个唯一的 `message_id`，消费者在消费时同样记录消费的 `message_id`。

通过对比生产端和消费端的 ID，就可以发现有没有消息“掉队”了。

在实际应用中，通常会通过日志来记录这些 `message_id`，并定期检查对账，保证所有消息都正确处理了。

// 生产者发送消息时生成 message_id
String messageId = UUID.randomUUID().toString();
ProducerRecord<String, String> record = new ProducerRecord<>("your-topic", messageId, messageContent);
producer.send(record);// 消费者消费消息时记录 message_id
public void consumeMessage(ConsumerRecord<String, String> record) {String messageId = record.key();  // 获取 message_id// 将 message_id 存储到日志或数据库中，用于后续追踪log.info("Consumed message with ID: {}", messageId);
}

3.消息确认机制

Kafka 本身有个很经典的机制，就是手动提交offset。消费者在处理完消息后，才提交消费位置的 offset。

如果消费失败了，不提交 offset，Kafka 就会重新分配这条消息，避免消息丢失。

很多时候，消息丢失的“锅”其实是消费者自己在消费时出了问题，明明没处理完却偷偷提交了 offset，让 Kafka 以为消息已经处理完毕了。

手动提交 offset 就能很好地避免这种情况。

public void consumeMessages() {ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));for (ConsumerRecord<String, String> record : records) {try {// 处理消息逻辑processMessage(record);// 成功处理后提交 offsetconsumer.commitSync();} catch (Exception e) {// 处理失败不提交 offset，Kafka 会重试log.error("Failed to process message, will retry.", e);}}
}

‍4.消息重试和补偿机制

为了解决偶发性的消费失败，很多公司会为 Kafka 消费端加一个重试机制。

当消息处理失败时，重新将消息放回队列，或者放到一个死信队列（Dead Letter Queue, DLQ）里，然后专门处理这些异常消息。

// 如果消息处理失败，将其放回死信队列
try {processMessage(record);
} catch (Exception e) {producer.send(new ProducerRecord<>("dlq-topic", record.key(), record.value()));
}

这个方式虽然不能彻底避免消息丢失，但能保证消息不会轻易丢失，特别是一些重要业务场景中，消息的可靠性至关重要。

5.多副本存储

Kafka 还有一个核心功能，就是多副本机制，即消息在多个 broker 上都有副本。这样即使某个 broker 挂了，其他副本也能提供消息。

通过设置 `replication.factor` 参数，我们可以指定 Kafka 每条消息的副本数，确保即使一台机器挂了，消息也不会丢失。

# Kafka Topic 多副本配置
replication.factor=3

最后，真正发现消息丢失了，怎么办呢？这里有一些基本的补救措施：

1.检查消费端日志：首先要确定消息到底有没有消费。如果消费端日志显示消费失败，重新处理即可。

2.重发消息：如果消费端确实没处理成功，可以将消息重新发送到 Kafka，或者从备份中恢复并重放消息。

3.处理丢失后的补偿：业务上可能会涉及补偿措施，比如通知相关人员手动处理，或者对丢失的数据进行回补。

总之，消息丢失不算是特别常见的问题，但一旦遇到，还是需要冷静排查问题源头。

Kafka 等 Pub/Sub 中间件本身已经有比较强大的机制来应对这些场景，只要结合业务需求，做好监控和容错机制，基本都能把问题压到最小。

Kafka 消息丢失如何处理？

今天给大家分享一个在面试中经常遇到的问题：Kafka 消息丢失该如何处理？ 这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka 消息丢失如何处理&#x…...

编程日记 2024/11/4 23:08:39

Mysql报错注入之floor报错详解

updatexml extractvalue floor 是mysql的函数 groupbyrandfloorcount 一、简述利用 select count(),(floor(rand(0)2))x from table group by x，导致数据库报错，通过 concat 函数，连接注入语句与 floor(rand(0)*2)函数，实现将…...

编程日记 2024/11/4 23:07:36

EPS原理笔记

EPS UE(user equipment)，移动用户设备 LTE(Long Term Evolution)，无线接入网部分，E-UTRAN EPC(system Architecture Evolution、Evoloed Packet Core)，核心网部分，主要包括MME、S-GW、P-GW、HSS，连接Intern…...

编程日记 2024/11/4 23:06:35

LeetCode 876. 链表的中间结点

题目描述: 给你单链表的头结点 head ，请你找出并返回链表的中间结点。如果有两个中间结点，则返回第二个中间结点。示例 1： 输入：head [1,2,3,4,5] 输出：[3,4,5] 解释：链表只有一个中间结点&#xff0…...

编程日记 2024/11/4 23:01:27

划界与分类的艺术：支持向量机（SVM）的深度解析

划界与分类的艺术：支持向量机（SVM）的深度解析 1. 引言支持向量机（Support Vector Machine, SVM）是机器学习中的经典算法，以其强大的分类和回归能力在众多领域得到了广泛应用。SVM通过找到最优超平面来分…...

编程日记 2024/11/4 22:58:23

题目：100条经典C语言笔试题目（1-5）

题目： 1、请填写 bool , float, 指针变量与“零值”比较的if 语句。提示：这里“零值”可以是 0, 0.0 , FALSE 或者“空指针” 。例如 int 变量 n 与“零值”比较的 if 语句为： （1）请写出bool flag 与“零值”比较…...

编程日记 2024/11/4 22:53:14

python代码编写规范及注意事项

目录 1. 注意1.1 变量与常量解释：建议的修复： 1.2 Too many arguments 和 Too many local variables解决方案1. 减少参数数量2. 减少局部变量数量3. 调整 Pylint 配置总结 1. 注意 1.1 变量与常量解读下面的pylint问题 C0103: Constant name “file_p…...

编程日记 2024/11/4 22:52:14

【Linux】命令行参数 | 环境变量

🪐🪐🪐欢迎来到程序员餐厅💫💫💫 主厨：邪王真眼主厨的主页：Chef‘s blog 所属专栏：青果大战linux 总有光环在陨落，总有新星在闪烁前几天在搞硬件&…...

编程日记 2024/11/4 22:51:12

python 使用进程池并发执行 SQL 语句

这段代码使用了 Python 的 multiprocessing 模块来实现真正的并行处理，绕过 Python 的全局解释器锁（GIL）限制，从而在多核 CPU 上并发执行多个 SQL 语句。 from pyhive import hive import multiprocessing# 建立连接 conn hive.…...

编程日记 2024/11/4 22:48:08

我也谈AI

“随着人工智能技术的不断发展，我们已经看到了它在各行业带来的巨大变革。在医疗行业中，人工智能技术正在被应用于病例诊断、药物研发等方面，为医学研究和临床治疗提供了新的思路和方法；在企业中，人工智能技术可以通过…...

编程日记 2024/11/4 22:45:05

算法妙妙屋-------1.递归的深邃回响：二叉树的奇妙剪枝

大佬们好呀，这一次讲解的是二叉树的深度搜索，大佬们请阅 1.前言⼆叉树中的深搜（介绍） 深度优先遍历（DFS，全称为DepthFirstTraversal），是我们树或者图这样的数据结构中常⽤的⼀种…...

编程日记 2024/11/4 22:44:04

编写第一个 Appium 测试脚本：从安装到运行！

前言最近接到一个测试项目，简单描述一下，需求就是：一端发送指令，另一端接受指令并处理指令。大概看了看有上百条指令，点点点岂不是废了，而且后期迭代，每次都需要点点点，想想就头大…...

编程日记 2024/11/4 22:43:03

mysql查表相关练习

作业要求： 单表练习： 1 . 查询出部门编号为 D2019060011 的所有员工 2 . 所有财务总监的姓名、编号和部门编号。 3 . 找出奖金高于工资的员工。 4 . 找出奖金高于工资 40% 的员工。 5 找出部门编号为 D2019090011 中所有财务总监，和…...

编程日记 2024/11/4 22:41:00

airtest+poco多脚本、多设备批处理运行测试用例自动生成测试报告

一：主要内容框架功能、框架架构及测试报告效果 airtest安装、环境搭建框架搭建、框架运行说明框架源码二：框架功能及测试报告效果 1. 框架功能： 该框架笔者用来作为公司的项目的前端自动化，支持pc和app，本文…...

编程日记 2024/11/4 22:39:58

Prometheus套装部署到K8S+Dashboard部署详解

1、添加helm源并更新 helm repo add prometheus-community https://prometheus-community.github.io/helm-charts helm repo update2、创建namespace kubectl create namespace monitoring 3、安装Prometheus监控套装 helm install prometheus prometheus-community/prome…...

编程日记 2024/11/4 22:37:54

python使用pymysql

为了封装这个数据库操作为一个通用方法，我们可以创建一个函数，该函数接受数据库连接参数（如主机名、用户名、密码、数据库名）、SQL语句以及必要的参数（用于参数化查询）。下面是一个简单的封装示例&#xff…...

编程日记 2024/11/4 22:36:52

Vue3 + TypeScript 组件和文件命名规范及 setup 导入顺序规范

前言在 Vue3 项目中，合理的文件命名规范和导入顺序不仅有助于提高代码的可读性，还能增强团队协作的效率。特别是在使用 TypeScript 和 Composition API 的项目中，清晰的组件和文件结构尤为重要。本文将详细介绍 Vue3 TypeScript 项目中的组…...

编程日记 2024/11/4 22:35:50

netty之处理连接源码分析

写在前面在这篇文章看了netty服务是如何启动的，服务启动成功后，也就相当于是迎宾工作都已经准备好了，那么当客人来了怎么招待客人呢？也就是本文要看的处理连接的工作。 1：正文先启动源码example模块的echoserver&a…...

编程日记 2024/11/4 22:34:48

Dockerfile文件编写

1、打nginx原始包登录后复制 ROM nginxENV LANG zh_CN.UTF-8 ENV LC_ALL zh_CN.UTF-8 ENV TZ Asia/Singapore# 设置时区，同样保持在一层 RUN ln -sf /usr/share/zoneinfo/${TZ} /etc/localtime && \echo "${TZ}" > /etc/timezoneRUN apt-get …...

编程日记 2024/11/4 22:33:46

Oracle SQL 使用 ROWNUM 分页查询速度太慢的问题及解决方案！

在使用 Oracle 数据库进行数据查询时，分页查询是一种常见的需求。传统上，开发者常常使用 ROWNUM 来实现分页功能。然而，当数据量较大时，使用 ROWNUM 进行分页查询可能会导致性能问题。本文将深入探讨这一问题的原因，并提供多种解决方案，以提高分页查询的性能。一、RO…...

编程日记 2024/11/4 22:31:44

AX-MES生产制造管理系统-总览

前言说起 MES 就不得不说 ERP，但是 ERP 大家基本上都知道，MES 就不一定了，常见的 ERP 系统包括 SAP、金蝶、用友等，ERP的流程相对来说也比较统一；MES就不同了，基本上熟悉业务流程的软件公司都可以开发并实施…...

编程新知 2026/5/26 4:48:24

③ AI副业第一步：如何找到适合自己的AI赚钱赛道

③ AI副业第一步：如何找到适合自己的AI赚钱赛道选对赛道，努力才有意义。选错赛道，越努力离钱越远。前言：为什么大多数人AI副业做不起来？ 我观察了100想做AI副业的人，失败的原因高度一致： 失败路…...

编程新知 2026/5/26 3:09:56

GEMM内核与MHA中的寄存器分配优化策略

1. GEMM内核与寄存器分配基础解析通用矩阵乘法（GEMM）作为深度学习计算的核心算子，其性能表现直接决定了神经网络训练和推理的效率。在硬件层面，寄存器分配的优劣往往能带来数倍的性能差异。我们以典型的GEMM运算C αAB βC为例&…...

编程新知 2026/5/26 3:05:52

Midjourney锐化效果失效真相（2024官方未公开的渲染管线瓶颈解析）

更多请点击： https://intelliparadigm.com 第一章：Midjourney锐化效果失效真相（2024官方未公开的渲染管线瓶颈解析） 自2024年V6.2版本起，大量用户反馈 --stylize 与 --sharp 参数组合下图像边缘锐化效果显著弱化&am…...

编程新知 2026/5/26 1:06:54

新能源车轻量化为什么开始盯上高强镁合金？

续航，是悬在每一台纯电动汽车头上的达摩克利斯之剑。多充一度电、多堆一些正极材料，是一条路；但还有另一条路——把车造得更轻。 SAE（美国汽车工程师学会）的测算已经被反复引用：整车每减重100千克&#xff…...

编程新知 2026/5/26 0:32:21

ROS Noetic实战：从bag包里‘抠’出雷达点云和IMU数据的保姆级教程（Ubuntu 20.04）

ROS Noetic实战：从bag包里提取雷达点云和IMU数据的完整指南（Ubuntu 20.04）在机器人开发中，ROS bag文件就像是一个装满珍贵数据的宝箱，而雷达点云和IMU数据则是其中最闪亮的宝石。作为一名长期与ROS打交道的开发者&…...

编程新知 2026/5/26 0:28:17

Mysql：事务管理（中）

在前面的章节中，我们提到了 MVCC（多版本并发控制），它巧妙地通过“版本快照”解决了“读-写”冲突，实现了非阻塞读。但如果两个事务同时执行 UPDATE 操作修改同一行数据，即写-写（Write-Write&am…...

编程新知 2026/5/25 23:29:18

双稳健机器学习：用正交性与交叉拟合解决因果推断中的ML偏差

1. 项目概述：当机器学习遇见因果推断的“干扰”难题在实证研究的日常工作中，我们常常面临一个核心矛盾：我们真正关心的，往往只是一个或几个关键参数——比如一项政策对就业率的平均影响（平均处理效应，ATE&a…...

编程新知 2026/5/25 22:50:43

别再死磕USB HID了！用ESP32的Arduino框架手把手教你实现蓝牙鼠标键盘（附完整代码）

ESP32蓝牙HID实战：零基础打造自定义键盘鼠标手里那块吃灰的ESP32开发板终于能派上用场了！上周我用它做了个无线演示控制器，在会议室里走着就能翻PPT，同事们都问是怎么实现的。其实秘诀就在于ESP32的蓝牙HID功能——不需要任何USB…...

编程新知 2026/5/25 22:12:18

PvZ Toolkit终极指南：三步掌握植物大战僵尸最强修改器

PvZ Toolkit终极指南：三步掌握植物大战僵尸最强修改器【免费下载链接】pvztoolkit 植物大战僵尸 PC 版综合修改器项目地址: https://gitcode.com/gh_mirrors/pv/pvztoolkit PvZ Toolkit是一款专为植物大战僵尸PC版设计的综合修改器工具，能够让你…...

编程新知 2026/5/25 20:20:04

相关文章：