20240711每日消息队列-------------MQ消息的积压的折磨
目标
解决MQ消息的积压
背景
菜馆系统-----------
系统读取消息,处理业务逻辑,持久化订单和菜品数据,然后将其显示在菜品管理客户端上。
最初我们的用户基数很小,上线后的一段时间内,MQ消息通信还算顺利。
随着用户规模的扩大,每个商家每天都会产生大量的订单数据,每个订单都包含多个菜品。这导致我们的菜肴管理系统的数据量显着增加。
某一天,商家投诉,称用户下单后平板上的菜品列表出现延迟。
几分钟后厨房才看到菜品。
这能行?
很明显出现这样的菜品展示延迟肯定和Kafka有关,所以我们先从排查Kafka开始。
正如预期的那样,有一个 message backlog 。
通常,消息积压的原因有:
- MQ 使用者已关闭。
- MQ 生产者生成消息的速率超过 MQ 消费者消费消息的速率。
我们检查了监控系统,发现我们的MQ消费服务运行正常,没有任何异常。
剩下的原因可能是MQ消费者的消息处理速度变慢了。
接下来我查看了菜品管理表,只有几十万条记录。
首先定位处理MQ日志比较慢的地方:
在代码中添加了一些日志来打印出MQ消费者中各个关键点所花费的时间。
确实有两个地方延迟有点高:
1、有一段代码在for循环中,一条一条的查询数据库。
2、有一段代码执行多条件数据查询。
解决循环查询
对于在for循环中一一查询数据库的代码,我使用参数集合将其更改为 batch query 。
原代码如下:
public List<User> queryUser(List<User> searchList) {if (CollectionUtils.isEmpty(searchList)) {return Collections.emptyList();}
List<User> result = Lists.newArrayList();searchList.forEach(user -> result.add(userMapper.getUserById(user.getId())));return result;
}
改进一下:
public List<User> queryUser(List<User> searchList) {if (CollectionUtils.isEmpty(searchList)) {return Collections.emptyList();}List<Long> ids = searchList.stream().map(User::getId).collect(Collectors.toList());return userMapper.getUserByIds(ids);
}
很简单的调整,搞一个ids集合,轻松解决挤压问题。
第二次遇到消息积压
这一次,它是零星的,只是偶尔发生,而不是大多数时候发生。
查了一下菜品管理表,现在已经有几百万条记录了
通过监控和DBA每天的慢查询邮件,我注意到了一些异常情况。
我发现有些SQL语句的WHERE条件完全相同,只是参数值不同,导致使用的索引不同。
例如, order_id=123 使用索引 a,而 order_id=124 使用索引 b。
该表查询场景众多,为了满足不同的业务需求,增加了多个复合索引。
MySQL 根据几个因素选择索引:
1、通过数据采样估计要扫描的行数。更多行可能会导致更高的 I/O 操作和更高的 CPU 使用率。
2、是否使用临时表,也会影响查询速度。
3、是否需要排序,因为它会影响查询速度。
考虑到这些因素和其他因素,MySQL 优化器会选择它认为最合适的索引。
MySQL优化器通过采样来估计要扫描的行数,这涉及到选择一些数据页进行统计估计,从而引入一些误差。
由于MVCC设计,存在多个版本的数据页。例如,删除的数据可能在其他事务中仍然可见,因此索引并未真正删除。这可能会导致统计数据不准确并影响优化器的决策。
这些因素都会导致MySQL在执行SQL语句时出现 错误索引
为了解决MySQL选择错误索引的问题,我们使用 FORCE INDEX 关键字强制SQL查询使用索引a。
FORCE INDEX
force index() 方法强制使用这个索引
第三次遇到消息积压
半年后的某一天,检查监控系统,发现Kafka消息再次积压。
检查了MySQL索引,发现使用了正确的索引,但数据查询仍然很慢。
检查菜品管理表,短短六个月内就增长到了 3000 万条记录。
通常,当单个表包含太多数据时,查询和写入性能都会下降。
这次查询缓慢的原因是数据量太大。
大数据表,解决这个问题,我们需要:
1、实施数据库和表分区
2、备份历史数据
但是我们的体量和预算不支持分库分表
因此,我们决定备份历史数据。
经过与产品经理和DBA讨论,我们决定菜品管理表只保留最近30天的数据,而早于该时间的数据将移至 historical table 。
经过这样的优化,菜品管理表在30天内只积累了几百万条记录,对性能的影响很小。
第四次遇到消息积压
又又又,没错,来了
年后的一个下午,当我查看公司邮件时,发现大量关于Kafka消息积压的监控警报邮件。
下午,这个时间点很奇怪。。。
经过上面的排查都没问题。
我询问订单团队当天下午是否发布了新版本或执行了任何特定功能。因为我们的菜品管理系统是他们的下游系统,跟他们的运营有直接关系。有同事提到,半个小时前,他们做了一个作业,批量更新了几万个订单的状态。更改订单状态会自动发送 MQ 消息。
这导致他们的程序在很短的时间内生成了大量的MQ消息。
我们的 MQ 使用者无法足够快地处理这些消息,导致消息积压。
我们检查了Kafka消息积压情况,发现有几十万条消息在排队。
查看Kafka消息积压情况
https://www.cnblogs.com/lanbojini/p/17314699.html
快速提高MQ消费者的处理速度
我们考虑了两种解决方案:
1、增加分区数量。
2、使用线程池来处理消息。
然而,由于消息已经积压在现有分区中,因此添加新分区并没有多大帮助。
因此,我们决定重构代码以使用 thread pool 来处理消息。
为了开始消耗积压的消息,我们将线程池的核心线程数和最大线程数增加到 50。
此次调整后,积压的数十万条消息在20分钟左右就得到了处理。
解决这个问题后,我们保留了消息消费的线程池逻辑,将核心线程数设置为 8 ,最大线程数设置为 10 。
这使我们能够临时调整线程计数,以快速解决未来的任何消息积压问题,而不会显着影响用户。
注意:使用线程池消费MQ消息并不是通用的解决方案。它有一些缺点,例如潜在的消息排序问题以及导致服务器 CPU 使用率飙升的风险。另外,如果在多线程环境下调用第三方接口,可能会导致第三方服务过载而崩溃。
结语
MQ积压,没有完美的解决方案,只有最适合当前业务场景的解决方案。fuck everythimg
相关文章:

20240711每日消息队列-------------MQ消息的积压的折磨
目标 解决MQ消息的积压 背景 菜馆系统----------- 系统读取消息,处理业务逻辑,持久化订单和菜品数据,然后将其显示在菜品管理客户端上。 最初我们的用户基数很小,上线后的一段时间内,MQ消息通信还算顺利。 随着用户…...

推荐一个比 Jenkins 使用更简单的项目构建和部署工具
最近发现了一个比 Jenkins 使用更简单的项目构建和部署工具,完全可以满足个人以及一些小企业的需求,分享一下。 项目介绍 Jpom 是一款 Java 开发的简单轻量的低侵入式在线构建、自动部署、日常运维、项目监控软件。 日常开发中,Jpom 可以解…...
java 在pdf中根据关键字位置插入图片(公章、签名等)
java 在pdf中根据关键字位置插入图片(公章、签名等) 1.使用依赖 <dependency><groupId>com.itextpdf</groupId><artifactId>itext7-core</artifactId><version>7.1.12</version><type>pom</type>…...

施耐德EOCR系列电机保护器全面升级后無端子型
一、施耐德数码型产品升级背景 施耐德电气作为一家全球领先的能源管理和自动化解决方案提供商,其产品线包括各种电动机保护器等数码型产品。随着技术的不断发展和市场需求的变化,施耐德会对其产品进行定期升级和优化。在升级过程中,产品的设…...

27.数码管的驱动,使用74HC595移位寄存器芯片
PS:升腾A7pro系列FPGA没有数码管外设,因此以AC620FPGA为例展开实验。 (1)共阳极数码管和共阴极数码管示意图: AC620中的数码管属于共阳极数码管,段选端口(dp,g,f,e,d,c,b,a)低电平即可点亮led。人眼的视觉…...
TCP/IP 原理、实现方式与优缺点
TCP/IP(传输控制协议/网际协议) 是互联网的核心协议套件,主要用于在不同计算机之间进行通信。它包括多个层次的协议,每层协议负责不同的功能。TCP/IP 的四个层次模型如下: 网络接口层:负责在特定的物理网络…...
利率债与信用债的区别及其与债券型基金的关系
利率债与信用债的定义及其区别 定义 利率债: 定义:利率债是指由主权或类主权主体(如中华人民共和国财政部、国家开发银行等)发行的债券。这些债券通常被认为没有信用风险,因为它们由国家信用背书。特点:由…...
linux下解压命令
在Linux下,解压缩文件通常涉及多种命令,具体取决于文件的压缩格式。以下是一些常用的解压缩命令: tar.gz / .tgz 如果文件扩展名为 .tar.gz 或 .tgz,你可以使用 tar 命令来解压缩: tar -xzf filename.tar.gz这里的 -x …...

Vulnhub靶场DC-3-2练习
目录 0x00 准备0x01 主机信息收集0x02 站点信息收集0x03 漏洞查找与利用1. joomla漏洞查找2. SQL注入漏洞3. 破解hash4. 上传一句话木马5. 蚁剑连接shell6. 反弹shell7. 提权 0x04 总结 0x00 准备 下载链接:https://download.vulnhub.com/dc/DC-3-2.zip 介绍&#…...
Swift入门笔记
Swift入门笔记 简单值控制流函数和闭包对象和类枚举和结构体并发协议和扩展错误处理泛型 简单值 // 声明变量 var myVariable 42 myVariable 50// 声明常量 let myConstant 42// 声明类型 let implicitInteger 70 let implicitDouble 70.0 let explicitDouble: Double 7…...

【提交ACM出版 | EIScopus检索稳定 | 高录用】第五届大数据与社会科学国际学术会议(ICBDSS 2024,8月16-18)
第五届大数据与社会科学国际学术会议(ICBDSS 2024)将于2024年08月16-18日在中国-上海隆重举行。 ICBDSS会议在各专家教授的支持下,去年已成功举办了四届会议。为了让更多的学者有机会参与会议分享交流经验。本次会议主要围绕“大数据”、“社…...
Postman与世界相连:集成第三方服务的全面指南
🔌 Postman与世界相连:集成第三方服务的全面指南 Postman不仅是API开发和测试的强大工具,还支持与多种第三方服务的集成,从而扩展其功能,提高开发和测试的效率。本文将深入探讨如何在Postman中集成第三方服务…...
Perl 语言开发(十四):数据库操作
目录 1. 数据库连接 2. 基本数据库操作 2.1 插入数据 2.2 查询数据 2.3 更新数据 2.4 删除数据 3. 高级查询 3.1 多表连接 3.2 子查询 3.3 聚合查询 4. 事务处理 5. 数据库连接池 6. 常见的数据库模块 7. 综合实例 结论 数据库操作是大多数软件系统的核心部分。…...

Qt+ESP32+SQLite 智能大棚
环境简介 硬件环境 ESP32、光照传感器、温湿度传感器、继电器、蜂鸣器 基本工作流程 上位机先运行,下位机启动后尝试连接上位机连接成功后定时上报传感器数据到上位机,上位机将信息进行处理展示判断下位机传感器数据,如果超过设置的阈值&a…...

Android Viewpager2 remove fragmen不生效解决方案
一、介绍 在如今的开发过程只,内容变化已多单一的fragment,变成连续的,特别是以短视频或者直播为主的场景很多。从早起的Viewpage只能横向滑动,到如今的viewpage2可以支持横向或者竖向滑动。由于viewpage2的adapter在设计时支持缓…...

桃园南路上的红绿灯c++
题目描述 XXX非常讨厌等红绿灯,于是他仔细观察了桃园南路与科技路交叉口的一个红绿灯的周期。 从七点半开始,这个红绿灯的每个周期会按照下面四个阶段变化: 先保持 x 分钟的红灯然后保持 y 分钟的黄灯然后保持 z 分钟的绿灯最后保持 y 分钟…...
有关去中心化算路大模型的一些误区:低带宽互连导致训练速度太慢;小容量设备无法生成基础规模的模型;去中心化总是会花费更多;虫群永远不够大
目录 有关去中心化算路大模型的一些误区 低带宽互连导致训练速度太慢 挑战与解决方案 展望 小容量设备无法生成基础规模的模型 1. 模型规模与设备内存 2. 解决方案 3. 效率挑战 FSDP(Fully Sharded Data Parallel) Zero-3 去中心化总是会花费更多 虫群永远不够大…...

uni-app iOS上架相关App store App store connect 云打包有次数限制
app store上架成功,亲测在苹果开发者通过审核后在数小时内app store是不会更新的,昨天4点多通过审核,在下班六点半时app store仍未更新,早上来看更新了。 相册权限 uni-app云打包免费有次数 切换一个账号继续...

python单测框架之pytest常见用法
单测框架的作用 测试发现:从多个文件中寻找测试用例。测试执行:按照一定顺序去执行并且生成结果。测试断言:判断最终结果与实际结果的差异。测试报告:统计测试进度、耗时、通过率,生成测试报告。 pytest简介 pytest是…...
[终端安全]-8 隐私保护和隐私计算技术
1 隐私保护相关法规和标准 1)国内法规和标准 1.1)中华人民共和国网络安全法(2017年) - 规定了个人信息的保护和数据安全的基本原则。 - 要求网络运营者采取措施防止数据泄露、篡改和丢失。 1.2)信息安全技术&#x…...
Vim 调用外部命令学习笔记
Vim 外部命令集成完全指南 文章目录 Vim 外部命令集成完全指南核心概念理解命令语法解析语法对比 常用外部命令详解文本排序与去重文本筛选与搜索高级 grep 搜索技巧文本替换与编辑字符处理高级文本处理编程语言处理其他实用命令 范围操作示例指定行范围处理复合命令示例 实用技…...
Android Wi-Fi 连接失败日志分析
1. Android wifi 关键日志总结 (1) Wi-Fi 断开 (CTRL-EVENT-DISCONNECTED reason3) 日志相关部分: 06-05 10:48:40.987 943 943 I wpa_supplicant: wlan0: CTRL-EVENT-DISCONNECTED bssid44:9b:c1:57:a8:90 reason3 locally_generated1解析: CTR…...

MongoDB学习和应用(高效的非关系型数据库)
一丶 MongoDB简介 对于社交类软件的功能,我们需要对它的功能特点进行分析: 数据量会随着用户数增大而增大读多写少价值较低非好友看不到其动态信息地理位置的查询… 针对以上特点进行分析各大存储工具: mysql:关系型数据库&am…...

PPT|230页| 制造集团企业供应链端到端的数字化解决方案:从需求到结算的全链路业务闭环构建
制造业采购供应链管理是企业运营的核心环节,供应链协同管理在供应链上下游企业之间建立紧密的合作关系,通过信息共享、资源整合、业务协同等方式,实现供应链的全面管理和优化,提高供应链的效率和透明度,降低供应链的成…...
基于数字孪生的水厂可视化平台建设:架构与实践
分享大纲: 1、数字孪生水厂可视化平台建设背景 2、数字孪生水厂可视化平台建设架构 3、数字孪生水厂可视化平台建设成效 近几年,数字孪生水厂的建设开展的如火如荼。作为提升水厂管理效率、优化资源的调度手段,基于数字孪生的水厂可视化平台的…...
Nginx server_name 配置说明
Nginx 是一个高性能的反向代理和负载均衡服务器,其核心配置之一是 server 块中的 server_name 指令。server_name 决定了 Nginx 如何根据客户端请求的 Host 头匹配对应的虚拟主机(Virtual Host)。 1. 简介 Nginx 使用 server_name 指令来确定…...

CMake 从 GitHub 下载第三方库并使用
有时我们希望直接使用 GitHub 上的开源库,而不想手动下载、编译和安装。 可以利用 CMake 提供的 FetchContent 模块来实现自动下载、构建和链接第三方库。 FetchContent 命令官方文档✅ 示例代码 我们将以 fmt 这个流行的格式化库为例,演示如何: 使用 FetchContent 从 GitH…...
ip子接口配置及删除
配置永久生效的子接口,2个IP 都可以登录你这一台服务器。重启不失效。 永久的 [应用] vi /etc/sysconfig/network-scripts/ifcfg-eth0修改文件内内容 TYPE"Ethernet" BOOTPROTO"none" NAME"eth0" DEVICE"eth0" ONBOOT&q…...

【7色560页】职场可视化逻辑图高级数据分析PPT模版
7种色调职场工作汇报PPT,橙蓝、黑红、红蓝、蓝橙灰、浅蓝、浅绿、深蓝七种色调模版 【7色560页】职场可视化逻辑图高级数据分析PPT模版:职场可视化逻辑图分析PPT模版https://pan.quark.cn/s/78aeabbd92d1...
Go 语言并发编程基础:无缓冲与有缓冲通道
在上一章节中,我们了解了 Channel 的基本用法。本章将重点分析 Go 中通道的两种类型 —— 无缓冲通道与有缓冲通道,它们在并发编程中各具特点和应用场景。 一、通道的基本分类 类型定义形式特点无缓冲通道make(chan T)发送和接收都必须准备好࿰…...