当前位置: 首页 > article >正文

解决Ceph 14.2.22 Nautilus版本监视器慢操作问题的实践指南

解决Ceph Nautilus版本监视器慢操作问题的实践指南

    • 问题背景
    • 问题现象
    • 问题分析
      • 1. 确认监视器状态
      • 2. 检查慢操作详情
      • 3. 深入分析操作状态
    • 问题原因
    • 解决方案
      • 立即解决方法
    • 总结

  • 在生产环境中执行任何操作前,请确保已备份重要数据,并在测试环境中验证解决方案

问题背景

在管理大型Ceph存储集群时,经常会遇到各种健康警告。Ceph集群(版本14.2.22 Nautilus)出现了监视器慢操作的警告。

问题现象

通过ceph -s命令,我们发现集群处于HEALTH_WARN状态,显示有多个慢操作:

health: HEALTH_WARN46 slow ops, oldest one blocked for 1943 sec, daemons [mon.ceph01,mon.ceph02,mon.ceph03,mon.ceph05,mon.ceph06] have slow ops.

更详细的健康状态显示:

ceph health detail
HEALTH_WARN 46 slow ops, oldest one blocked for 1958 sec, daemons [mon.ceph01,mon.ceph02,mon.ceph03,mon.ceph05,mon.ceph06] have slow ops.
SLOW_OPS 46 slow ops, oldest one blocked for 1958 sec, daemons [mon.ceph01,mon.ceph02,mon.ceph03,mon.ceph05,mon.ceph06] have slow ops.

问题分析

1. 确认监视器状态

首先,检查了监视器的状态,确认了Leader是ceph00

# ceph mon stat
leader 0 ceph00, quorum 0,1,2,3,4,5,6 ceph00,ceph01,ceph03,ceph04,ceph05,ceph06,ceph02

2. 检查慢操作详情

通过查看监视器日志,发现慢操作的具体类型:

ssh ceph01 "grep -i slow /var/log/ceph/ceph-mon.ceph01.log | tail -n 100"
mon.ceph01@1(peon) e4 get_health_metrics reporting 13 slow ops, oldest is osd_alive(want up_thru 15179 have 15180)

这表明慢操作是OSD发送的osd_alive请求,希望更新其up_thru值。

3. 深入分析操作状态

使用ceph daemon mon.ceph01 ops命令查看操作详情,发现操作卡在了osdmap:wait_for_readable阶段:

{"description": "osd_alive(want up_thru 15179 have 15180)","initiated_at": "2025-05-08 10:37:09.737061","age": 2338.8131370760002,"duration": 2338.8134614989999,"type_data": {"events": [{"time": "2025-05-08 10:37:09.737061","event": "initiated"},// ...其他事件...{"time": "2025-05-08 10:37:09.737584","event": "osdmap:wait_for_readable"}]}
}

问题原因

分析后,确定了几个可能的原因:

  1. Leader监视器负载过高:Leader无法及时处理请求
  2. 监视器之间的网络通信问题:导致共识协议效率降低
  3. 监视器存储性能问题:影响OSDMap的更新和读取
  4. 监视器数量过多:7个监视器可能导致共识协议效率降低

解决方案

立即解决方法

重启Leader监视器:

systemctl restart ceph-mon@ceph00

这通常会触发以下过程:

  1. Leader监视器重启
  2. 集群可能会重新选举Leader
  3. 卡住的请求会被重新处理或丢弃
  4. 监视器状态恢复正常

总结

监视器慢操作是Ceph集群中常见的问题之一,通常与监视器负载、网络通信或存储性能有关。通过重启Leader监视器,成功解决了这个问题。

相关文章:

解决Ceph 14.2.22 Nautilus版本监视器慢操作问题的实践指南

解决Ceph Nautilus版本监视器慢操作问题的实践指南 问题背景问题现象问题分析1. 确认监视器状态2. 检查慢操作详情3. 深入分析操作状态 问题原因解决方案立即解决方法 总结 在生产环境中执行任何操作前,请确保已备份重要数据,并在测试环境中验证解决方案…...

神经网络开发实战:从零基础到企业级应用(含CNN、RNN、BP网络代码详解)

简介 神经网络作为深度学习的核心,正在成为现代AI应用的基石。从基础的感知机到复杂的Transformer架构,从图像识别到自然语言处理,神经网络技术的演进推动了人工智能的快速发展。本文将系统介绍神经网络的核心概念、主流模型及其实现原理,并通过三个企业级实战案例(医学图…...

uniapp使用ui.request 请求流式输出

正文: 在现代Web开发中,实时数据流和长时间运行的请求变得越来越常见,尤其是在处理大量数据或进行实时通信时。在这种情况下,uniapp 提供的 ui.request 请求方法可以帮助我们轻松实现流式输出请求。本文将介绍如何使用 uni.reques…...

20250506让NanoPi NEO core开发板使用Ubuntu core16.04系统的TF卡启动

1、h3-sd-friendlycore-xenial-4.14-armhf-20210618.img.gz 在WIN10下使用7-ZIP解压缩/ubuntu20.04下使用tar 2、Win32DiskImager.exe 写如32GB的TF卡。【以管理员身份运行】 3、TF卡如果已经做过会有3个磁盘分区,可以使用SD Card Formatter/SDCardFormatterv5_WinE…...

JAVA自动装箱拆箱

引言 Java 中的**装箱(Boxing)和拆箱(Unboxing)**是自动类型转换的机制,用于在基本数据类型(如 int、long 等)和其对应的包装类(如 Integer、Long 等)之间进行转换。这种…...

结合 ECharts / Ant Design Blazor 构建高性能实时仪表盘

📊 结合 ECharts / Ant Design Blazor 构建高性能实时仪表盘 📑 目录 📊 结合 ECharts / Ant Design Blazor 构建高性能实时仪表盘一、前言 🔍二、技术选型 🧰三、项目配置与架构 🏗️🌐 系统整…...

快速上手 Docker:从入门到安装的简易指南(Mac、Windows、Ubuntu)

PS:笔者在五一刚回来一直搞Docker部署AI项目,发现从开发环境迁移到生成环境时,Docker非常好用。但真的有一定上手难度,推荐读者多自己尝试踩踩坑。 本篇幅有限,使用与修改另起篇幅。 一、Docker是什么 #1. Docker是什…...

如何在postman使用时间戳

1. 使用 Pre-request Script 动态转换​ 在发送请求前,将日期字符串转为时间戳并存储为环境变量/全局变量。 ​示例代码​ // 将日期字符串(如 "2023-10-01")转为时间戳(毫秒) const dateString "2…...

MySQL + Elasticsearch:为什么要使用ES,使用场景与架构设计详解

MySQL Elasticsearch:为什么要使用ES,使用场景与架构设计详解 前言一、MySQL Elasticsearch的背景与需求1.1 为什么要使用Elasticsearch(ES)?1.2 为什么MySQL在某些场景下不足以满足需求?1.3 MySQL Elas…...

Node.js vs 浏览器中的JavaScript:区别全解析

JavaScript 最初是专为浏览器设计的脚本语言,但 Node.js 的出现让它突破了前端的边界。虽然语法相同,但运行环境的不同导致它们在功能、API 和应用场景上存在显著差异。 本文将通过通俗易懂的对比和代码示例,带你彻底理解它们的区别。 文章目…...

从投入产出、效率、上手难易度等角度综合对比 pytest 和 unittest 框架

对于选择python作为测试脚本开发的同学来说,pytest和python unittest是必需了解的两个框架。那么他们有什么区别?我们该怎么选?让我们一起来了解一下吧! 我们从投入产出、效率、上手难易度等角度综合对比 pytest 和 unittest 框架…...

关于汇编语言与程序设计——单总线温度采集与显示的应用

一、实验要求 (1)握码管的使用方式 (2)掌握DS18B20温度传感器的工作原理 (3)掌握单总线通信方式实现 MCU与DS18B20数据传输 二、设计思路 1.整体思路 通过编写数码管显示程序和单总线温度采集程序,结合温度传感报警,利用手指触碰传感器,当…...

spring中的@Inject注解详情

在 Spring 框架中,Inject 是 Java 依赖注入标准(JSR-330) 的核心注解,与 Spring 原生的 Autowired 类似,但具备更标准化的跨框架特性。以下从功能特性、使用场景及与 Spring 原生注解的对比进行详细解析: 一…...

DA14585墨水屏学习

一、do_min_word void do_min_work(void) {timer_used_min app_easy_timer(APP_PERIPHERAL_CTRL_TIMER_DELAY_MINUTES, do_min_work);current_unix_time time_offset;time_offset 60;// if (isconnected 1)// {// GPIO_SetActive(GPIO_LED_PORT, GPIO_LED_PIN);// …...

Vue基础(8)_监视属性、深度监视、监视的简写形式

监视属性(watch): 1.当被监视的属性变化时,回调函数(handler)自动调用,进行相关操作。 2.监视的属性必须存在,才能进行监视!! 3.监视的两种写法: (1).new Vue时传入watch配置 (2).通过vm.$watc…...

计算机网络八股文--day1

从浏览器输入url到显示主页的过程? 1. 浏览器查询域名的IP地址 2. 浏览器和服务器TCP三次握手 3. 浏览器向服务器发送一个HTTP请求 4. 服务器处理请求,返回HTTP响应 5. 浏览器解析并且渲染页面 6. 断开连接 其中使用到的协议有DNS协议&#xff08…...

TCP IP

TCP/IP 通信协议,不是单一协议,是一组协议的集合 TCP IP UDP 1.建立链接 三次握手 第一步:客户端发送一个FIN报文,SEQX,等待服务器回应 第二步:服务器端受到,发送ackx1,seqy, 等待客户端回应 第三步&am…...

CNG汽车加气站操作工岗位职责

CNG(压缩天然气)汽车加气站操作工是负责天然气加气设备操作、维护及安全管理的重要岗位。以下是该岗位的职责、技能要求、安全注意事项及职业发展方向的详细说明: *主要职责 加气操作 按照规程为车辆加注CNG,检查车辆气瓶合格证…...

(四)毛子整洁架构(Presentation层/Authentiacation/Authorization)

文章目录 项目地址一、Presentation 层1.1 数据库migration1. 添加数据库连接字符串2. 创建自动Migration/Seed3.修改Entity添加private 构造函数4. 执行迁移 1.2 全局错误处理中间件1.3 Controller 添加1. Apartments2. Bookings3. 测试 二、Authentiacation2.1 添加Keycloak服…...

K8S服务的请求访问转发原理

开启 K8s 服务异常排障过程前,须对 K8s 服务的访问路径有一个全面的了解,下面我们先介绍目前常用的 K8s 服务访问方式(不同云原生平台实现方式可能基于部署方案、性能优化等情况会存在一些差异,但是如要运维 K8s 服务,…...

5.1 神经网络: 层和块

1 层(Layer) 1.1 定义 层是深度学习模型中的基本构建单元,它由一组神经元组成,负责对输入数据进行特定的数学运算和变换,以提取数据的某种特征或表示。每一层可以看作是一个函数,它接收输入数据&#xff…...

20250510解决NanoPi NEO core开发板在Ubuntu core22.04.3系统下适配移远的4G模块EC200A-CN的问题

1、h3-eflasher-friendlycore-jammy-4.14-armhf-20250402.img.gz 在WIN10下使用7-ZIP解压缩/ubuntu20.04下使用tar 2、Win32DiskImager.exe 写如32GB的TF卡。【以管理员身份运行】 3、TF卡如果已经做过会有3个磁盘分区,可以使用SD Card Formatter/SDCardFormatterv5…...

Linux系统之----模拟实现shell

在前面一个阶段的学习中,我们已经学习了环境变量、进程控制等等一系列知识,也许有人会问,学这个东西有啥用?那么,今天我就和大家一起综合运用一下这些知识,模拟实现下shell! 首先我们来看一看我…...

2025年数维杯赛题C题专家 组委会C题专家疑集锦

1、段前段后距,行间距有要求嘛 C题专家:一般是单倍行距 2、请问参考文献和附录上方也要有图示页眉吗?ai使用报告放在附录里还是附录之后? C题专家:附录 3、第三问的那个三天都在一个城市可以吗?这样我们列两份城市的清明自由行,还是说…...

TCP黏包解决方法

1. 问题描述 TCP客户端每100ms发送一次数据,每次为16006字节的数据长度。由于TCP传输数据时,为了达到最佳传输效能,数据包的最大长度需要由MSS限定(MSS就是TCP数据包每次能够传输的最大数据分段),超过这个长度会进行自动拆包。也就是说虽然客户端一次发送16006字节数据,…...

vue访问后端接口,实现用户注册

文章目录 一、后端接口文档二、前端代码请求响应工具调用后端API接口页面函数绑定单击事件,调用/api/user.js中的函数 三、参考视频 一、后端接口文档 二、前端代码 请求响应工具 /src/utils/request.js //定制请求的实例//导入axios npm install axios import …...

[原创](现代Delphi 12指南):[macOS 64bit App开发]: 如何获取自身程序的所在的目录?

[作者] 常用网名: 猪头三 出生日期: 1981.XX.XX 企鹅交流: 643439947 个人网站: 80x86汇编小站 编程生涯: 2001年~至今[共24年] 职业生涯: 22年 开发语言: C/C++、80x86ASM、Object Pascal、Objective-C、C#、R、Python、PHP、Perl、 开发工具: Visual Studio、Delphi、XCode、…...

Nginx性能调优与深度监控

目录 1更改进程数与连接数 (1)进程数 (2)连接数 2,静态缓存功能设置 (1)设置静态资源缓存 (2)验证静态缓存 3,设置连接超时 4,日志切割 …...

机器学习第四讲:无监督学习 → 给无标签积木自由组合,发现隐藏规律

机器学习第四讲:无监督学习 → 给无标签积木自由组合,发现隐藏规律 资料取自《零基础学机器学习》。 查看总目录:学习大纲 关于DeepSeek本地部署指南可以看下我之前写的文章:DeepSeek R1本地与线上满血版部署:超详细…...

2025年5月计划(linux+Gpu精粹催眠+UE独立游戏)

终于步入正轨了,4月份为了各种面试,一会学这,一会学那。 现在,有大量的业余时间了,也该干点正事了。 按照规划, 1,ue独立游戏(十分钟的视频即可) 2,linux-&…...