Linux操作系统故障应急场景及对应排查方法
001:系统CPU负载高并触发监控报警
005 | 查看系统CPU使用情况,,确认CPU数量,确认系统负载,确认CPU高对系统的影响 | |
006 | 定位占用CPU资源最多的进程,根据进程判断是应用进程还是系统进程还是第三方工具进程。 | |
014 | 查看系统主要日志:在messages日志中是否有关于软、硬件的报错信息。 | |
005 | 通过监控或者系统查看CPU使用高的时间 | |
011 | 确认其他资源信息情况,IO/内存/内核 |
002:系统内存使用率高并触发监控报警
通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息 | |
查看系统内存使用情况 | |
定位占用内存资源较多的进程 | |
判断是否有僵尸进程 | |
查看系统主要日志 |
003:使用率高并长时间持续
通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息 | |
查看系统I/O使用情况 | |
定位占用I/O资源较多的进程 | |
查看系统主要日志 | |
应急处置结束。 |
004:Agent心跳超时
通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息 | |
判断主机通讯状况 | |
主机网卡是否存在丢包现象 | |
主机路由设置是否正确 | |
网卡配置参数是否正确 | |
系统日志是否有明显报错 |
005:主机路由表丢失
判断主机通讯状况 | |
主机网卡是否存在丢包现象 | |
主机路由设置是否正确 | |
系统日志是否有明显报错 |
006:通讯异常并报网卡故障
场景描述:主机通讯中断或有延迟、丢包现象,系统日志中有关于网卡的报错信息。
启动条件:系统日志中有网卡报错信息 | ||||
现场保护:ifconfig、messages、dmesg日志 |
通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息 | |
判断主机通讯状况 | |
主机网卡是否存在丢包现象 | |
系统日志是否有明显报错 | |
网卡驱动是否正常加载 | |
网卡配置信息是否正确 | |
bond主备网卡切换 | |
搜集系统信息 |
007:与相关连业务系统通讯异常
现场保护:ifconfig、route、messages、dmesg
015 | 判断主机通讯状况 | |
016 | 主机网卡是否存在丢包现象 | |
014 | 系统日志是否有明显报错 | |
019 | 网卡驱动是否正常加载 | |
020 | 网卡配置信息是否正确 |
008:群集系统服务异常
现场保护:使用sosreport命令收集系统信息。
022 | 查看双机状态及共享资源 | |
014 | 系统日志是否有明显报错 result of stop operation for VIP on | |
024 | 尝试将集群服务切换到备机 | |
025 | 如果群集切换失败,则考虑手工先行恢复系统服务,并首先关闭群集各节点Cluster服务。 | |
026 | 如果群集切换失败,且短时间内无法解决,则先行手工恢复系统集群服务 | |
027 | 收集系统信息 |
009:群集双机发生切换
启动条件: 当群集双机发生切换期间,会造成服务中断,以及Server IP无响应,通常会触发集中监控报警。
现场保护:执行sosreport命令收集系统信息。
022 | 查看双机状态及共享资源 | |
014 | 查看系统日志信息 | |
024 | 如果群集切换后系统服务异常,则尝试将集群服务切换到指定节点 |
009:群集双机切换失败
022 | 查看双机状态及共享资源 | |
014 | 系统日志是否有明显报错 | |
024 | 尝试将集群服务切换到指定节点 | |
025 | 如果群集切换失败,则考虑手工先行恢复系统服务,并首先关闭群集各节点Cluster服务。 | |
026 | 如果群集切换失败,且短时间内无法解决,则先行手工恢复系统集群服务 |
010:主机挂起
现场保护:这种情况下,通常日志系统(syslog)已经不再记录信息,只能对主机执行重启操作;对于配置了kdump的主机,可以手工触发vmcore(echo c > /proc/sysrq-trigger)。
grep crashkernel /proc/cmdline
systemctl status kdump
/var/crash/127.0.0.1-yyyy-mm-dd-hh:mm:ss/vmcore
014 | 查看系统日志信息 | |
002 | 手工重启主机 | |
004 | 若手工重启主机失败,可强制重启主机。 | |
014 | 主机启动后,检查系统日志是否有报错信息。 | |
027 | 搜集系统信息 |
011:主机自动重启
现场保护:收集sosreport信息;如果主机配置了kdump,则保留vmcore文件。
使用root用户登录主机,执行sosreport -a命令保存现场信息收集系统日志,查看/var/crash/是否有vmcore日志
014 | 查看系统日志信息 | |
012 | 检查文件系统信息 | |
013 | 查看PV、VG、LV信息 | |
015 | 查看网络通讯状况 | |
017 | 查看主机路由设置 | |
检查应用系统是否恢复 |
012:主机宕机
使用root用户登录主机,执行sosreport -a命令保存现场信息收集系统日志,查看/var/crash/是否有vmcore日志
014 | 查看系统日志信息 | |
012 | 检查文件系统信息 | |
013 | 查看PV、VG、LV信息 | |
015 | 查看网络通讯状况 | |
017 | 查看主机路由设置 | |
检查应用系统是否恢复 |
013:主机宕机并自动重启失败
现场保护:查看主机硬件是否有报错信息;得到授权后之后启动主机,并在控制台观察启动过程中是否有报错信息;如果主机无法正常启动,则根据主机启动报错信息进行修复。待主机启动完毕后,使用root用户收集sosreport信息;如果主机配置了kdump,则保留vmcore文件。
028 | 根据主机控制台信息,得到行员授权后尝试进入单用户模式进行修复 | |
029 | 如果系统在单用户模式下无法修复,则需使用操作系统安装光盘引导进入救援模式进行修复。完成后重启主机 | |
014 | 查看系统日志信息 | |
012 | 检查文件系统信息 | |
013 | 查看PV、VG、LV信息 | |
015 | 查看网络通讯状况 | |
017 | 查看主机路由设置 |
014: swap交换分区使用率
现场保护:使用sosreport命令收集系统信息
使用top命令调整查看(使用热键f,根据方向键移动到SWAP行,选中按d, ESC退出编辑,即可查看) | |
定位占用swap资源较多的进程 | |
判断是否有僵尸进程 | |
查看系统主要日志 |
015:NTP服务状态异常
检查NTP同步状态:ntpq -p 或者 chronyc sources -v | |
检查NTP服务状态:service ntpd status 或者systemctl status chronyd 检查是否设置开机自启动systemctl list-unit-files | |
检查NTP配置文件:cat /etc/ntp.conf 或者 cat /etc/chrony.conf | |
查看NTP的offset详细信息:ntptime或者chronyc tracking -v | |
查看系统主要日志 | |
重启NTP服务:service ntpd restart 或者 systemctl restart chronyd |
016:文件系统监控告警
现场保护:使用sosreport命令收集系统信息
012 | 检查文件系统状态: #df -h #df -ih #mount #cat /etc/fstab | |
014 | 查看系统主要日志 |
相关文章:
Linux操作系统故障应急场景及对应排查方法
001:系统CPU负载高并触发监控报警 005 查看系统CPU使用情况,,确认CPU数量,确认系统负载,确认CPU高对系统的影响 006 定位占用CPU资源最多的进程,根据进程判断是应用进程还是系统进程还是第三方工具进程。 014 查看…...

电镀机的阳极是什么材质?
知识星球(星球名:芯片制造与封测技术社区,点击加入)里的学员问:电镀的阳极有什么讲究?什么是可溶性阳极和非可溶性阳极? 什么是可溶性阳极与非可溶性阳极? 可溶性阳极 阳极本身就是…...

vscode调试deepspeed的方法之一(无需调整脚本)
现在deepspeed的脚本文件是: # 因为使用 RTX 4000 系列显卡时,不支持通过 P2P 或 IB 实现更快的通信宽带,需要设置以下两个环境变量 # 禁用 NCCL 的 P2P 通信,以避免可能出现的兼容性问题 export NCCL_P2P_DISABLE"1" …...
神经网络-Day44
import torch import torch.nn as nn import torch.optim as optim from torchvision import datasets, transforms from torch.utils.data import DataLoader import matplotlib.pyplot as plt# 设置中文字体支持 plt.rcParams["font.family"] ["SimHei"…...
创客匠人:如何通过精准定位实现创始人IP打造与知识变现
在当今知识经济时代,越来越多的专业人士希望通过个人品牌实现知识变现,但许多人面临一个共同困境:明明很努力,却收效甚微。创客匠人作为深耕知识付费赛道9年的专业机构,揭示了这一现象背后的关键原因——90%的IP失败源…...

Codeforces Round 509 (Div. 2) C. Coffee Break
题目大意: 给你n、m、d n为元素个数,m为数列长度,d为每个元素之间的最短间隔 问最少需要多少个数列可以使得元素都能装进数列,并且满足每个元素之间的间隔大于等于d 核心思想 使用贪心的思想,将元素的大小进行排序,问题出在必…...

榕壹云健身预约系统:多门店管理的数字化解决方案(ThinkPHP+MySQL+UniApp实现)
随着全民健身热潮的兴起,传统健身房在会员管理、课程预约、多门店运营等方面面临诸多挑战。针对这一需求,我们开发了一款基于ThinkPHPMySQLUniApp的榕壹云健身预约系统,为中小型健身机构及连锁品牌提供高效、灵活的数字化管理工具。本文将详细…...

QUIC——UDP实现可靠性传输
首先我们要知道TCP存在什么样的痛点问题 TCP的升级很困难TCP建立连接的延迟网络迁移需要重新建立连接TCP存在队头阻塞问题 QUIC就是为了解决以上的问题而诞生了, 下面我会介绍QUIC的一些特性和原理 QUIC对比TCP优势: 握手建连更快 QUIC内部包含了TLS, 它在自己的帧会携带TL…...
提高Python编程效率的工具推荐
在 Python 开发中,选择合适的工具可以显著提升编程效率。以下是一些经过精心挑选的工具,涵盖代码编辑、调试、数据分析等多个方面,希望能帮助你在 Python 开发中事半功倍。 一、集成开发环境(IDE) 1. PyCharm PyCha…...
React Native图片预加载:让你的应用图片预览像德芙一样丝滑
写在前面:一张图片引发的性能血案 你有没有遇到过这种情况?——用户疯狂滑动你的React Native图片列表,结果图片加载慢得像蜗牛,甚至出现空白闪烁?等到图片终于加载出来,用户早就失去耐心,愤然退出…… 但你知道吗?这个问题只需要几行代码就能解决! 比如,使用reac…...

快速上手shell脚本运行流程控制
一、条件运行流程控制 1.if单分支结构 #!/bin/bash if [ 条件 ] then动作1动作2... fi 2.if双分支结构 #!/bin/bash if [ 条件 ] then动作1动作2... else动作1动作2... fi 3.if多分支结构 二、循环运行流程控制 1.无判定for循环 给网卡一键添加5个IP 2.判断循环 while…...

10.Linux进程信号
1. 理解信号 信号VS信号量 老婆:老婆饼-》没有任何关系!信号:闹钟,上课铃声,脸色...人-》进程;信号中断人正在做的事,是一种事件的异步通知机制; 我们自习一会,等张三回…...
Python 函数全攻略:函数基础
函数(Functions)基础 什么是函数? 一个命名的代码块,代指一大堆代码。 定义: def function_name(): (使用def关键字,英文括号,冒号,缩进代码块)。 执行/调用: function…...

机器学习基础(四) 决策树
决策树简介 决策树结构: 决策树是一种树形结构,树中每个内部节点表示一个特征上的判断,每个分支代表一个判断结果的输出,每个叶子节点代表一种分类结果 决策树构建过程(三要素): 特征选择 选…...
DDPM优化目标公式推导
DDPM优化目标公式推导 DDPM优化目标公式推导**1. 问题定义****2. 优化目标:最大化对数似然****3. 变分下界的分解****4. 关键步骤:简化 KL 散度项****(a) 后验分布 q ( x t − 1 ∣ x t , x 0 ) q(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{x}_0) q(xt…...

CentOS 7如何编译安装升级gcc至7.5版本?
CentOS 7如何编译安装升级gcc版本? 由于配置CentOS-SCLo-scl.repo与CentOS-SCLo-scl-rh.repo后执行yum install -y devtoolset-7安装总是异常,遂决定编译安装gcc7.5 # 备份之前的yum .repo文件至 /tmp/repo_bak 目录 mkdir -p /tmp/repo_bak && cd /etc…...

为什么React列表项需要key?(React key)(稳定的唯一标识key有助于React虚拟DOM优化重绘大型列表)
文章目录 1. **帮助 React 识别列表项的变化**2. **性能优化**3. **避免组件状态混乱**4. **为什么使用 rpid 作为 key**5. **不好的做法示例**6. **✅ 正确的做法** 在 React 中添加 key{item.rpid} 是非常重要的,主要有以下几个原因: 1. 帮助 React 识…...
Playwright自动化测试全栈指南:从基础到企业级实践(2025终极版)
引言 在Web应用复杂度指数级增长的今天,传统自动化测试工具面临动态渲染适配难、多浏览器兼容差、测试稳定性低三大挑战。微软开源的Playwright凭借跨浏览器支持、自动等待机制和原生异步架构,成为新一代自动化测试的事实标…...

飞牛云一键设置动态域名+ipv6内网直通访问内网的ssh服务-家庭云计算专家
IPv6访问SSH的难点与优势并存。难点主要体现在网络环境支持不足:部分ISP未完全适配IPv6协议,导致客户端无法直接连通;老旧设备或工具(如Docker、GitHub)需额外配置才能兼容IPv6,技术门槛较高;若…...
虚实共生时代的情感重构:AI 恋爱陪伴的崛起、困局与明日图景
一、虚拟恋人:从技术幻想到情感刚需的跨越 在 5G 网络编织的数字浪潮里,AI 驱动的虚拟恋人正打破次元界限。深度学习算法剖析 3000 万段真实对话语料库,搭配 VR 设备带来的多维度交互体验,如今的虚拟对象已能精准模拟瞳孔微表情&…...
嵌入式面试高频(5)!!!C++语言(嵌入式八股文,嵌入式面经)
一、C有几种传值方式之间的区别 一、值传递(Pass by Value) 机制:创建参数的副本,函数内操作不影响原始数据语法:void func(int x)特点: 数据安全:原始数据不受影响性能开销:需要复…...
C++动态规划-线性DP
这是一套C线性DP题目的答案。如果需要题目,请私信我,我将会更新题干 P1:单子序列最大和 #include <bits/stdc.h> using namespace std; int n,A,B,C; int a[200005]; int s[200005]; int main() {ios::sync_with_stdio(0);cin.tie(0);cout.tie(0)…...

Java高级 | 【实验七】Springboot 过滤器和拦截器
隶属文章:Java高级 | (二十二)Java常用类库-CSDN博客 系列文章:Java高级 | 【实验一】Springboot安装及测试 |最新-CSDN博客 Java高级 | 【实验二】Springboot 控制器类相关注解知识-CSDN博客 Java高级 | 【实验三】Springboot 静…...
es地理信息索引的类型以及geo_point和geo_hash的关系
Elasticsearch中地理信息索引的主要数据类型有两种: geo_point:用于存储单个地理点坐标(如纬度/经度),支持精确位置查询和基于距离的搜索操作。geo_shape:用于存储复杂的地理形状(如点、线、多…...

深入理解 Spring IOC:从概念到实践
目录 一、引言 二、什么是 IOC? 2.1 控制反转的本质 2.2 类比理解 三、Spring IOC 的核心组件 3.1 IOC 容器的分类 3.2 Bean 的生命周期 四、依赖注入(DI)的三种方式 4.1 构造器注入 4.2 Setter 方法注入 4.3 注解注入(…...
Vue解决开发环境 Ajax 跨域问题
一、前言 在使用 Vue 进行前后端分离开发时,前端通常运行在本地开发服务器(如 http://localhost:8080),而后端接口可能部署在其他域名或端口下(如 http://api.example.com:3000)。这时就可能出现 跨域&…...

行为设计模式之Command (命令)
行为设计模式之Command (命令) 前言: 需要发出请求的对象(调用者)和接收并执行请求的对象(执行者)之间没有直接依赖关系时。比如遥控器 每个按钮绑定一个command对象,这个Command对…...
若依添加添加监听容器配置(删除键,键过期)
1、配置Redis的键触发事件 # 基础配置 bind 0.0.0.0 # 允许所有IP连接 protected-mode no # 关闭保护模式(生产环境建议结合密码使用) port 6379 # 默认端口 daemonize no …...

NeRF 技术深度解析:原理、局限与前沿应用探索(AI+3D 产品经理笔记 S2E04)
引言:光影的魔法师——神经辐射场概览 在前三篇笔记中,我们逐步揭开了 AI 生成 3D 技术的面纱:从宏观的驱动力与价值(S2E01),到主流技术流派的辨析(S2E02),再到实用工具的…...
ROS2,工作空间中新建了一个python脚本,需要之后作为节点运行。告诉我步骤?
提问 ROS2,工作空间中新建了一个python脚本,需要之后运行。告诉我步骤? 大概要包括而不限于:chmod给可执行权限、setup.py中entry point的配置,如果在launch文件中要使用,还涉及到launch.py文件的配置。最…...