当前位置: 首页 > article >正文

服务器卡死别慌!手把手教你读懂NMI watchdog的soft lockup报错信息(附CentOS 7排查流程)

服务器卡死应急指南NMI watchdog与soft lockup实战排查手册凌晨三点机房告警铃声大作监控大屏上某台核心服务器的CPU使用率突然飙升至100%并持续不降。登录系统后dmesg中赫然出现NMI watchdog: BUG: soft lockup - CPU#2 stuck for 23s!的红色警告——这是每个运维工程师都可能遭遇的噩梦场景。本文将从实战角度带你拆解这类故障的标准排查流程让你在关键时刻能像资深专家一样快速定位问题根源。1. 紧急响应看到soft lockup报错的第一反应当soft lockup报错突然出现在日志中时保持冷静并执行以下标准化应急流程关键检查点优先级排序立即通过top -c -H查看CPU占用最高的线程及其调用栈执行dmesg -T | grep -i lockup确认报错出现的频率和模式使用mpstat -P ALL 1观察各核心的IRQ中断分布情况记录/proc/sys/kernel/watchdog_thresh当前阈值设置注意不要急于重启服务器先保存完整的故障现场信息包括dmesg -T dmesg.logcp /proc/slabinfo slabinfo.loggzip -c /var/log/messages messages.gz典型的soft lockup报错结构解析[Mon Dec 30 18:39:04 2019] NMI watchdog: BUG: soft lockup - CPU#1 stuck for 31s! [sshd:5071] [Mon Dec 30 18:39:04 2019] Modules linked in: ipmi_devintf ipmi_msghandler sunrpc... [Mon Dec 30 18:39:04 2019] CPU: 1 PID: 5071 Comm: sshd Kdump: loaded Tainted: G [Mon Dec 30 18:39:04 2019] RIP: 0010:[ffffffff91f904dc] iowrite160x1c/0x40 [Mon Dec 30 18:39:04 2019] Call Trace: [Mon Dec 30 18:39:04 2019] [ffffffffc02a8b76] vp_notify0x16/0x20 [virtio_pci]2. 深度诊断从Call Trace到根本原因定位2.1 堆栈信息逆向工程实战Call Trace中的每个函数调用都暗藏玄机。以网络驱动导致的lockup为例我们需要关注锁定最后执行的内核函数RIP指向iowrite16表明卡在I/O操作追溯模块依赖链Modules linked in显示virtio_pci和virtio_net被加载关联进程上下文虽然sshd被标记但实际可能是其触发的网络操作导致典型问题模式对照表Call Trace特征可能原因验证方法大量virtio相关函数虚拟化驱动bug升级virtio驱动或切半虚拟化重复出现rcu_sched内核任务调度阻塞检查/proc/sys/kernel/rcu_cpu_stall_timeout涉及ext4/jbd2函数文件系统死锁执行dmesg包含radeon/nouveau等GPU驱动显卡驱动问题尝试nomodeset内核参数启动2.2 CentOS 7专项排查工具箱针对CentOS 7特有的排查命令组合# 检查当前watchdog配置 sysctl -a | grep watchdog # 追踪内核函数调用 perf probe --add iowrite16 perf stat -e probe:iowrite16 -a sleep 10 # 检查CPU异常状态 turbostat --show Core,CPU,Avg_MHz,Busy%,Bzy_MHz -i 5关键参数调整建议# 临时放宽检测阈值单位秒最大60 echo 30 /proc/sys/kernel/watchdog_thresh # 启用lockup时自动panic echo 1 /proc/sys/kernel/softlockup_panic3. 系统性排查硬件与环境的交叉验证3.1 硬件健康检查清单电源稳定性检测# 检查电压波动需ipmitool ipmitool sensor list | grep -i voltCPU状态诊断# 检查温度与节流状态 cat /proc/cpuinfo | grep -i mhz sensors | grep Core内存错误统计dmidecode -t memory | grep -A5 Error3.2 虚拟化环境专项检查对于KVM虚拟机的特殊注意事项配置对比表问题场景宿主检查点客户机检查点CPU过载virsh vcpuinfo VMlscpu -e内存气球驱动异常virsh dommemstat VMgrep Balloon /proc/modulesVirtio-net丢包ethtool -S eth0ethtool -k eth0提示在VM环境中频繁出现soft lockup时可尝试在grub添加divider10 clocksourcetsc tscreliable参数4. 根治方案从临时修复到长期防护4.1 内核参数优化模板/etc/sysctl.d/10-anti-lockup.conf推荐配置kernel.watchdog_thresh 30 kernel.softlockup_panic 1 kernel.nmi_watchdog 1 kernel.hung_task_timeout_secs 600 vm.dirty_ratio 10 vm.dirty_background_ratio 54.2 监控体系增强方案Prometheus监控规则示例groups: - name: lockup-detector rules: - alert: KernelSoftLockup expr: increase(kernel_softlockup_panic[1h]) 0 for: 5m labels: severity: critical annotations: summary: Soft lockup detected on {{ $labels.instance }} description: CPU {{ $labels.cpu }} stuck for {{ $labels.duration }}日志监控增强配置ELK示例{ grok: { match: { message: NMI watchdog: BUG: soft lockup - CPU%{NUMBER:cpu_num} stuck for %{NUMBER:duration}s } } }5. 典型场景案例库案例1Virtio网络驱动导致的锁死现象每次大文件传输时出现lockupCall Trace涉及virtio_net解决# 关闭TSO/GRO特性 ethtool -K eth0 tso off gro off # 或切换为e1000网卡驱动案例2CPU节流引发的误报现象BIOS日志显示CPU过热降频解决# 禁用C-states echo 1 /sys/module/intel_idle/parameters/max_cstate案例3内核与KVM兼容性问题现象仅在特定内核版本出现解决# 添加启动参数 grubby --update-kernelALL --argsnohz_full1-3 isolcpus1-3掌握这套方法论后面对soft lockup报错时你不再需要盲目重启。记得每次处理完问题后将完整的诊断过程和解决方案记录到内部知识库——这些实战经验比任何理论文档都更有价值。

相关文章:

服务器卡死别慌!手把手教你读懂NMI watchdog的soft lockup报错信息(附CentOS 7排查流程)

服务器卡死应急指南:NMI watchdog与soft lockup实战排查手册 凌晨三点,机房告警铃声大作,监控大屏上某台核心服务器的CPU使用率突然飙升至100%并持续不降。登录系统后,dmesg中赫然出现NMI watchdog: BUG: soft lockup - CPU#2 stu…...

从零基础到AI大模型高手,自学AI大模型学习路线推荐,不走弯路!

本文提供了一条详尽的AI大模型自学路线,旨在帮助新手小白系统学习。路线涵盖数学与编程基础、机器学习入门、深度学习深入、大模型探索、进阶与应用以及社区与资源等多个方面。内容详细列出了各阶段的学习资源,包括经典书籍、在线课程、实践项目等&#…...

芯片入门必看:CPU、MCU、SoC、GPU、TPU、NPU

本文首先介绍了芯片的基础分类,包括模拟/数字芯片和逻辑/计算芯片。接着,对8类核心芯片进行了通俗解析,包括CPU、MCU、SoC、GPU、TPU、NPU、FPGA和DSP,涵盖了它们的定义、用途、类型和代表性标的。最后,文章从通用性和…...

DOM NodeList 深入解析

DOM NodeList 深入解析 概述 DOM NodeList 是 Web 开发中常用的一种数据结构,它代表了文档中一系列元素的集合。在本文中,我们将对 DOM NodeList 进行深入解析,包括其定义、特点、使用方法以及在实际开发中的应用。 定义 DOM NodeList 是一个类似数组的对象,它包含了文…...

大厂HR坦言:这3种“计算机巨坑”,90%的学生都在踩!如何逆袭成高薪抢手人?

文章指出,计算机专业就业难,但优秀人才依然稀缺。多数学生因方向错误导致努力白费。常见弯路包括:过度刷题缺乏项目、技术广博但不精、忽视GPA与实习。文章强调,学生需明确用人单位需求,重视项目与实习,夯实…...

Windows Cleaner终极指南:3步解决C盘爆红和电脑卡顿难题

Windows Cleaner终极指南:3步解决C盘爆红和电脑卡顿难题 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服! 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner Windows Cleaner是一款专为Windows系统设计的…...

离线语音识别性能提升:Vosk API的3大架构优化策略实践

离线语音识别性能提升:Vosk API的3大架构优化策略实践 【免费下载链接】vosk-api Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node 项目地址: https://gitcode.com/GitHub_Trending/vo/vosk-api …...

企业内网应用如何安全合规地集成外部大模型API服务

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 企业内网应用如何安全合规地集成外部大模型API服务 在构建内部AI工具时,企业开发团队面临一个核心挑战:如何…...

PixelAnnotationTool:破解语义分割标注效率瓶颈的智能解决方案

PixelAnnotationTool:破解语义分割标注效率瓶颈的智能解决方案 【免费下载链接】PixelAnnotationTool Annotate quickly images. 项目地址: https://gitcode.com/gh_mirrors/pi/PixelAnnotationTool 在计算机视觉领域,高质量的语义分割数据标注是…...

TigerVNC终极指南:快速掌握跨平台远程桌面控制

TigerVNC终极指南:快速掌握跨平台远程桌面控制 【免费下载链接】tigervnc High performance, multi-platform VNC client and server 项目地址: https://gitcode.com/gh_mirrors/ti/tigervnc TigerVNC是一款高性能、跨平台的VNC客户端和服务器软件&#xff0…...

在Node.js后端服务中集成Taotoken调用大模型指南

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 在Node.js后端服务中集成Taotoken调用大模型指南 将大模型能力集成到后端服务是现代应用开发的常见需求。Taotoken平台提供了OpenA…...

观察taotoken在ubuntu高峰期调用时的稳定性与自动路由效果

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 观察 Taotoken 在 Ubuntu 高峰期调用时的稳定性与自动路由效果 1. 背景与测试环境 在日常的开发与调试工作中,我们经常…...

从零搭建VGG16:深入解析网络架构与PyTorch实战

1. VGG16网络架构解析 VGG16作为卷积神经网络发展史上的里程碑,其核心设计理念至今仍影响着现代深度学习模型。我第一次接触这个网络时,被它简洁优雅的结构深深吸引——全部使用33小卷积核堆叠,配合22最大池化,这种设计就像用乐高…...

Python蒙特卡洛树搜索实战:手把手教你调参,让黑白棋AI从‘菜鸟’变‘高手’

Python蒙特卡洛树搜索实战:从调参到策略优化的完整指南 蒙特卡洛树搜索(MCTS)作为近年来最成功的游戏AI算法之一,已经在围棋、黑白棋等策略游戏中展现出惊人的实力。但很多开发者在实现基础版本后,常常陷入性能瓶颈——…...

Translumo:Windows游戏实时翻译的终极免费解决方案:如何轻松翻译游戏字幕和视频文本

Translumo:Windows游戏实时翻译的终极免费解决方案:如何轻松翻译游戏字幕和视频文本 【免费下载链接】Translumo Advanced real-time screen translator for games, hardcoded subtitles in videos, static text and etc. 项目地址: https://gitcode.c…...

通过Taotoken模型广场为不同视频类型选择合适的生成模型

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 通过Taotoken模型广场为不同视频类型选择合适的生成模型 为视频内容生成高质量的文本描述、脚本或字幕,是许多创作者和…...

大模型压缩实战:量化、剪枝与蒸馏技术解析与AngelSlim应用

1. 项目概述:从“大”到“小”的模型压缩革命最近在模型部署和推理优化的圈子里,Tencent/AngelSlim 这个项目被讨论得挺多。简单来说,它不是一个全新的模型,而是一套由腾讯开源的、专门用于大语言模型(LLM)…...

Sora 2正式版突然开放API灰度权限?我们逆向解析了127行响应头与rate limit策略,发现3个隐藏调用阈值

更多请点击: https://intelliparadigm.com 第一章:Sora 2正式版核心能力与架构演进 Sora 2正式版标志着视频生成大模型从研究原型迈向工业级部署的关键跃迁。其底层架构采用分层时空联合建模(Hierarchical Spatio-Temporal Transformer&…...

初创公司如何借助Taotoken控制大模型API试用与正式成本

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 初创公司如何借助Taotoken控制大模型API试用与正式成本 对于初创公司而言,在产品从原型验证到正式上线的过程中&#x…...

独立开发者如何下载使用Taotoken管理多个AI项目的模型与密钥

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 独立开发者如何下载使用Taotoken管理多个AI项目的模型与密钥 对于独立开发者或小型工作室而言,同时推进多个AI应用项目…...

在新磁盘挂载点/data安装codex

实例是 Oracle Cloud Always Free VM.Standard.E2.1.Micro Linux, /data 目录。 Codex CLI 官方支持用 npm 安装:npm i -g openai/codex,首次运行需要登录 ChatGPT 或配置 API key; 建议:Codex 安装到 /data;bubblewr…...

ComfyUI-WanVideoWrapper:一站式AI视频生成插件解决方案

ComfyUI-WanVideoWrapper:一站式AI视频生成插件解决方案 【免费下载链接】ComfyUI-WanVideoWrapper 项目地址: https://gitcode.com/GitHub_Trending/co/ComfyUI-WanVideoWrapper ComfyUI-WanVideoWrapper是一个专为ComfyUI设计的视频生成插件包装器&#x…...

Dify数据库查询插件:让AI应用轻松连接业务数据的实战指南

1. 项目概述与核心价值 如果你正在使用 Dify 构建企业级 AI 应用,并且经常需要让 AI 助手去查询数据库里的数据——比如让 LLM 帮你分析销售报表、查找用户信息或者生成业务洞察——那么你很可能遇到过这样的痛点:Dify 本身并不直接支持数据库连接。你需…...

Windows安装安卓APK的完整指南:APK Installer免费工具使用教程

Windows安装安卓APK的完整指南:APK Installer免费工具使用教程 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 还在为电脑无法运行安卓应用而烦恼吗&#x…...

基于大语言模型的银行对账单自动化分析与财务预测实战

1. 项目概述:当大语言模型遇上个人财务分析最近在GitHub上看到一个挺有意思的项目,叫“AI银行对账单文档自动化与个人财务分析预测”。光看这个标题,就能感觉到一股浓浓的“技术赋能生活”的味道。简单来说,这个项目想干的事儿&am…...

从ARIMA差分到MIM网络:一个老派时间序列技巧如何革新了深度学习预测

从差分思想到记忆网络:传统时间序列技巧如何重塑深度学习架构 在气象预报的雷达回波图中,降水云团的形态每秒钟都在剧烈变化;城市交通流量监测数据里,早晚高峰的波动与平峰期形成鲜明对比;股票市场的价格曲线更是以难以…...

STM32+原理图+PCB程序直流充电桩主控方案源

💥💥💞💞欢迎来到本博客❤️❤️💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭:行百…...

基于开关电容器的级联多电平逆变器,使用布尔PWM控制技术研究(Simulink仿真实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...

UWB-IMU、UWB定位对比研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...

【CPO三维路径规划】豪猪算法CPO多无人机协同集群避障路径规划(目标函数:最低成本:路径、高度、威胁、转角)研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...