当前位置: 首页 > article >正文

深入剖析watchdog机制:从soft lockup到Hard LOCKUP的检测与应对

1. 什么是watchdog机制想象一下你养了一只忠诚的狗狗它的任务就是定时检查你是否还活着。如果你长时间不动它就会叫醒你或者采取其他措施。Linux内核中的watchdog机制就是这样一个看门狗它的职责是监控系统是否正常运行。我在内核开发中遇到过不少因为不理解watchdog机制而导致的调试难题。这个机制主要分为两种检测模式soft lockup软死锁和Hard LOCKUP硬死锁。简单来说soft lockup就像你的电脑卡住了但还能响应鼠标移动而Hard LOCKUP则是完全死机连鼠标都不动了。在实际工作中这两种死锁检测机制对系统稳定性至关重要。特别是在嵌入式设备和服务器环境中一个未被发现的死锁可能导致严重的数据丢失或服务中断。接下来我会用最通俗的方式带你深入理解这个机制的实现原理和应对策略。2. soft lockup检测原理与实现2.1 定时器与喂狗机制soft lockup检测的核心是一个高精度定时器。在内核中这个定时器通过watchdog_enable()函数创建并启动。我曾在调试一个嵌入式系统时亲眼目睹这个定时器如何拯救了一个即将崩溃的系统。具体工作流程是这样的定时器到期后会执行watchdog_timer_fn()回调函数这个函数首先读取watchdog_touch_ts值也就是上次喂狗的时间戳然后通过stop_one_cpu_nowait()在当前CPU上创建一个临时内核线程执行softlockup_fnstatic void watchdog_timer_fn(struct hrtimer *hrtimer) { // 读取上次喂狗时间 unsigned long touch_ts watchdog_touch_ts; // 在当前CPU上创建线程执行softlockup_fn stop_one_cpu_nowait(smp_processor_id(), softlockup_fn, NULL, this_cpu_ptr(softlockup_stop_work)); // 重置定时器 hrtimer_forward_now(hrtimer, ns_to_ktime(sample_period)); }2.2 死锁判断逻辑判断是否发生soft lockup的关键函数是is_softlockup()。这个函数的工作原理让我想起了一个有趣的比喻就像老师检查学生是否在认真听课每隔一段时间就会点名。它的具体逻辑是获取当前时间戳now与上次喂狗时间touch_ts比较如果差值超过阈值watchdog_thresh就认为发生了soft lockupstatic int is_softlockup(unsigned long touch_ts) { unsigned long now get_timestamp(); if (watchdog_enabled SOFT_WATCHDOG_ENABLED) { // 检查时间差是否超过阈值 if (time_after(now, touch_ts get_softlockup_thresh())) return 1; } return 0; }在实际项目中我发现这个阈值通常设置为20秒左右但可以根据具体需求调整。调整太短会导致误报太长则可能错过真正的死锁。3. Hard LOCKUP检测机制详解3.1 硬件性能计数器的作用Hard LOCKUP检测比soft lockup更底层它依赖于CPU的硬件性能计数器。这就像是在系统最底层安装了一个心跳监测器直接检查CPU是否还活着。实现这一功能的核心是perf_event_create_kernel_counter()函数它会创建一个性能事件计数器并绑定到特定CPU上。当计数器溢出时会触发watchdog_overflow_callback回调函数。static int watchdog_nmi_enable(unsigned int cpu) { // 创建硬件性能事件计数器 struct perf_event_attr *wd_attr; wd_attr wd_hw_attr; // 设置溢出回调 wd_attr-sample_period hw_nmi_get_sample_period(); wd_attr-overflow_handler watchdog_overflow_callback; // 创建并启用计数器 perf_event_create_kernel_counter(wd_attr, cpu, NULL, watchdog_overflow_callback, NULL); }3.2 中断响应检测Hard LOCKUP的判断逻辑在is_hardlockup()函数中实现。它的工作原理是检查CPU是否还能响应定时器中断。这就像是在问CPU你还活着吗具体实现方式是保存上次的中断计数hrtimer_interrupts_saved与当前的中断计数比较如果数值没有变化说明CPU没有响应中断static int is_hardlockup(void) { unsigned long hrint atomic_read(hrtimer_interrupts); if (hrint hrtimer_interrupts_saved) return 1; hrtimer_interrupts_saved hrint; return 0; }我在调试一个内核驱动时曾遇到过Hard LOCKUP当时是因为在中断处理程序中执行了耗时太长的操作。这种问题特别难调试因为一旦发生系统就完全无响应了。4. 典型死锁场景与解决方案4.1 soft lockup常见原因根据我的经验soft lockup通常发生在以下场景某个CPU核心陷入无限循环且不调度其他任务内核抢占被长时间禁用自旋锁持有时间过长一个真实的案例是我曾看到某个驱动程序在中断处理中执行了复杂的文件操作导致该CPU核心长时间无法调度其他任务。解决方法是将耗时操作移到工作队列中异步执行。4.2 Hard LOCKUP常见原因Hard LOCKUP则通常由以下情况引起长时间禁用中断在中断上下文中执行耗时操作硬件故障导致中断无法传递我记得有一次一个同事在内核模块中错误地使用了spin_lock_irqsave()但没有及时释放导致整个系统完全冻结。这种问题通常需要硬件看门狗才能恢复。4.3 调试技巧与最佳实践在多年调试死锁问题的经验中我总结了一些实用技巧使用sysctl -w kernel.watchdog_thresh30调整检测阈值通过echo 1 /proc/sys/kernel/nmi_watchdog启用/禁用NMI watchdog在出现soft lockup时检查/proc/lockdep_chains查找可能的锁问题使用trace-cmd记录系统事件分析死锁前的调用链对于开发者来说预防胜于治疗。我建议避免在中断上下文中执行耗时操作合理设置自旋锁的超时时间使用might_sleep()标记可能睡眠的函数定期检查内核日志中的watchdog警告5. 内核代码深度解析5.1 watchdog初始化流程让我们深入内核源码看看watchdog是如何初始化的。这个过程始于lockup_detector_init()函数它会根据系统配置初始化相应的检测机制。void __init lockup_detector_init(void) { // 解析启动参数 lockup_detector_setup(); // 初始化soft lockup检测 softlockup_initialized true; // 初始化hard lockup检测 if (watchdog_nmi_probe()) watchdog_nmi_enable_all(); }在实际的内核编译配置中我们可以通过CONFIG_HARDLOCKUP_DETECTOR和CONFIG_SOFTLOCKUP_DETECTOR选项来选择启用哪些检测机制。5.2 关键数据结构理解watchdog机制还需要了解几个关键数据结构watchdog_cpu_data每个CPU核心的watchdog数据hrtimer高精度定时器用于soft lockup检测perf_event硬件性能事件用于Hard LOCKUP检测struct watchdog_cpu_data { struct hrtimer hrtimer; // 高精度定时器 unsigned long touch_ts; // 上次喂狗时间 struct completion *completion; // 用于同步 atomic_t hrtimer_interrupts; // 中断计数 };这些数据结构在内核内存中维护着watchdog的运行状态是检测机制能够正常工作的基础。6. 性能考量与调优建议6.1 watchdog对系统性能的影响虽然watchdog对系统稳定性至关重要但它也会带来一定的性能开销。在我的测试中发现watchdog会带来约1-3%的性能下降主要来自定时器中断的处理开销上下文切换的成本性能计数器的资源占用对于性能敏感的应用可以考虑以下优化措施适当延长检测间隔在关键性能路径临时禁用watchdog使用更高效的检测算法6.2 实际部署建议根据我在多个项目中的经验watchdog的部署需要考虑以下因素服务器环境建议保持默认配置因为稳定性是首要考虑嵌入式系统可以根据硬件特性调整阈值节省电力实时系统需要特别小心避免watchdog影响实时性一个实用的技巧是使用watchdog_dev驱动配合硬件看门狗这样即使内核完全死锁硬件看门狗也能重启系统。

相关文章:

深入剖析watchdog机制:从soft lockup到Hard LOCKUP的检测与应对

1. 什么是watchdog机制? 想象一下你养了一只忠诚的狗狗,它的任务就是定时检查你是否还活着。如果你长时间不动,它就会叫醒你或者采取其他措施。Linux内核中的watchdog机制就是这样一个"看门狗",它的职责是监控系统是否正…...

终极实战指南:Godot PCK解包器深度解析与高效资源提取

终极实战指南:Godot PCK解包器深度解析与高效资源提取 【免费下载链接】godot-unpacker godot .pck unpacker 项目地址: https://gitcode.com/gh_mirrors/go/godot-unpacker 在游戏开发与逆向工程领域,Godot引擎的PCK文件格式一直是技术爱好者关注…...

java新手福音:免下载jdk1.8,在快马平台写出你的第一个程序

作为一个刚接触Java的新手,最头疼的就是环境配置了。记得我第一次学Java时,光是下载JDK、配置环境变量就折腾了大半天,还没开始写代码就已经被劝退了一半。直到发现了InsCode(快马)平台,才发现原来入门Java可以这么简单。 零配置开…...

闲置U盘秒变神器!Windows 11密码重置盘制作保姆级教程(含32/64位系统差异说明)

闲置U盘秒变系统急救神器:Windows 11密码重置盘全流程精解 那个抽屉角落积灰的旧U盘,可能比你想象中更有价值。当Windows 11的登录界面无情拒绝你输入的密码时,一个预先制作的密码重置盘就是打开数字大门的备用钥匙。不同于网上流传的简易教程…...

jsTree终极问题排查指南:10个开发者必须掌握的实用技巧

jsTree终极问题排查指南:10个开发者必须掌握的实用技巧 【免费下载链接】jstree jquery tree plugin 项目地址: https://gitcode.com/gh_mirrors/js/jstree jsTree是一款功能强大的jQuery树形插件,广泛应用于Web开发中构建交互式树形结构。本文将…...

终极指南:如何使用snabbt.js创建惊艳的Web动画效果

终极指南:如何使用snabbt.js创建惊艳的Web动画效果 【免费下载链接】snabbt.js Fast animations with javascript and CSS transforms 项目地址: https://gitcode.com/gh_mirrors/sn/snabbt.js 在当今的Web开发领域,snabbt.js作为一款极简主义的J…...

Windows 11上运行Android应用的3大核心优势:WSA完全指南

Windows 11上运行Android应用的3大核心优势:WSA完全指南 【免费下载链接】WSA Developer-related issues and feature requests for Windows Subsystem for Android 项目地址: https://gitcode.com/gh_mirrors/ws/WSA 想在Windows电脑上直接使用你最喜欢的An…...

Koa2调试终极指南:10个高效定位代码问题的技巧

Koa2调试终极指南:10个高效定位代码问题的技巧 【免费下载链接】koa2-note 《Koa2进阶学习笔记》已完结🎄🎄🎄 项目地址: https://gitcode.com/gh_mirrors/ko/koa2-note GitHub 加速计划 / ko / koa2-note 项目中的《Koa2进…...

Keil MDK调试时Watch窗口变量不刷新?别急,这3个设置项你检查了吗?

Keil MDK调试时Watch窗口变量不刷新?这3个关键设置项详解 调试嵌入式系统时,Watch窗口就像开发者的"第三只眼",能实时洞察程序运行状态。但当你发现变量值像被冻住一样纹丝不动时,那种抓狂的感觉我太熟悉了——三年前我…...

PlugY:重新定义暗黑破坏神2单机体验的技术突破

PlugY:重新定义暗黑破坏神2单机体验的技术突破 【免费下载链接】PlugY PlugY, The Survival Kit - Plug-in for Diablo II Lord of Destruction 项目地址: https://gitcode.com/gh_mirrors/pl/PlugY 暗黑破坏神2作为ARPG游戏的里程碑之作,其单机模…...

Habitat入门教程:如何构建你的第一个自动化应用包

Habitat入门教程:如何构建你的第一个自动化应用包 【免费下载链接】habitat Modern applications with built-in automation 项目地址: https://gitcode.com/gh_mirrors/hab/habitat Habitat是一个现代化的应用自动化平台,它通过内置的自动化功能…...

家庭物联网中枢:OpenClaw+Phi-3-vision实现智能家居视觉控制

家庭物联网中枢:OpenClawPhi-3-vision实现智能家居视觉控制 1. 为什么需要本地化的智能家居方案 去年装修新房时,我面临一个两难选择:要么使用成熟的云端智能家居平台,牺牲部分隐私;要么完全手动控制,失去…...

FuzzingPaper项目代码实现原理:如何高效管理海量学术论文

FuzzingPaper项目代码实现原理:如何高效管理海量学术论文 【免费下载链接】FuzzingPaper Recent Fuzzing Paper 项目地址: https://gitcode.com/gh_mirrors/fu/FuzzingPaper FuzzingPaper是一个专注于模糊测试(Fuzzing)领域学术论文管…...

jsTree完整生态系统指南:插件、主题和工具全解析

jsTree完整生态系统指南:插件、主题和工具全解析 【免费下载链接】jstree jquery tree plugin 项目地址: https://gitcode.com/gh_mirrors/js/jstree jsTree是一个功能强大的jQuery树形插件,专为现代Web应用设计,提供了完整的树形结构…...

终极指南:如何在Koa2中构建高性能GraphQL API

终极指南:如何在Koa2中构建高性能GraphQL API 【免费下载链接】koa2-note 《Koa2进阶学习笔记》已完结🎄🎄🎄 项目地址: https://gitcode.com/gh_mirrors/ko/koa2-note Koa2作为一款轻量级Node.js框架,凭借其优…...

QuaggaJS摄像头安全最佳实践:保护用户隐私的完整指南

QuaggaJS摄像头安全最佳实践:保护用户隐私的完整指南 【免费下载链接】quaggaJS An advanced barcode-scanner written in JavaScript 项目地址: https://gitcode.com/gh_mirrors/qu/quaggaJS QuaggaJS作为一款基于JavaScript的高级条形码扫描库,…...

构建高性能WebSocket聊天应用:libwebsockets实战指南

构建高性能WebSocket聊天应用:libwebsockets实战指南 【免费下载链接】libwebsockets canonical libwebsockets.org networking library 项目地址: https://gitcode.com/gh_mirrors/li/libwebsockets Libwebsockets是一个简单易用、MIT许可证、纯C语言编写的…...

‌智慧校园软件怎么选?手把手教你看懂核心功能

✅作者简介:合肥自友科技 📌核心产品:智慧校园平台(包括教工管理、学工管理、教务管理、考务管理、后勤管理、德育管理、资产管理、公寓管理、实习管理、就业管理、离校管理、科研平台、档案管理、学生平台等26个子平台) 。公司所有人员均有多…...

避坑指南:Ecology9流程创建失败的7个常见错误及解决方案(附调试技巧)

Ecology9流程创建失败的7个典型陷阱与深度解决方案 1. 权限配置:被忽视的系统级限制 权限问题往往是流程创建失败的首要原因。许多实施顾问只关注表面错误提示,却忽略了系统底层的权限体系设计。Ecology9的权限控制分为三个层级: 组织架构权限…...

Redis RDB Tools错误排查终极指南:10个常见问题与解决方案清单

Redis RDB Tools错误排查终极指南:10个常见问题与解决方案清单 【免费下载链接】redis-rdb-tools Parse Redis dump.rdb files, Analyze Memory, and Export Data to JSON 项目地址: https://gitcode.com/gh_mirrors/re/redis-rdb-tools Redis RDB Tools是解…...

终极指南:如何为QuaggaJS构建自定义条形码扫描插件

终极指南:如何为QuaggaJS构建自定义条形码扫描插件 【免费下载链接】quaggaJS An advanced barcode-scanner written in JavaScript 项目地址: https://gitcode.com/gh_mirrors/qu/quaggaJS QuaggaJS是一款强大的JavaScript条形码扫描库,它允许开…...

可变形卷积(Deformable Convolution)原理与在YOLOv11中的集成

上周在产线测试YOLOv11的缺陷检测模型,遇到个头疼的问题:同一类金属件,因为冲压模具磨损导致边缘出现轻微形变,模型漏检率突然飙升。常规的卷积核是固定网格采样,对这类几何形变缺乏适应性。调了一整天数据增强&#x…...

告别虚拟机!在Windows 11的WSL2里搞定RK3588交叉编译环境(基于gcc-linaro-7.5.0)

在Windows 11的WSL2中高效搭建RK3588交叉编译环境 对于嵌入式开发者来说,为RK3588这样的ARM架构处理器搭建交叉编译环境是日常工作的重要一环。传统方式往往需要在物理机安装Linux系统或使用虚拟机,但这两种方案都存在明显的效率瓶颈。本文将介绍如何利用…...

从Hello-World到自定义镜像:在Ubuntu 20.04上玩转Docker镜像的完整工作流

从Hello-World到自定义镜像:在Ubuntu 20.04上玩转Docker镜像的完整工作流 当开发者第一次接触Docker时,往往会被其"一次构建,到处运行"的理念所吸引。但真正深入使用后才会发现,Docker的魅力远不止于此——它更像是一个…...

如何实现Vuetify与GraphQL Code Generator的完美结合:终极类型安全数据获取指南

如何实现Vuetify与GraphQL Code Generator的完美结合:终极类型安全数据获取指南 【免费下载链接】vuetify 🐉 Vue Component Framework 项目地址: https://gitcode.com/gh_mirrors/vu/vuetify 在现代Web开发中,Vuetify组件框架与Graph…...

如何在浏览器中实现实时人物移除:TensorFlow.js完整指南

如何在浏览器中实现实时人物移除:TensorFlow.js完整指南 【免费下载链接】Real-Time-Person-Removal Removing people from complex backgrounds in real time using TensorFlow.js in the web browser 项目地址: https://gitcode.com/gh_mirrors/re/Real-Time-Pe…...

KawaiiPhysics动画通知实战:AnimNotifyState与AnimNotify的完整应用指南

KawaiiPhysics动画通知实战:AnimNotifyState与AnimNotify的完整应用指南 【免费下载链接】KawaiiPhysics KawaiiPhysics : Simple Bone Physics for UnrealEngine 4 & 5 项目地址: https://gitcode.com/gh_mirrors/ka/KawaiiPhysics 在Unreal Engine开发…...

git-split-diffs自定义主题开发:创建属于你的终端diff主题

git-split-diffs自定义主题开发:创建属于你的终端diff主题 【免费下载链接】git-split-diffs Syntax highlighted side-by-side diffs in your terminal 项目地址: https://gitcode.com/gh_mirrors/gi/git-split-diffs git-split-diffs是一款强大的终端工具&…...

终极指南:如何构建高性能Ghost渐进式Web应用(PWA)实现离线发布与快速访问

终极指南:如何构建高性能Ghost渐进式Web应用(PWA)实现离线发布与快速访问 【免费下载链接】Ghost Independent technology for modern publishing, memberships, subscriptions and newsletters. 项目地址: https://gitcode.com/gh_mirrors…...

终极指南:gallery本地AI模型平台的架构演进与技术发展历程

终极指南:gallery本地AI模型平台的架构演进与技术发展历程 【免费下载链接】gallery A gallery that showcases on-device ML/GenAI use cases and allows people to try and use models locally. 项目地址: https://gitcode.com/GitHub_Trending/gallery44/galle…...