当前位置: 首页 > article >正文

Zabbix服务器Swap异常占用分析与优化策略

1. 当Zabbix服务器开始喘不过气Swap异常占用的典型症状最近在巡检Zabbix监控系统时突然收到一条让人心跳加速的告警High swap space usage (less than 50% free)。这就像汽车的机油报警灯突然亮起——虽然车子还能开但肯定哪里出了问题。具体表现为服务器物理内存还剩不少Swap分区却被吃掉大半这种舍近求远的内存使用方式明显不正常。我遇到过最夸张的情况是一台32G内存的服务器空闲内存还剩12GSwap却被占用了8G总共16G。这就好比你家明明有空房间客人却非要挤在临时搭建的帐篷里睡觉。通过free -h命令可以看到这样的异常情况total used free shared buff/cache available Mem: 32G 8.2G 12G 1.2G 11G 22G Swap: 16G 8.1G 7.9G这种状态下系统性能会明显下降。我实测过一个案例当Swap使用超过30%时Zabbix前端操作响应时间从平均200ms飙升到1500ms监控数据采集延迟也从正常的5秒增加到20秒以上。2. 揪出内存饕餮精准定位问题进程2.1 全盘扫描Swap占用大户排查的第一步是要找出哪些进程在偷偷占用Swap空间。这个命令是我的瑞士军刀for file in /proc/*/status; do awk /VmSwap|Name/{printf $2 $3}END{print } $file; done | sort -k 2 -n -r | head -20这个命令会列出所有进程的Swap占用情况按占用大小降序排列。在我的案例中输出结果显示出几个可疑分子zabbix_server 2200 MB postmaster 1500 MB php-fpm 300 MB2.2 Zabbix进程的异常表现进一步分析zabbix_server进程时发现了更诡异的现象# 统计zabbix_server进程数量 ps -ef | grep zabbix_server | wc -l # 输出866 # 计算这些进程占用的Swap总量 swap_sum0 for pid in $(pgrep zabbix_server); do swap$(grep VmSwap /proc/$pid/status | awk {print $2}) [ -n $swap ] swap_sum$((swap_sum swap)) done echo $((swap_sum / 1024)) MB # 输出2200 MB866个zabbix_server进程占用了2.2G Swap空间正常情况下的进程数应该在几十个左右。这就像一家餐厅本来只需要20个服务员却突然雇了800个不仅没提高效率反而把休息区都挤爆了。3. 手术刀式优化精准解决Swap异常3.1 紧急止血服务重启策略面对这种异常我的第一反应是重启zabbix-server服务。但直接重启有风险这里分享我的标准操作流程创建虚拟机快照如果是物理机就做完整备份停止相关服务systemctl stop zabbix-server systemctl stop httpd手动释放Swapswapoff -a swapon -a启动服务systemctl start zabbix-server systemctl start httpd重启后Swap使用量通常会立即下降80%以上。但要注意这只是治标不治本。3.2 深度调优Zabbix配置调整为了防止问题复发我通常会调整这几个关键参数在/etc/zabbix/zabbix_server.conf中StartPollers30 StartPollersUnreachable15 StartTrappers20 StartPingers10 StartDiscoverers10 CacheSize256M HistoryCacheSize128M TrendCacheSize128M这些值的设置需要根据服务器硬件配置来定。我的经验公式是每500个监控项配置1个Poller每100个节点配置1个PingerCacheSize建议是总监控项大小的10%-20%3.3 系统层加固Swappiness优化Linux有个关键参数叫swappiness控制着系统使用Swap的倾向性。查看当前值cat /proc/sys/vm/swappiness # 通常默认值是60对于数据库服务器和监控服务器我建议调整为10-30echo vm.swappiness20 /etc/sysctl.conf sysctl -p这个调整相当于告诉系统除非真的没辙了否则别用Swap。4. 防患于未然长效监控机制建设4.1 定制Zabbix监控模板我创建了一个专门的Swap监控模板包含这些关键项Swap总使用率单个进程Swap占用Top 10Swappiness值监控Zabbix进程数监控当出现以下情况时触发告警Swap使用率30%持续5分钟单个进程Swap占用500MBZabbix进程数1004.2 定期健康检查脚本我写了个定期运行的检查脚本保存为/usr/local/bin/swap_check.sh#!/bin/bash CRITICAL30 swap_usage$(free | awk /Swap/{printf %.0f, $3/$2*100}) [ $swap_usage -ge $CRITICAL ] { echo Swap usage $swap_usage% exceeds threshold $CRITICAL% echo Top 5 Swap using processes: ps -eo pid,comm,%mem --sort-%mem | head -6 exit 1 } exit 0然后添加到crontab每小时运行一次0 * * * * /usr/local/bin/swap_check.sh /var/log/swap_check.log 215. 疑难杂症那些年我踩过的Swap坑有一次客户报告Zabbix前端特别卡但所有监控项都显示正常。我花了三小时才发现是Swap的锅——物理内存还剩40%但Swap已经被吃光了。原来是因为默认的swappiness设置太高系统过早地使用了Swap。另一个案例更隐蔽Zabbix服务器每天凌晨3点准时变慢。最后发现是定时任务触发了大量监控项检查导致短暂的内存峰值系统就把进程挪到了Swap里即使内存后来空闲了这些进程也没被移回来。最棘手的要数内存泄漏问题。某次升级后Zabbix的history syncer进程会缓慢地吃掉所有可用内存。解决方案是在zabbix_server.conf中添加HistorySyncerFrequency30 HistorySyncerMaxPending1000这些经验告诉我Swap问题从来不是独立现象它往往是更深层次问题的表象。就像发烧不是病而是身体在报警。

相关文章:

Zabbix服务器Swap异常占用分析与优化策略

1. 当Zabbix服务器开始"喘不过气":Swap异常占用的典型症状 最近在巡检Zabbix监控系统时,突然收到一条让人心跳加速的告警:"High swap space usage (less than 50% free)"。这就像汽车的机油报警灯突然亮起——虽然车子还…...

2026 年构建高性能 Rust 后端:7 个生产级必备库

Rust 凭借内存安全、零成本抽象、极致性能,已成为高并发后端、微服务、网关、数据库内核等场景的首选语言。对于后端开发者而言,用好成熟、稳定、高性能的生态库,能大幅降低开发成本、提升服务稳定性与吞吐能力。 本文精选 7 个生产环境验证过…...

从电磁波到AI诊断:揭秘GIS局部放电监测系统的智能进化之路

从电磁波到AI诊断:揭秘GIS局部放电监测系统的智能进化之路 在电力系统的核心地带,气体绝缘开关设备(GIS)如同沉默的守护者,承载着电能传输的重任。而局部放电(PD)现象,则是这些设备绝…...

PyQt5界面美化实战:从QSS样式到无边框窗口的完整指南

1. QSS样式表基础:从入门到实战 第一次接触PyQt5界面开发时,我被默认的灰白界面震惊了——这简直像是回到了Windows 98时代。后来发现QSS(Qt Style Sheets)这个神器后,才明白原来PyQt5的界面可以如此精致。QSS的语法和CSS非常相似&#xff0…...

从零搭建微信公众号智能交互后台:Python Flask实战指南

1. 为什么需要自建微信公众号后台? 每次在公众号后台看到用户发来的消息,你是不是也遇到过这样的烦恼?官方后台的关键词回复规则太死板,稍微复杂点的需求就实现不了。比如用户发"查天气 北京",你想根据城市名…...

Formily终极指南:5步实现JSON驱动的现代化表单开发

Formily终极指南:5步实现JSON驱动的现代化表单开发 【免费下载链接】formily 📱🚀 🧩 Cross Device & High Performance Normal Form/Dynamic(JSON Schema) Form/Form Builder -- Support React/React Native/Vue 2/Vue 3 项…...

开源项目管理平台OpenProject:从协作困境到团队效能的智能转型引擎

开源项目管理平台OpenProject:从协作困境到团队效能的智能转型引擎 【免费下载链接】openproject OpenProject is the leading open source project management software. 项目地址: https://gitcode.com/GitHub_Trending/op/openproject 在数字化转型浪潮中…...

5分钟搞定!用Gradio和YOLOv8n.pt快速搭建一个在线图片识别小工具

5分钟极速搭建:用Gradio和YOLOv8打造零代码图像识别工具 当算法工程师需要快速验证模型效果,或是产品经理希望直观展示AI能力时,传统的前端开发流程往往成为效率瓶颈。现在,通过Gradio与YOLOv8的组合,我们可以在5分钟内…...

如何用OneMore插件将OneNote表格效率提升300%?终极指南

如何用OneMore插件将OneNote表格效率提升300%?终极指南 【免费下载链接】OneMore A OneNote add-in with simple, yet powerful and useful features 项目地址: https://gitcode.com/gh_mirrors/on/OneMore OneMore是一款专为OneNote设计的强大插件&#xff…...

Vivado时序违例别慌!手把手教你用GUI搞定Zynq PS端时钟约束(附XDC自动生成技巧)

Vivado时序约束实战:从GUI操作到Zynq PS端时钟优化 刚接触FPGA开发的朋友们,一定对时序约束这个环节又爱又恨。特别是当你在Zynq平台上遇到PS端时钟约束问题时,那些密密麻麻的警告信息简直让人头皮发麻。但别担心,今天我要分享的这…...

香橙派3B rk3566设备树节点添加避坑实录:从编译内核到手动替换dtb的完整流程

香橙派3B rk3566设备树节点添加避坑实录:从编译内核到手动替换dtb的完整流程 第一次在香橙派3B上修改设备树时,我本以为按照官方手册操作就能轻松搞定,结果却踩了一连串的坑。这篇文章记录了我从"编译整个内核"到发现"只需编译…...

为什么你的桌面生产力工具正在被这个开源框架彻底颠覆?

为什么你的桌面生产力工具正在被这个开源框架彻底颠覆? 【免费下载链接】DyberPet Desktop Cyber Pet Framework based on PySide6 项目地址: https://gitcode.com/GitHub_Trending/dy/DyberPet 想象一下这样的场景:早上9点,你打开电脑…...

Token消失了?Codex、Claude的token余额这样查

Codex 你可以在 ChatGPT 网页版的 Codex 设置中查看积分余额和使用情况,也可通过终端命令 /status 查询。 网页版查询 登录 ChatGPT 网页版。 进入 Codex 设置。 打开设置-分析,即可查看当前积分余额、最近使用情况以及 5 小时和每周的使用限额。 官…...

生成式AI弹性防护最后防线:当GPU显存耗尽、KV Cache溢出、推理队列阻塞时,如何用轻量级eBPF熔断器实现毫秒级自愈?

第一章:生成式AI应用限流熔断机制 2026奇点智能技术大会(https://ml-summit.org) 在高并发场景下,生成式AI服务(如大语言模型API)极易因突发流量、长尾请求或模型推理异常导致资源耗尽、响应延迟激增甚至级联故障。限流与熔断作为…...

房屋租赁|基于springboot + vue房屋租赁系统(源码+数据库+文档)

房屋租赁管理系统 目录 基于springboot vue房屋租赁管理系统 一、前言 二、系统功能演示 详细视频演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue房屋租赁管理系统 一、…...

深入解析Ubuntu ifconfig输出:从lo到enp2s0的网卡命名规则与实战解读

1. 从ifconfig命令说起:网络接口的身份证 第一次在Ubuntu终端输入ifconfig时,看到lo、enp2s0这些神秘代码,我差点以为系统在和我玩摩斯密码。其实这就是Linux给网卡发的"身份证",只不过用了我们不太熟悉的命名规则。Win…...

ArcGIS Pro 3.0 里用‘创建渔网’工具分割栅格,手把手教你搞定200米×200米的标准格网

ArcGIS Pro 3.0 栅格标准化分割实战:200米200米渔网生成全流程解析 当面对覆盖数百平方公里的遥感影像时,直接处理整张栅格往往会遭遇性能瓶颈。去年参与某省生态监测项目时,我们曾因未对30GB的卫星影像进行预处理,导致后续分析工…...

2026年广州白云烧烤图鉴:平价美味如何征服90%食客味蕾?

最近和朋友聊起广州白云区的烧烤江湖,发现个有意思的现象:那些靠“高价噱头”撑场面的店,半年就凉;反倒是像啃伴撸串食堂这种“实在派”,门店越开越多,复购率能冲到60%。这背后,藏着烧烤行业从“…...

OpenLayers进阶指南——动态军事箭头标绘与交互优化

1. 动态军事箭头标绘的核心原理 军事态势图的动态标绘一直是GIS开发中的难点,尤其是箭头这种带有方向性和战术意义的符号。在OpenLayers中实现这个功能,本质上是在处理三个关键问题:坐标计算、图形渲染和交互响应。 先说坐标计算。军事箭头不…...

【含最新安装包】5 分钟完成 OpenClaw 部署 小白也能轻松操作

【含最新安装包】5 分钟完成 OpenClaw 部署 小白也能轻松操作 简介:OpenClaw一键安装包专为Windows 10/11设计,v2.6.2虾壳云版,全程可视化操作,内置Python/Node.js等全部依赖,5分钟极速部署,小白零门槛上手…...

新手画板别踩坑:HDMI、USB、网口这些接口的差分阻抗到底怎么设?

新手画板避坑指南:HDMI/USB/网口差分阻抗设计全解析 第一次在Altium Designer里看到差分线阻抗设置选项时,我盯着那个默认的100Ω数值发了半小时呆——为什么USB要设90Ω?网口有时100Ω有时50Ω又是什么道理?直到某次HDMI信号出现…...

CSS如何禁止子元素浮动影响父级_设置父容器BFC属性

父容器高度塌陷是因浮动元素脱离文档流导致,解决核心是让父容器建立BFC;overflow: hidden最常用但有截断风险,display: flow-root是现代标准解法但IE不支持。父容器高度塌陷是浮动导致的,不是CSS写错了子元素用了 float&#xff0…...

天立国际旗下鸿羽服务:以全维教育生态,守护中小学生饮食与健康生活

2026年4月11日,由天立国际集团(01773.HK)旗下生活服务公司鸿羽服务主办的“中小学生饮食与健康生活方式推广研讨会”在成都天立学校(西区)顺利召开。卫健、疾控、高校、CQC与企业专家代表齐聚一堂,围绕学生…...

实战揭秘:YOLO+PaddleOCR 打造智能车牌识别系统

1. 为什么选择YOLOPaddleOCR做车牌识别? 每次开车进出停车场,看到闸机秒抬杆的时候,我都在想这套系统是怎么工作的。后来自己动手实现才发现,原来最核心的就是两个技术:YOLO负责找车牌,PaddleOCR负责认字。…...

AI CRM测评——谁有底气陪你走到最后?

AI不是一次性投入,而是持续进化的过程。厂商的生态支撑能力,决定了你买的CRM三个月后是“更聪明”还是“过时了”。本次测评聚焦算力支撑、模型迭代、场景拓展三个维度,对主流AI CRM厂商进行长期主义视角的评估。一、算力支撑:谁有…...

模糊函数在雷达信号处理中的核心作用与实现解析

1. 模糊函数:雷达信号处理的"火眼金睛" 想象一下你在漆黑的夜晚用手电筒寻找目标。如果手电光束太宽,你会看到一片模糊的光斑;如果光束又细又准,就能清晰定位目标。模糊函数在雷达中的作用,就像这个手电筒的…...

使用C#代码将 RTF 转换为 HTML、图像

RTF(富文本格式)是一种用于存储文本及其格式信息的文件格式。在处理 RTF 文件时,有时你可能需要将其转换为更适合网页展示的格式(如 HTML),或者将其转换为图像,以便更好地进行共享和归档。在本文…...

生态协同,为什么是AI CRM 2.0的胜负手?

腾讯与销售易战略合作全面升级,被业界视为中国企业软件发展的一条新路径。为什么?因为这件事背后,揭示了一个根本性的变化:未来的竞争,不再是产品的单点竞争,而是生态的系统竞争。一、单打独斗的时代已经结…...

终极指南:3步让魔兽争霸III在现代系统上完美运行

终极指南:3步让魔兽争霸III在现代系统上完美运行 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 你是否怀念魔兽争霸III的经典对战&#x…...

实战:使用 HAProxy 搭建高可用 Web 负载均衡集群

前言 在现代企业级 Web 服务架构中,负载均衡集群是保障系统高并发、高可用、可扩展的核心基础设施。当前开源领域主流的负载均衡调度工具主要包含 LVS、Nginx 与 HAProxy 三款,三者在性能、配置复杂度、功能特性上存在明显差异。HAProxy 作为一款专注于…...