当前位置: 首页 > article >正文

收到线上服务器出现cpu告警一般怎么排查?

当线上服务器出现CPU告警时,可以按照以下步骤进行系统性排查,逐步定位问题根源:


1. 快速确认CPU使用情况

  • 命令工具
    top                          # 实时查看CPU占用(按P排序进程)
    htop                         # 增强版top,支持可视化操作
    mpstat -P ALL 1              # 查看每个CPU核心的详细利用率
    sar -u 1 5                   # 历史CPU使用率统计(需安装sysstat)
    
  • 关注指标
    • %us(用户态)高:应用代码消耗CPU。
    • %sy(内核态)高:系统调用或中断频繁。
    • %wa(I/O等待):高则可能磁盘/网络IO成为瓶颈。

2. 定位高CPU进程/线程

  • 查看进程
    top -c                       # 显示完整命令,确认可疑进程
    ps -eo pid,pcpu,comm,args --sort=-%cpu | head  # 按CPU排序进程
    
  • 深入线程
    top -H -p <PID>              # 查看指定进程的线程(按P排序)
    pidstat -t -p <PID> 1        # 统计线程级CPU使用
    

3. 分析进程内部状态

  • Java应用

    jstack <PID> > thread_dump.log      # 生成线程快照
    jstat -gcutil <PID> 1000            # 检查GC情况(频繁GC可能导致CPU高)
    
    • 用工具(如fastthread)分析jstack输出,查找RUNNABLE状态的线程及堆栈。
  • 其他语言(如C/C++/Go)

    pstack <PID>                 # 查看进程的线程堆栈(可能需gdb)
    perf top -p <PID>            # 实时分析函数级CPU占用
    gdb -p <PID> -ex "thread apply all bt" --batch > gdb_dump.log  # 生成完整堆栈
    

4. 检查系统级瓶颈

  • I/O瓶颈

    iostat -x 1                  # 查看磁盘IO负载(%util高表示瓶颈)
    dstat                        # 综合监控(CPU、磁盘、网络)
    
  • 网络瓶颈

    sar -n DEV 1                 # 网络流量统计
    ss -s                        # 查看连接统计(TIME-WAIT过多?)
    
  • 上下文切换/中断

    vmstat 1                     # 查看cs(上下文切换)、in(中断)
    pidstat -w -p <PID> 1        # 进程级上下文切换统计
    

5. 结合日志与监控

  • 应用日志

    • 检查错误日志(如grep -i error /var/log/app/*.log)。
    • 关注高频日志输出(可能是循环报错或异常逻辑)。
  • 系统日志

    dmesg | grep -i "error"      # 检查内核日志
    journalctl --since "5 minutes ago"  # 查看近期系统日志(systemd系统)
    
  • 监控系统(如Prometheus、Zabbix):

    • 检查历史趋势:CPU升高是否伴随流量突增?
    • 关联指标:内存、磁盘、网络、应用中间件(如数据库连接池)。

6. 代码/配置级检查

  • 代码热点

    • 使用性能分析工具生成火焰图:
      perf record -F 99 -p <PID> -g -- sleep 30  # 采样
      perf script > out.perf
      flamegraph.pl out.perf > flamegraph.svg    # 生成火焰图
      
    • 分析火焰图,找到占用CPU高的函数或代码块。
  • 配置问题

    • 线程池配置不合理(过多/过少)。
    • 缓存失效导致频繁计算。
    • JVM参数不当(如堆大小、GC策略)。

7. 安全排查

  • 可疑进程
    lsof -p <PID>                # 查看进程打开的文件/网络
    netstat -antp | grep <PID>   # 检查异常连接
    
  • 挖矿病毒
    • 检查未知进程、计划任务(crontab -l)、启动项。
    • 使用rkhunterchkrootkit扫描后门。

8. 常见场景速查

  • 场景1:GC频繁
    现象jstat显示GC时间占比高,应用卡顿。
    解决:调整JVM堆大小/选择低延迟GC算法(如G1/CMS)。

  • 场景2:死循环/死锁
    现象:线程堆栈中同一方法反复出现。
    解决:分析代码逻辑,修复并发问题。

  • 场景3:外部依赖瓶颈
    现象:CPU高伴随大量I/O等待或网络超时。
    解决:优化数据库查询、增加缓存、降级非核心功能。


总结流程

  1. 确认问题 → 2. 定位进程 → 3. 分析线程 → 4. 关联日志/监控 → 5. 代码/系统调优
    通过工具链逐层下钻,结合系统指标与应用逻辑,最终定位到代码或配置缺陷。

相关文章:

收到线上服务器出现cpu告警一般怎么排查?

当线上服务器出现CPU告警时&#xff0c;可以按照以下步骤进行系统性排查&#xff0c;逐步定位问题根源&#xff1a; 1. 快速确认CPU使用情况 命令工具&#xff1a;top # 实时查看CPU占用&#xff08;按P排序进程&#xff09; htop …...

Elasticsearch Open Inference API 增加了对 Jina AI 嵌入和 Rerank 模型的支持

作者&#xff1a;Hemant Malik 及 Joan Fontanals Martnez 探索如何使用 Elasticsearch Open Inference API 访问 Jina AI 模型。 我们在 Jina AI 的朋友们将 Jina AI 的嵌入模型和重新排名产品的原生集成添加到 Elasticsearch 开放推理 API 中。这包括对行业领先的多语言文本嵌…...

Docker下的Elastic search

一、安装 &#xff08;一&#xff09;Elastic search 1.创建配置文件 &#xff1a;我是在win系统中&#xff0c;创建文件【G:\dockermount\es\elasticsearch.yml】 添加【http.host: 0.0.0.0】 2. 拉取镜像&#xff1a;docker pull elasticsearch 3. 创建容器(注意我挂载的…...

Unity学习part4

1、ui界面的基础使用 ui可以在2d和矩形工具界面下操作&#xff0c;更方便&#xff0c;画布与游戏窗口的比例一般默认相同 如图所示&#xff0c;图片在画布上显示的位置和在游戏窗口上显示的位置是相同的 渲染模式&#xff1a;屏幕空间--覆盖&#xff0c;指画布覆盖在游戏物体渲…...

Java笔记18

2-10-3Cookie&Session 1.会话跟踪技术概述 会话:用户打开浏览器,访问web服务器的资源,会话建立,直到有一方断开连接,会话结束。在一次会话中可以包含多次请求和响应会话跟踪:一种维护浏览器状态的方法,服务器需要识别多次请求是否来自于同一浏览器,以便在同一次会话的多次…...

进程概念、PCB及进程查看

文章目录 一.进程的概念进程控制块&#xff08;PCB&#xff09; 二.进程查看通过指令查看进程通过proc目录查看进程的cwd和exe获取进程pid和ppid通过fork()创建子进程 一.进程的概念 进程是一个运行起来的程序&#xff0c;而程序是存放在磁盘的&#xff0c;cpu要想执行程序的指…...

php session数据存储位置选择

PHP session 数据的存储位置可以通过配置文件或者代码来进行设置。默认情况下&#xff0c;session 数据是存储在服务器的文件系统中的。你可以将 session 数据存储在其他地方&#xff0c;例如数据库、缓存等。 基础概念 PHP session默认情况下将数据存储在服务器端的临时文件中…...

计算机网络————(一)HTTP讲解

基础内容分类 从TCP/IP协议栈为依托&#xff0c;由上至下、从应用层到基础设施介绍协议。 1.应用层&#xff1a; HTTP/1.1 Websocket HTTP/2.0 2.应用层的安全基础设施 LTS/SSL 3.传输层 TCP 4.网络层及数据链路层 IP层和以太网 HTTP协议 网络页面形成基本 流程&#xff1a…...

【Viewer.js】vue3封装图片查看器

效果图 需求 点击图片放大可关闭放大的 图片 下载 cnpm in viewerjs状态管理方法 stores/imgSeeStore.js import { defineStore } from pinia export const imgSeeStore defineStore(imgSeeStore, {state: () > ({showImgSee: false,ImgUrl: ,}),getters: {},actions: {…...

数据结构之二叉树的定义及实现

1. 树的概念 主要的定义&#xff1a; 节点的度&#xff1a;一个节点含有的子树的个数称为该节点的度&#xff1b;如上图&#xff1a;A的为6 叶节点或终端节点&#xff1a;度为0的节点称为叶节点&#xff1b;如上图&#xff1a;B&#xff0c;C&#xff0c;H&#xff0c;I等节点…...

Rust语言基础知识详解【一】

1.在windows上安装Rust Windows 上安装 Rust 需要有 C 环境&#xff0c;以下为安装的两种方式&#xff1a; 1. x86_64-pc-windows-msvc&#xff08;官方推荐&#xff09; 先安装 Microsoft C Build Tools&#xff0c;勾选安装 C 环境即可。安装时可自行修改缓存路径与安装路…...

SQLMesh 系列教程9- 宏变量及内置宏变量

SQLMesh 的宏变量是一个强大的工具&#xff0c;能够显著提高 SQL 模型的动态化能力和可维护性。通过合理使用宏变量&#xff0c;可以实现动态时间范围、多环境配置、参数化查询等功能&#xff0c;从而简化数据模型的开发和维护流程。随着数据团队的规模扩大和业务复杂度的增加&…...

【Deepseek】Linux 本地部署 Deepseek

前言 本文介绍在 Linux 系统上部署 Deepseek AI。本文教程是面向所有想体验 AI 玩家的一个简易教程&#xff0c;因此即使是小白也可以轻松完成体验&#xff0c;话不多说立马着手去干。 [注]&#xff1a;笔者使用的系统为 Ubuntu 24.10 1. 关于 ollama Ollama 是一款开源应用…...

机器学习数学通关指南——拉格朗日乘子法

前言 本文隶属于专栏《机器学习数学通关指南》&#xff0c;该专栏为笔者原创&#xff0c;引用请注明来源&#xff0c;不足和错误之处请在评论区帮忙指出&#xff0c;谢谢&#xff01; 本专栏目录结构和参考文献请见《机器学习数学通关指南》 正文 一句话总结 拉格朗日乘子法…...

git,bash - 从一个远端git库只下载一个文件的方法

文章目录 git,bash - 从一个远端git库只下载一个文件的方法概述笔记写一个bash脚本来自动下载get_github_raw_file_from_url.shreanme_file.shfind_key_value.sh执行命令 END git,bash - 从一个远端git库只下载一个文件的方法 概述 github上有很多大佬上传了电子书库&#xf…...

臻识相机,华夏相机,芊熠车牌识别相机加密解密

臻识&#xff0c;华夏&#xff0c;芊熠这三种车牌识别相机解密我都试过了&#xff0c;可以正常解密成功&#xff0c;其它品牌我暂时没有测试。超级简单&#xff0c;免费的&#xff0c;白嫖无敌&#xff01; 流程&#xff1a; ①&#xff1a;先导出配置文件&#xff0c;例如我以…...

网络安全与措施

&#x1f345; 点击文末小卡片 &#xff0c;免费获取网络安全全套资料&#xff0c;资料在手&#xff0c;涨薪更快 # 网络安全问题概述 1) 数据安全 访问&#xff08;授权访问&#xff09;&#xff1b;存储&#xff08;容灾、备份或异地备份等&#xff09; 2) 应用程序 不能…...

前后端分离系统架构:基于Spring Boot的最佳实践

前后端分离系统架构图描绘了一个基于Springboot的前端后台分离的系统架构。它强调了前端&#xff08;客户端&#xff09;与远程&#xff08;服务器&#xff09;的解耦&#xff0c;通过API接口进行交互&#xff0c;分别独立开发和部署。 前后端分离系统架构图 从上到下&#xff…...

提示语链与CIRS模型:解锁AI内容生成的新范式

文章目录 一、提示语链&#xff1a;从单点提示到系统化引导1.1 什么是提示语链&#xff1f;1.2 提示语链的核心特征1.3 提示语链的设计步骤1.4 提示语链的优势 二、CIRS模型&#xff1a;从上下文到综合优化2.1 什么是CIRS模型&#xff1f;2.2 CIRS模型的四个环节2.3 CIRS模型的…...

【Python + STM32 实现外设控制的从0-1实例教程-适合新手】

一、环境搭建与固件烧录 1. 硬件准备 STM32开发板:推荐支持 MicroPython 的型号(如STM32F4 Discovery、NUCLEO-F411RE)。USB转TTL模块:用于串口通信(如CH340、CP2102)。外设模块:LED、温湿度传感器(如DHT11)等。2. 软件准备 MicroPython固件:从MicroPython官网下载对…...

内外网文件传输 安全、可控、便捷的跨网数据传输方案

一、背景与痛点 在内外网隔离的企业网络环境中&#xff0c;员工与外部协作伙伴&#xff08;如钉钉用户&#xff09;的文件传输面临以下挑战&#xff1a; 安全性风险&#xff1a;内外网直连可能导致病毒传播、数据泄露。 操作繁琐&#xff1a;传统方式需频繁切换网络环境&…...

超导量子计算机的最新进展:走向实用化的量子革命

超导量子计算机的最新进展:走向实用化的量子革命 大家好,我是 Echo_Wish,今天我们来聊聊科技圈最炙手可热的话题之一——超导量子计算机。近年来,量子计算领域可谓是风起云涌,而超导量子计算机作为主流路线之一,已经在学术界和工业界取得了不少突破性进展。 那么,超导…...

DeepSeek掘金——SpringBoot 调用 DeepSeek API 快速实现应用开发

Spring Boot 实现 DeepSeek API 调用 1. 项目依赖 在 pom.xml 中添加以下依赖: <dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-webflux</artifactId></dependency>&l…...

Oracle:执行DELETE语句长时间无响应的排查步骤及解决方案

目录 [TOC](目录)**一、检查锁状态与阻塞会话****二、检查未提交事务****三、分析执行计划与SQL性能****四、检查触发器与约束****五、资源竞争与系统瓶颈****六、其他高级排查手段****七、紧急处理流程****总结** 以下是针对Oracle执行DELETE语句长时间无响应的排查步骤及解决…...

centos服务器巡检脚本

服务器巡检脚本 系统负载shell脚本python将txt文件转换成excel&#xff0c;不正常巡检结果标记红色 系统负载shell脚本 #!/bin/bash#文件路径 path"/root/monitor.txt"#yum -y install bc sysstat net-tools lrzsz #获取主机名 system_hostname$(hostname | awk {pr…...

抖音试水AI分身;腾讯 AI 战略调整架构;百度旗下小度官宣接入DeepSeek...|网易数智日报

抖音试水AI分身&#xff0c;字节旗下AI智能体平台扣子已与抖音打通&#xff0c;相关功能内测中 2月19日消息&#xff0c;钛媒体App独家获悉&#xff0c;字节旗下AI智能体开发平台扣子&#xff08;Coze&#xff09;已与抖音打通&#xff0c;抖音创作者可在扣子智能体平台打造AI分…...

红帽7基于kickstart搭建PXE环境

Kickstart 文件是一种配置文件&#xff0c;用于定义 Linux 系统安装过程中的各种参数&#xff0c;如分区、网络配置、软件包选择等。system-config-kickstart 提供了一个图形界面&#xff0c;方便用户快速生成这些配置文件。 用户可以通过图形界面进行系统安装的详细配置&…...

安装PHPStudy 并搭建DVWA靶场

目录 一、PHPStudy 简介 二、DVWA 简介 三、安装 PHPStudy 四&#xff1a;安装 DVWA 一、PHPStudy 简介 phpstudy傻瓜式的一键启动&#xff0c;支持WAMP、WNMP、LAMP、LNMP&#xff0c;一键切换环境&#xff08;nginxapahce&#xff09;,一键切换PHP版本&#xff08;5.1-7…...

【量化科普】Liquidity,流动性

【量化科普】Liquidity&#xff0c;流动性 &#x1f680;量化软件开通 &#x1f680;量化实战教程 在量化交易的世界里&#xff0c;流动性&#xff08;Liquidity&#xff09;是一个至关重要的概念。它描述的是资产能够以多快的速度被买入或卖出而不显著影响其价格的能力。简…...

SQL写法技巧

目录 1.批量插入&#xff0c;查询&#xff0c;删除数据 缺点 实现方法 1.批量插入数据 2.批量查询数据 3.批量删除数据 4.批量修改数据 解释 2.树型表查询 方法一&#xff1a;递归(适用于多级的情况) 方法二&#xff1a;表的自连接 方法三&#xff1a;MySQL递归&am…...