线上接口tp99突然升高如何排查?
- 当线上接口的 TP99 突然升高时,意味着该接口在 99% 的情况下响应时间变长,这可能会严重影响系统的性能和用户体验。可以按照下面的步骤进行排查。
- 这里我们先说明一下如何计算tp99:监控系统计算 TP99(第 99 百分位数的响应时间)
- 排序法
数据收集:监控系统会持续收集接口的响应时间数据,这些数据可以是每秒、每分钟或者其他时间间隔内的响应时间样本。
排序:将收集到的一定时间窗口内(如一分钟、一小时等)的所有响应时间数据进行排序,从最小值到最大值排列。
定位 TP99:计算数据总数的 99% 位置所对应的响应时间值。假设在一个小时内收集到了 1000 个响应时间数据点,那么第 990 个位置(1000×99% = 990)的数据值就是 TP99。如果数据点的数量不是整数,可以通过插值的方法来确定 TP99 的值。 - 分桶法
确定桶的范围和大小:将响应时间划分为多个连续的区间,即 “桶”。例如,以 0-100 毫秒、100-200 毫秒、200-300 毫秒等为桶,每个桶有一个固定的范围。
数据分组:将收集到的响应时间数据分配到对应的桶中,统计每个桶内的数据数量。
计算 TP99:从最小的桶开始,依次累加每个桶内的数据数量,直到累加的数量达到或超过总数据量的 99%。此时,当前桶的上限值或者通过在当前桶内进行进一步计算得到的值就是 TP99。
- 排序法
整体分析思路为:先整体后局部。先看整体服务CPU、内存等使用情况;再观察接口流量、调用链路。
1. 确认问题范围
- 监控数据收集:查看接口的监控数据,包括响应时间、吞吐量、错误率等指标的历史数据,确认 TP99 升高是个别接口还是多个接口的普遍问题。
- 业务流量分析:检查业务流量是否有异常波动,例如是否有突发的高并发请求、爬虫攻击等。
2. 应用程序层面排查
- 代码审查
- 近期代码变更:查看最近是否有代码部署到线上环境,尤其是与该接口相关的代码。检查新代码中是否存在性能问题,例如死循环、大量的数据库查询、复杂的计算逻辑等。
- 日志分析:查看应用程序的日志,查找是否有异常信息,如错误堆栈、警告信息等。日志中可能会记录一些导致接口响应时间变长的关键信息。
- 资源使用情况
- CPU 使用率:检查应用程序所在服务器的 CPU 使用率是否过高。如果 CPU 使用率接近 100%,可能是由于代码中存在大量的计算密集型任务或者死循环导致的。
- 内存使用情况:查看应用程序的内存使用情况,是否存在内存泄漏的问题。内存泄漏会导致应用程序的内存占用不断增加,最终影响系统的性能。
- 线程池状态:检查应用程序的线程池配置和状态,是否存在线程池满、线程阻塞等问题。
3. 数据库层面排查
- 慢查询分析
- 数据库日志:查看数据库的慢查询日志,找出执行时间较长的 SQL 语句。可以通过优化这些 SQL 语句,例如添加索引、优化查询条件等,来提高数据库的查询性能。
- 数据库连接池:检查数据库连接池的配置和状态,是否存在连接池满、连接泄漏等问题。
- 数据库性能指标
- CPU 使用率:检查数据库服务器的 CPU 使用率是否过高。
- 磁盘 I/O:查看数据库服务器的磁盘 I/O 情况,是否存在磁盘读写瓶颈。
- 内存使用情况:检查数据库服务器的内存使用情况,是否存在内存不足的问题。
4. 网络层面排查
- 网络延迟
- Ping 命令:使用
ping命令检查应用程序服务器和数据库服务器之间的网络延迟是否正常。 - Traceroute 命令:使用
traceroute命令查看数据包从应用程序服务器到数据库服务器的路由路径,检查是否存在网络拥塞或者丢包的情况。
- Ping 命令:使用
- 网络带宽:检查应用程序服务器和数据库服务器的网络带宽使用情况,是否存在带宽不足的问题。
5. 中间件层面排查
- 负载均衡器:检查负载均衡器的配置和状态,是否存在负载不均衡、转发错误等问题。
- 缓存系统:如果接口使用了缓存系统,检查缓存系统的性能和命中率,是否存在缓存穿透、缓存雪崩等问题。
6. 压测和复现问题
- 模拟高并发:在测试环境中模拟高并发场景,复现 TP99 升高的问题。通过压测工具,如 Apache JMeter、Gatling 等,对接口进行压力测试,观察接口的性能表现。
- 逐步排查:在压测过程中,逐步排除可能的因素,例如关闭某些功能模块、调整配置参数等,找出导致 TP99 升高的具体原因。
补充:线上接口监控tp抖动,有尖刺如何排查?
-
先看接口的监控尖刺对应的机器监控,如果偶发在某几台机器,那可能是gc导致,具体原因需要看对应机器的监控数据。如果发生在某个机房,可能是网络原因导致。
-
如果通过机器看不到特殊信息,那么就需要分析调用链路。是否存在数据库慢、缓存失效、rpc服务耗时抖动等问题。
相关文章:
线上接口tp99突然升高如何排查?
当线上接口的 TP99 突然升高时,意味着该接口在 99% 的情况下响应时间变长,这可能会严重影响系统的性能和用户体验。可以按照下面的步骤进行排查。这里我们先说明一下如何计算tp99:监控系统计算 TP99(第 99 百分位数的响应时间&…...
SpringBoot优雅关机,监听关机事件,docker配置
Spring Boot 提供了多种方法来实现优雅停机(Graceful Shutdown),这意味着在关闭应用程序之前,它会等待当前正在处理的请求完成,并且不再接受新的请求。 一、优雅停机的基本概念 优雅停机的主要步骤如下: …...
在【k8s】中部署Jenkins的实践指南
🐇明明跟你说过:个人主页 🏅个人专栏:《Kubernetes航线图:从船长到K8s掌舵者》 🏅 🔖行路有良友,便是天堂🔖 目录 一、引言 1、Jenkins简介 2、k8s简介 3、什么在…...
Unity DOTS从入门到精通之 C# Job System
文章目录 前言安装 DOTS 包C# 任务系统Mono 环境DOTS 环境运行作业NativeContainer 前言 作为 DOTS 教程,我们将创建一个旋转立方体的简单程序,并将传统的 Unity 设计转换为 DOTS 设计。 Unity 2022.3.52f1Entities 1.3.10 安装 DOTS 包 要安装 DOTS…...
Spring Boot 本地缓存工具类设计与实现
在 Spring Boot 应用中,缓存是提升性能的重要手段之一。为了更方便地使用缓存,我们可以设计一套通用的本地缓存工具类,封装常见的缓存操作,简化开发流程。本文将详细介绍如何设计并实现一套 Spring Boot 本地缓存工具类࿰…...
【Godot4.4】浅尝Godot中的MVC
概述 基于一个Unity的视频。学习了一下基本的MVC概念,并尝试在Godot中实现了一下。 原始的MVC: Godot中的MVC: Model、View和Controller各自应该实现的功能如下: Model: 属性(数据字段)数据存取方法数据更新信号 View: 控…...
如何解决前端的竞态问题
前端的竞态问题通常是指多个异步操作的响应顺序与发起顺序不一致,导致程序出现不可预测的结果。这种问题在分页、搜索、选项卡切换等场景中尤为常见。以下是几种常见的解决方法: 1. 取消过期请求 当用户发起新的请求时,取消之前的请求&…...
Elasticsearch为索引设置自动时间戳,ES自动时间戳
文章目录 0、思路1、配置 ingest pipeline2、在索引映射中启用_source字段的时间戳3、使用 index template 全局设置时间戳4、写入测试数据5、验证结果6、总结 在使用 Elasticsearch 进行数据存储和检索时,时间戳字段是一个非常重要的组成部分。它可以帮助我们追踪数…...
计算机网络:计算机网络的组成和功能
计算机网络的组成: 计算机网络的工作方式: 计算机网络的逻辑功能; 总结: 计算机网络的功能: 1.数据通信 2.资源共享 3.分布式处理:计算机网络的分布式处理是指将计算任务分散到网络中的多个节点(计算机或设备&…...
FPGA设计时序约束用法大全保姆级说明
目录 一、序言 二、时序约束概览 2.1 约束五大类 2.2 约束功能简述 2.3 跨时钟域约束 三、时序约束规范 3.1 时序约束顺序 3.2 约束的优先级 四、约束示例 4.1 设计代码 4.2 时序结果 4.2.1 create_clock 4.2.2 create_generated_clock 4.2.3 Rename_Auto-Derive…...
云服务运维智能时代:阿里云操作系统控制台
阿里云操作系统控制台 引言需求介绍操作系统使用实例获得的帮助与提升建议 引言 阿里云操作系统控制台是一款创新型云服务器运维工具,专为简化用户的运维工作而设计。它采用智能化和可视化的方式,让运维变得更加高效、直观。借助AI技术,控制…...
硬件学习笔记--48 磁保持继电器相关基础知识介绍
目录 1.磁保持继电器工作原理 2.磁保持继电器内部结构及组成部分 3.磁保持继电器主要参数 4.总结 1.磁保持继电器工作原理 磁保持继电器利用永磁体的磁场和线圈通电产生的磁场相互作用,实现触点的切换。其特点在于线圈断电后,触点状态仍能保持&#…...
【云岚到家】-实战问题(上)
【云岚到家】-实战问题(上) 基础架构项目涉及那些角色云岚的业务流程?云岚家政包括那些模块项目采用什么架构如何开发一个接口?RESTful风格的去定义一个接口如何开发一个接口的service方法接口的异常处理怎么实现的?Sp…...
简记_硬件系统设计之需求分析要点
目录 一、 功能需求 二、 整体性能需求 三、 用户接口需求 四、 功耗需求 五、 成本需求 六、 IP和NEMA防护等级需求 七、 认证需求 功能需求 供电方式及防护 供电方式:市电供电、外置直流稳压电源供电、电池供电、PoE(Power Over Ether…...
K8s 1.27.1 实战系列(五)Namespace
Kubernetes 1.27.1 中的 Namespace(命名空间)是集群中实现多租户资源隔离的核心机制。以下从功能、操作、配置及实践角度进行详细解析: 一、核心功能与特性 1、资源隔离 Namespace 将集群资源划分为逻辑组,实现 Pod、Service、Deployment 等资源的虚拟隔离。例如,…...
ubuntu 20.04下ZEDmini安装使用
提前安装好显卡驱动和cuda,如果没有安装可以参考我的这两篇文章进行安装: ubuntu20.04配置YOLOV5(非虚拟机)_ubuntu20.04安装yolov5-CSDN博客 ubuntu20.04安装显卡驱动及问题总结_乌班图里怎么备份显卡驱动-CSDN博客 还需要提前…...
Deepseek可以通过多种方式帮助CAD加速工作
自动化操作:通过Deepseek的AI能力,可以编写脚本来自动化重复性任务。例如,使用Python脚本调用Deepseek API,在CAD中实现自动化操作。 插件开发:结合Deepseek进行二次开发,可以创建自定义的CAD插件。例如&a…...
tauri-plugin-shell插件将_blank的a标签用浏览器打开了,,,解决办法
不要使用这个插件,这个插件默认会将网页中a标签为_blank的使用默认浏览器打开,但是这种做法在我的程序里不是很友好,我需要自定义这种行为,当我点击我自己的链接的时候,使用默认浏览器打开,当点击别的链接的…...
[20250304] 关于 RISC-V芯片 的介绍
[20250304] 关于 RISC-V芯片 的介绍 1. 调研报告 一、RISC-V 芯片结构分析 RISC-V 芯片基于开源指令集架构(ISA),其核心优势在于模块化设计与高度灵活性。 指令集架构 基础指令集:包含 RV32I(32 位)、R…...
C++ 继承(2)
Hello!!大家早上中午晚上好!!今天收尾继承剩余部分内容!! 一、友元不能继承 基类的友元函数不能被子类继承,也就是基类的友元函数访问不了子类的私有或保护成员! 1.1解决方法在子…...
解决:Word 保存文档失败,重启电脑后,Word 在试图打开文件时遇到错误
杀千刀的微软,设计的 Word 是个几把,用 LaTex 写完公式,然后保存,卡的飞起 我看文档卡了很久,就关闭文档,然后 TMD 脑抽了重启电脑 重启之后,文档打不开了,显示 杀千刀的ÿ…...
【docker简化部署有状态prometheus+grafana】
文章目录 第一步 下载依赖第二步 选择一个有权限的文件夹新建配置文件prometheus.ymldocker中运行命令存储数据启动prometheus 第三步 启动grafana 第一步 下载依赖 docker pull grafana/grafana:latest docker pull prom/prometheus:latest第二步 选择一个有权限的文件夹 例…...
Java- “equals“和“==“
"equals" 用于比较是否相等 equals() 是Object类下的一个方法,而非运算符。所以只有引用数据类型才可以使用 equals()方法,基本数据类型不能使用 equals()方法; object类下的equals()源码 public boolean equals(Object obj) {return (this…...
使用 potrace.js实现图像矢量化教程
在现代Web开发中,将位图转换为矢量图形的需求日益增加。矢量图形具有可缩放性、无损质量等优点,适用于多种应用场景,如图标设计、数据可视化和响应式网页设计。potrace.js 是一个基于浏览器的JavaScript库,它实现了著名的Potrace算…...
C++后端服务器开发技术栈有哪些?有哪些资源或开源库拿来用?
一、 C后台服务器开发是一个涉及多方面技术选择的复杂领域,特别是在高性能、高并发的场景下。以下是C后台服务器开发的一种常见技术路线,涵盖了从基础到高级的技术栈。 1. 基础技术栈 C标准库 C11/C14/C17/C20:使用现代C特性,如…...
基于DeepSeek与搜索引擎构建智能搜索摘要工具
基于DeepSeek与搜索引擎构建智能搜索摘要工具 1. 项目概述 本项目通过整合DuckDuckGo搜索引擎与DeepSeek大语言模型,实现了一个智能搜索摘要生成工具。系统可自动执行以下流程: 输入查询语句进行全网搜索获取并解析搜索结果调用AI模型生成结构化摘要输出带来源标注的专业级…...
基于Asp.net的零食购物商城网站
作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…...
springboot的实体类字段校验的分组校验
分组校验(Group Validation)允许在不同的场景下对同一个实体类应用不同的校验规则。例如,在新增数据和更新数据时,可能需要对某些字段的校验规则进行调整。以下是分组校验的具体实现步骤: 一、定义分组接口 创建空的标…...
ESP8266UDP透传
1. 配置 WiFi 模式 ATCWMODE3 // softAPstation mode 响应 : OK 2. PC 连⼊入 ESP8266 softAP 就是连接wifi 3.查询ESP8266设备的IP地址 ATCIFSR 响应: CIFSR: APIP, "192.168.4.1" CIFSR: APMAC, "1a: fe: 34: a5:8d: c6" CIFSR: STAIP, "192.…...
UE5从入门到精通之如何创建自定义插件
前言 Unreal 的Plugins插件系统中有很多的插件供大家使用,包括官方的和第三方的,这些插件不仅能帮我我们实现特定功能,还能够提升我们的工作效率。 所以我们今天就来自己创建一个自定义插件,如果我们想实现什么特定的功能,我们也可以发布到商店供大家使用了。 创建插件 …...
