当前位置: 首页 > article >正文

线上故障排查与应急响应实战:从零开始建立你的SRE体系

线上故障排查与应急响应实战从零开始建立你的SRE体系大家好我是迪哥。2024 年我们的线上故障平均恢复时间MTTR是 45 分钟2025 年降到了 10 分钟怎么做到的靠的是完善的应急响应机制和故障排查手册。今天就把压箱底的经验分享给大家。故障分级优先级明确级别定义响应时间负责人P0全站不可用/核心交易链路不可用立即5分钟内响应技术负责人 各模块负责人P1重要功能不可用/用户大面积受影响15分钟内响应对应模块负责人P2小范围功能异常/不影响核心流程1小时内响应开发工程师P3提示性问题/UI 小瑕疵1天内响应前端/产品应急响应流程P0 级1. 接警与确认0-5 分钟告警来源Prometheus 告警系统级SkyWalking 告警链路级监控大盘业务级用户反馈确认动作# 1. 检查服务状态 kubectl get pods -n prod # 2. 查看日志最近 500 行 kubectl logs --tail500 -n prod deploy/order-service # 3. 检查错误率 curl http://prometheus/api/v1/query?queryerror_rate2. 止血5-15 分钟优先用这三招回滚新版本上线后出问题立即回滚上一版本kubectl rollout undo deployment/order-service -n prod限流熔断流量过大导致雪崩立即限流Sentinel 控制台调整限流规则网关层面限流降级非核心功能直接关掉GetMapping(/api/feature-not-important) public Result feature() { if (isDegrade()) { return Result.success(功能维护中暂不可用); } // 正常逻辑 }3. 排查15-30 分钟黄金 5 条命令# 1. 看 CPU/内存 top htop # 2. 看日志 tail -f /var/log/app/error.log grep Exception /var/log/app/error.log # 3. 看网络 netstat -anp ss -s # 4. 看 GC jstat -gcutil pid 1000 10 # 5. 看线程堆栈 jstack pid thread.dump jmap -dump:formatb,fileheap.hprof pid排查思路看监控从大盘找到异常指标看日志找到错误堆栈看链路用 SkyWalking 找到慢/错误 Trace想变更最近上线了什么查依赖数据库/MQ/Redis 挂了吗4. 恢复与复盘30 分钟问题解决验证业务正常复盘会24 小时内完成5 Whys 分析法写出详细故障报告制定改进计划常见故障排查手册故障 1OOM内存溢出现象Pod 反复 Crash状态是 OOMKilledJVM 日志有OutOfMemoryError排查# 1. 导出堆 kubectl cp pod:/app/dump.hprof ./dump.hprof # 2. MAT 分析 # 重点看大对象、内存泄漏解决短期调大-Xmx长期修复内存泄漏故障 2数据库慢查询导致雪崩现象数据库 CPU 100%应用请求超时错误率飙升排查-- 1. 查慢日志 SHOW VARIABLES LIKE slow_query%; -- 2. 查正在执行的 SQL SELECT * FROM information_schema.processlist WHERE command ! Sleep ORDER BY time DESC; -- 3. EXPLAIN 分析 EXPLAIN SELECT * FROM orders WHERE status 0;解决加索引优化 SQL限流或降级该功能故障 3微服务雪崩现象A 服务挂了导致 B、C 都跟着挂连接池耗尽排查SkyWalking 看拓扑图看哪个服务错误率最高解决熔断降级快速扩容优先恢复核心服务演练定期做 Chaos Monkey// Chaos Monkey 测试随机杀 Pod public class ChaosMonkey { public static void main(String[] args) { // 每 10 分钟随机杀一个 Pod仅在测试环境 while (true) { killRandomPod(); Thread.sleep(TimeUnit.MINUTES.toMillis(10)); } } }应急响应 CheckList序号检查项状态1核心服务是否正常⬜2最近是否有变更⬜3数据库/Redis/MQ 是否正常⬜4错误率/延迟是否有异常⬜5日志中是否有明显报错⬜6是否已尝试回滚/限流/降级⬜7是否已通知相关人员⬜经验总结止血优先不要死磕根因先恢复服务回滚是第一选择大部分故障由变更导致平时要演练不要到故障时才发现命令不会敲文档要完善尤其是应急手册复盘要落地只说不做下次还会出同样问题说到故障排查我家那只叫 Docker 的哈士奇最近拆家越来越有经验先咬沙发腿核心服务再咬靠垫非核心我现在练出 5 分钟内就能制止它的应急响应能力 我是迪哥我们下期再见往期推荐《系统容量规划与压测实战》《Spring Cloud Alibaba 微服务全家桶》

相关文章:

线上故障排查与应急响应实战:从零开始建立你的SRE体系

线上故障排查与应急响应实战:从零开始建立你的SRE体系 大家好,我是迪哥。2024 年我们的线上故障平均恢复时间(MTTR)是 45 分钟,2025 年降到了 10 分钟,怎么做到的?靠的是完善的应急响应机制和故…...

服务网格实战:Istio与Linkerd对比选型与落地实践

服务网格实战:Istio与Linkerd对比选型与落地实践 大家好,我是迪哥。服务网格(Service Mesh)是微服务架构的基础设施层,负责服务间的通信、安全、监控和治理。从 Istio 到 Linkerd,我们对比了多种方案&#…...

基于微信小程序的疫苗预约管理系统的设计与实现

第1章 绪 论本章对疫苗预约管理系统的背景进行了研究和分析,并且对目前疫苗预约管理系统所存在的问题做了简单的分析,接着论述了选题的重要性以及现实意义,通过研究疫苗预约管理系统类系统的发展历程,给后面系统需求分析和设计打下…...

图表数据提取神器:3个步骤让WebPlotDigitizer帮你从图片中“挖“出宝贵数据

图表数据提取神器:3个步骤让WebPlotDigitizer帮你从图片中"挖"出宝贵数据 【免费下载链接】WebPlotDigitizer Computer vision assisted tool to extract numerical data from plot images. 项目地址: https://gitcode.com/gh_mirrors/we/WebPlotDigiti…...

3步掌握DownKyi:让你的B站视频收藏效率提升300%

3步掌握DownKyi:让你的B站视频收藏效率提升300% 【免费下载链接】downkyi 哔哩下载姬downkyi,哔哩哔哩网站视频下载工具,支持批量下载,支持8K、HDR、杜比视界,提供工具箱(音视频提取、去水印等)…...

苹果M1/M2芯片跑自监督学习:统一内存与Metal后端实战指南

1. 项目概述:为什么苹果自研芯片正在悄悄改写AI训练的底层逻辑最近三个月,我陆续在三台不同配置的Mac上跑通了SimCLR、BYOL和MoCo v3这三套主流自监督学习(SSL)模型的完整训练流程——不是跑个demo,而是用ImageNet-1K子…...

AI气象模型统一基准:可复现、多源真值、时空一致的评测标尺

1. 这不是又一个“天气数据集”,而是一把标尺:为什么AI气象建模急需统一基准“AI Weather Models”这个词组最近两年在气象学会议、AI顶会和工业界技术白皮书里出现的频率,已经快赶上“大模型”本身了。但我和团队在去年参与三个不同机构的AI…...

AI系统6%误差率为何触发链式崩溃?生产级监控实战指南

1. 项目概述:当6%的失误率成为系统性风险的临界点“The 6% Problem: Why AI Safety Monitoring Isn’t Optional Anymore”这个标题乍看像一篇科技评论,但在我过去十年参与过27个AI系统落地项目(涵盖金融风控、医疗辅助诊断、工业质检、政务智…...

B-Parameter小模型:精度、速度与成本的帕累托最优

1. 小模型正在悄悄改写游戏规则:为什么10B参数的模型能干翻100B巨兽?最近在几个技术团队做模型选型咨询,几乎每场讨论都会有人抛出这个问题:“我们业务场景明明很垂直,推理延迟要求严苛,GPU显存还卡在24G&a…...

机器学习的几何本质:形状、距离与意义的三层重构

1. 这不是数学课,而是一场关于“机器如何看懂世界”的底层解剖你有没有想过,当一台机器识别出照片里是一只猫,它到底“看见”了什么?不是毛色、不是胡须、不是圆眼睛——它看见的是一组高维空间里的点云分布,是这些点之…...

TAO循环:构建可测试、可监控的AI智能体行为闭环

1. 项目概述:这不是在写提示词,是在搭建一个微型认知操作系统 “Beyond the Prompt: Engineering the ‘Thought-Action-Observation’ Loop”——这个标题乍看像一篇AI哲学论文,但实操起来,它根本不是在教你怎么写更花哨的promp…...

OBS多平台直播插件:一次推流,全网同步的终极解决方案

OBS多平台直播插件:一次推流,全网同步的终极解决方案 【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン 项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 你是否曾经想过,一场精彩的直播内容可以同时出现…...

BlockingQueue实现原理与生产者消费者模式

前言 在现代软件开发中,BlockingQueue实现原理与生产者消费者模式是一个非常重要的技术点。本文将从原理到实践,带你深入理解这一技术,并通过完整的代码示例帮助你快速掌握核心知识点。 核心概念 基本原理 BlockingQueue实现原理与生产者消费…...

TPU加速GAN训练:从Colab实操到混合精度调优

1. 项目概述:为什么在Kaggle/Colab上用TPU训GAN不是“炫技”,而是刚需你有没有试过在笔记本电脑上跑一个DCGAN,等了47分钟,loss曲线刚抖两下,风扇就发出濒死的哀鸣?或者在普通GPU上训StyleGAN2,…...

终极指南:使用Python脚本突破百度网盘限速壁垒

终极指南:使用Python脚本突破百度网盘限速壁垒 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 在云存储服务日益普及的今天,百度网盘凭借其庞大的用户基…...

TPU加速GAN训练实战:从设备配置到FID达标完整指南

1. 项目概述:为什么用TPU跑GAN不是“炫技”,而是解决实际瓶颈的刚需你有没有在Kaggle或Colab上训练过DCGAN、StyleGAN2或者哪怕一个简化版的WGAN?我试过——在单块P100 GPU上跑一个6464分辨率的生成器,50个epoch要花3小时17分钟&a…...

N_m3u8DL-CLI-SimpleG:一键下载M3U8视频的终极图形界面工具

N_m3u8DL-CLI-SimpleG:一键下载M3U8视频的终极图形界面工具 【免费下载链接】N_m3u8DL-CLI-SimpleG N_m3u8DL-CLIs simple GUI 项目地址: https://gitcode.com/gh_mirrors/nm3/N_m3u8DL-CLI-SimpleG 你是否曾经想要保存在线视频却因为复杂的M3U8格式而束手无…...

使用TaotokenCLI工具一键配置开发环境与模型密钥

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 使用Taotoken CLI工具一键配置开发环境与模型密钥 在接入大模型进行开发时,手动配置API密钥、Base URL和模型ID是常见的…...

SVM实战手记:从核函数选择到上线避坑的工程指南

1. 这不是数学课,是帮你把SVM用对、用稳、用出效果的实战手记你打开一篇SVM教程,三行之后就卡在“最大间隔超平面”“核函数映射到高维空间”“拉格朗日对偶问题”上——不是你基础差,是绝大多数资料从一开始就走错了路:它们把SVM…...

战略视角:如何用AI自动化重构团队工作流

战略视角:如何用AI自动化重构团队工作流 【免费下载链接】midscene AI-powered, vision-driven UI automation for every platform. 项目地址: https://gitcode.com/GitHub_Trending/mid/midscene 在数字化加速的时代,企业面临的核心挑战不再是技…...

k-Mode聚类算法原理与手写实现:专治分类数据的无监督学习利器

1. 项目概述:为什么k-Mode不是k-Means的“换皮版”,而是一把专治分类数据的手术刀你有没有遇到过这样的场景:手头有一批客户数据,字段全是“性别:男/女”、“城市:北京/上海/广州”、“会员等级&#xff1a…...

文档下载神器kill-doc:如何快速免费下载30+平台的文档资源

文档下载神器kill-doc:如何快速免费下载30平台的文档资源 【免费下载链接】kill-doc 看到经常有小伙伴们需要下载一些免费文档,但是相关网站浏览体验不好各种广告,各种登录验证,需要很多步骤才能下载文档,该脚本就是为…...

游戏AI如何迁移战略逻辑到现实决策系统

1. 项目概述:当机器开始玩我们的游戏,背后不是炫技,而是逻辑的迁移“当机器开始玩我们的游戏”——这句话乍听像科幻片开场白,但现实中它早已不是新闻。AlphaGo击败李世石那盘棋之后,很多人以为AI下棋只是算法碾压人类…...

MoE稀疏激活:大模型推理效率革命的核心原理与工程实践

1. 这不是参数堆砌,而是“动态稀疏激活”的工程革命你可能已经看到过那条刷屏的推文:“GPT-4有1.8万亿参数,但每生成一个token只用其中2%。”——这句话像一道闪电劈开了大模型圈的认知惯性。它背后根本不是在炫耀数字有多吓人,而…...

游戏AI战略逻辑:状态建模、奖励设计与实时决策三要素

1. 项目概述:当机器开始玩我们的游戏,背后不是炫技,而是逻辑的具象化“当机器开始玩我们的游戏”——这句话乍听像科幻片开场白,但现实中它早已不是新闻。AlphaGo击败李世石那盘棋之后,很多人以为AI下棋只是算法碾压人…...

如何3步快速配置罗技鼠标宏:PUBG零后坐力完整指南

如何3步快速配置罗技鼠标宏:PUBG零后坐力完整指南 【免费下载链接】logitech-pubg PUBG no recoil script for Logitech gaming mouse / 绝地求生 罗技 鼠标宏 项目地址: https://gitcode.com/gh_mirrors/lo/logitech-pubg 还在为《绝地求生》中难以控制的武…...

Unity渐变透明效果实现原理与生产级方案

1. 这不是调个Alpha值那么简单:为什么90%的Unity透明效果都“假”得明显 在Unity项目里做淡入淡出,很多人第一反应就是 renderer.material.color new Color(1,1,1,0.5f) ——改个alpha完事。我刚入行那会儿也这么干,直到上线前被美术揪着耳…...

如何高效使用小红书下载工具:简单实用的完整教程

如何高效使用小红书下载工具:简单实用的完整教程 【免费下载链接】XHS-Downloader 小红书(XiaoHongShu、RedNote)链接提取/作品采集工具:提取账号发布、收藏、点赞、专辑作品链接;提取搜索结果作品、用户链接&#xff…...

129、运动控制中的软件架构:分层设计

运动控制中的软件架构:分层设计 从一次半夜的电机啸叫说起 凌晨两点,车间里只剩示波器的荧光。我盯着那根诡异的电流波形——电机在低速运行时发出刺耳的啸叫,像指甲划过黑板。PID参数调了无数遍,滤波器换了好几种,问题依旧。直到我打开同事留下的代码,发现他把电流环、…...

拯救者工具箱:如何用开源工具完全掌控你的联想游戏本性能

拯救者工具箱:如何用开源工具完全掌控你的联想游戏本性能 【免费下载链接】LenovoLegionToolkit Lightweight Lenovo Vantage and Hotkeys replacement for Lenovo Legion laptops. 项目地址: https://gitcode.com/gh_mirrors/le/LenovoLegionToolkit 你是否…...