当前位置: 首页 > article >正文

从一次线上事故复盘说起:我们是如何用SLI和SLO定责并改进系统稳定性的

从一次购物车故障复盘看SLI/SLO的工程实践价值凌晨2点15分电商平台的监控大屏突然亮起刺眼的红色——购物车下单成功率在10分钟内从99.98%暴跌至76%。值班工程师的钉钉群瞬间被用户投诉截图淹没而更棘手的是促销活动还有3小时就要开始。这场持续47分钟的故障最终导致直接损失230万元订单也让我们彻底重新理解了SLI和SLO在故障管理中的实战意义。1. 事故现场当指标开始说谎那个灾难性的夜晚值班仪表盘显示所有服务状态正常CPU负载60%、容器内存余量充足、数据库QPS远低于阈值。但用户端却持续反馈下单失败错误这种监控与体验的割裂暴露了指标体系的致命缺陷。我们原用的伪SLI服务端HTTP 200状态码比例99.99%API平均响应时间300ms容器重启次数0次/小时实际应监控的真SLI# 真实业务成功率计算逻辑事后补充 def calculate_real_sli(): successful_orders count_orders_with(payment_statuscompleted) failed_orders count_orders_with( payment_statusfailed, error_type[stock_out, coupon_invalid, address_error] # 业务级错误 ) return successful_orders / (successful_orders failed_orders)关键教训SLI必须反映用户真实体验而非技术中间指标。当我们的成功响应包含库存不足、优惠券失效等业务错误时HTTP状态码这个SLI就彻底失效了。2. 定责攻防战SLO如何终结扯皮复盘会议上各团队最初陷入经典扯皮循环前端接口返回都是200是后端业务逻辑问题订单服务我们只负责生成订单支付是支付系统的事支付系统风控策略拒绝的订单不该算故障直到SRE团队调出事先签订的《SLO等级协议》系统模块SLO指标计算方式达标情况购物车聚合层下单成功率≥99.7%按周(成功支付订单数/提交订单数)×100%82.3%库存服务库存准确性≥99.9%实际扣减与预占库存差异率99.2%支付网关支付成功率≥99.5%银行通道返回的成功支付比例99.6%这份用三个月打磨的SLO协议瞬间让责任清晰化——购物车聚合层未能将业务错误正确归类导致SLI计算失真属于典型的设计缺陷。3. 从监控到改进SLO驱动的四步修复法3.1 指标体系重构建立分层监控体系用户体验层真实下单成功率、关键路径加载时间业务逻辑层库存预占/扣减一致性、优惠券核销率基础设施层容器OOM次数、数据库死锁率# 新版监控配置示例Prometheus - name: checkout_sli rules: - record: sli:checkout_success_rate expr: | sum(rate(checkout_requests_total{statuscompleted}[5m])) / sum(rate(checkout_requests_total{status!canceled}[5m]))3.2 告警阈值优化采用动态基线算法替代固定阈值def dynamic_threshold(current): # 结合历史同期数据与增长趋势计算 baseline get_historical_avg(weekdaycurrent.weekday(), hourcurrent.hour) trend predict_growth_rate() return baseline * (1 trend * 0.3) # 保留30%缓冲空间3.3 故障演练机制每月进行破坏性测试验证SLO有效性随机选择非核心服务注入故障如故意返回库存不足观察监控系统是否在SLO允许的5分钟窗口内告警验证应急流程的实际执行效率3.4 容量模型迭代基于SLO反推系统容量所需实例数 (预测峰值QPS × SLO响应时间) / (单实例处理能力 × 可用性系数)其中可用性系数1/(1-SLO允许故障率)如99.9% SLO对应系数≈10004. 文化变革当SLO成为团队通用语言这次事故后我们建立了跨团队的SLO协作机制每周SLO评审会流程各服务负责人汇报关键SLI趋势分析距离SLO边界的剩余错误预算投票决定将有限资源投入哪个改进方向错误预算的实际运用案例当支付系统连续三周保持99.98%成功率高于99.5%的SLO团队决定将原计划用于支付优化的2人周资源转投到购物车服务的技术债清理这种基于数据的决策彻底改变了以往凭感觉分配资源的模式。在最近一次大促中当订单量突增300%时系统自动触发了基于SLO的降级策略暂时关闭商品推荐功能保障核心下单链路。这背后是我们在SLO中明确定义的优先级体系功能模块SLO等级可降级条件降级动作购物车结算P0成功率99%持续2分钟关闭非必要校验商品详情页P1响应时间2s持续5分钟启用静态化缓存推荐引擎P2CPU80%持续10分钟返回通用推荐结果这场价值230万的故障课最终让我们明白好的SLI/SLO实践不是墙上挂着的漂亮图表而是刻在团队DNA里的决策框架。当开发者在代码评审时主动询问这个改动会影响哪个SLO当运维人员看着错误预算安排系统升级窗口——这才是稳定性工程真正成熟的标志。

相关文章:

从一次线上事故复盘说起:我们是如何用SLI和SLO定责并改进系统稳定性的

从一次购物车故障复盘看SLI/SLO的工程实践价值 凌晨2点15分,电商平台的监控大屏突然亮起刺眼的红色——购物车下单成功率在10分钟内从99.98%暴跌至76%。值班工程师的钉钉群瞬间被用户投诉截图淹没,而更棘手的是,促销活动还有3小时就要开始。这…...

MIUI自动化任务工具:解放双手的终极小米社区助手

MIUI自动化任务工具:解放双手的终极小米社区助手 【免费下载链接】miui-auto-tasks 一个自动化完成小米社区任务的脚本 项目地址: https://gitcode.com/gh_mirrors/mi/miui-auto-tasks MIUI自动化任务工具是一款专为小米社区用户设计的智能脚本,能…...

LFM2.5-VL-1.6B效果实测:多语言图片描述与OCR文档理解案例分享

LFM2.5-VL-1.6B效果实测:多语言图片描述与OCR文档理解案例分享 1. 模型概览与核心能力 LFM2.5-VL-1.6B是Liquid AI推出的轻量级多模态模型,专为边缘设备和端侧应用优化。这个1.6B参数的视觉语言模型(1.2B语言400M视觉)在保持小巧…...

AUTOSAR唤醒校验:从事件检测到通道激活的完整流程解析

1. AUTOSAR唤醒流程概述 在汽车电子系统中,ECU(电子控制单元)的唤醒机制至关重要。想象一下你的车钥匙按下解锁按钮时,整个车载系统从休眠状态被唤醒的过程,这就是典型的唤醒场景。AUTOSAR标准为这种唤醒流程提供了一套…...

Mesa 3.0:基于模块化架构与AgentSet API的Python多智能体建模技术突破

Mesa 3.0:基于模块化架构与AgentSet API的Python多智能体建模技术突破 【免费下载链接】mesa Mesa is an open-source Python library for agent-based modeling, ideal for simulating complex systems and exploring emergent behaviors. 项目地址: https://git…...

OpenClaw从入门到应用——Agent:消息(Messages)

通过OpenClaw实现副业收入:《OpenClaw赚钱实录:从“养龙虾“到可持续变现的实践指南》 本页整合了 OpenClaw 处理入站消息、会话、队列、流式传输以及推理可见性的方式。 消息流程(高层视图) 入站消息-> 路由/绑定 -> 会…...

Perseus开源补丁:3步解锁《碧蓝航线》全皮肤功能指南

Perseus开源补丁:3步解锁《碧蓝航线》全皮肤功能指南 【免费下载链接】Perseus Azur Lane scripts patcher. 项目地址: https://gitcode.com/gh_mirrors/pers/Perseus 还在为《碧蓝航线》中那些精美的限定皮肤无法使用而烦恼吗?Perseus开源补丁为…...

leetcode 1855. 下标对中的最大距离 中等

给你两个 非递增 的整数数组 nums1​​​​​​ 和 nums2​​​​​​ &#xff0c;数组下标均 从 0 开始 计数。下标对 (i, j) 中 0 < i < nums1.length 且 0 < j < nums2.length 。如果该下标对同时满足 i < j 且 nums1[i] < nums2[j] &#xff0c;则称之为…...

截图工具成“内鬼“:CVE-2026-33829 NTLM哈希泄露漏洞深度解析与防御指南

引言 2026年4月14日&#xff0c;微软在月度补丁星期二更新中修复了一个看似不起眼却暗藏巨大风险的漏洞——Windows截图工具(Snipping Tool)中的NTLM凭据哈希泄露漏洞(CVE-2026-33829)。这个CVSS评分仅为4.3的"中危"漏洞&#xff0c;却因为其极低的利用门槛、广泛的…...

MYSQL——基础知识(SQL的临时表和克隆表)

目录 前言 一、MySQL 临时表&#xff1a;会话级的“草稿纸” 二、MySQL 克隆表&#xff1a;完整复制表结构与数据 三、临时表 vs 克隆表&#xff1a;对比总结 四、最佳实践建议 五、总结 前言 在 MySQL 开发与运维中&#xff0c;临时表&#xff08;Temporary Table&…...

基于LangChain构建AI社交媒体智能体:自动化内容发布与互动实践

1. 项目概述&#xff1a;一个能帮你打理社交媒体的AI智能体最近在GitHub上看到一个挺有意思的项目&#xff0c;叫langchain-ai/social-media-agent。光看名字&#xff0c;你大概就能猜到它的核心功能&#xff1a;一个基于LangChain框架构建的、能够自动化处理社交媒体任务的AI智…...

告别混乱的Excel表格:我是如何用NetBox + Python脚本实现网络资产自动化管理的

从Excel到NetBox&#xff1a;网络资产管理的自动化革命 凌晨三点&#xff0c;我盯着屏幕上第37个版本的IP地址分配表&#xff0c;突然意识到自己陷入了数据地狱——这份由五个同事轮流维护的Excel表格里&#xff0c;相同的设备出现了三种命名规则&#xff0c;某个网段的子网掩…...

保姆级教程:用Python+OpenCV玩转双目视觉,从相机标定到SGBM立体匹配全流程

PythonOpenCV双目视觉实战&#xff1a;从标定到深度图生成的避坑指南 刚接触双目视觉时&#xff0c;我对着两个摄像头拍出的图像发愁——明明是人眼轻松实现的立体感知&#xff0c;用代码实现却处处是坑。本文将带你用Python和OpenCV搭建完整的双目视觉流水线&#xff0c;从相机…...

告别黑屏!手把手教你用ZYNQ PS端库函数正确驱动VDMA,搞定OV5640实时显示

从寄存器到库函数&#xff1a;ZYNQ VDMA驱动开发的进阶实践 在ZYNQ平台上实现OV5640摄像头到LCD屏幕的实时显示&#xff0c;VDMA&#xff08;Video Direct Memory Access&#xff09;配置是关键环节。许多开发者习惯直接操作寄存器&#xff0c;这种方式直观但维护性差&#xff…...

如何快速掌握开源思源宋体:开发者的终极免费字体解决方案

如何快速掌握开源思源宋体&#xff1a;开发者的终极免费字体解决方案 【免费下载链接】source-han-serif-ttf Source Han Serif TTF 项目地址: https://gitcode.com/gh_mirrors/so/source-han-serif-ttf 还在为中文排版设计寻找合适的字体而烦恼吗&#xff1f;Source Ha…...

Prometheus告警规则进阶:精准规避Kubernetes Pod启动误报

1. 为什么Pod启动会触发误报警&#xff1f; 在Kubernetes集群中部署应用时&#xff0c;最让人头疼的问题之一就是频繁收到Pod启动阶段的误报警。这个问题我深有体会&#xff0c;特别是在负责算法服务集群维护的那段时间。每次发版后&#xff0c;手机就会收到一堆告警通知&#…...

MusicFreePlugins:打破音乐平台壁垒的终极免费聚合方案

MusicFreePlugins&#xff1a;打破音乐平台壁垒的终极免费聚合方案 【免费下载链接】MusicFreePlugins MusicFree播放插件 项目地址: https://gitcode.com/gh_mirrors/mu/MusicFreePlugins 厌倦了在不同音乐应用间频繁切换&#xff1f;受够了VIP会员墙和地域版权限制&am…...

MusicFreePlugins:打破音乐平台壁垒,打造你的专属音乐聚合器

MusicFreePlugins&#xff1a;打破音乐平台壁垒&#xff0c;打造你的专属音乐聚合器 【免费下载链接】MusicFreePlugins MusicFree播放插件 项目地址: https://gitcode.com/gh_mirrors/mu/MusicFreePlugins 还在为音乐版权限制和VIP付费墙烦恼吗&#xff1f;MusicFreePl…...

AWDP防御效率翻倍秘籍:手把手教你写自动化Patch脚本(附PHP/Python/Go/Node.js模板)

AWDP防御效率翻倍秘籍&#xff1a;手把手教你写自动化Patch脚本&#xff08;附PHP/Python/Go/Node.js模板&#xff09; 在AWDP这类高强度攻防对抗赛中&#xff0c;防御环节的效率往往决定了最终排名。当其他队伍还在手动上传补丁时&#xff0c;你的团队已经通过自动化脚本完成…...

一篇搞定git

1. Git概述 1.1 Git简介 Git 是一个分布式版本控制工具&#xff0c;通常用来对软件开发过程中的源代码文件进行管理。通过Git 仓库来存储和管理这些文件&#xff0c;Git 仓库分为两种&#xff1a; 本地仓库&#xff1a;开发人员自己电脑上的 Git 仓库 远程仓库&#xff1a;远…...

Beyond the WORM with MinIO object storage

I find the terminology of WORM (Write Once Read Many) coming back into the IT speak in recent years. In the era of rip and burn, WORM was a natural thing where many of us “youngsters” used to copy files to a blank CD or DVD. I got know about how WORM wor…...

Hermes Agent简介

1、Hermes Agent 是什么&#xff1f;Hermes Agent 是由 Nous Research 在 2026 年 2 月开源发布的一款自进化 AI 智能体框架&#xff0c;采用 MIT 协议&#xff0c;完全免费可商用 。它的核心定位不是简单的聊天机器人或代码补全工具&#xff0c;而是一个部署在你自己服务器上、…...

从路由器到服务器:OpenWRT、Yocto、Buildroot与Ubuntu的嵌入式与通用之路

1. 嵌入式与通用系统的技术光谱 当你面对一个物联网设备开发项目时&#xff0c;第一个要解决的问题往往是&#xff1a;该选择哪种操作系统或构建框架&#xff1f;这个问题没有标准答案&#xff0c;关键在于理解你的项目在"嵌入式-通用"这个技术光谱上的位置。我做了1…...

FP8浮点运算原理与深度学习优化实践

1. FP8浮点运算基础与设计原理在深度学习和大规模矩阵运算领域&#xff0c;浮点计算精度的选择一直是性能与准确率权衡的关键。传统FP32&#xff08;单精度&#xff09;和FP16&#xff08;半精度&#xff09;虽然能提供足够的数值精度&#xff0c;但在计算密集场景下存在明显的…...

欧姆龙NJ/NX系列PLC FINS通信实战:在Ignition SCADA中配置数据采集的完整流程

欧姆龙NJ/NX系列PLC FINS通信实战&#xff1a;在Ignition SCADA中配置数据采集的完整流程 工业自动化系统的核心在于设备间的无缝通信。作为欧姆龙新一代控制器的代表&#xff0c;NJ/NX系列PLC凭借其高性能和可靠性&#xff0c;在智能制造领域占据重要地位。而FINS协议作为欧姆…...

Windows 电脑安装安卓应用的轻量级解决方案:APK 安装器

Windows 电脑安装安卓应用的轻量级解决方案&#xff1a;APK 安装器 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否曾希望在 Windows 电脑上运行安卓应用&#x…...

告别死板ALV:手把手教你用ABAP为报表添加智能双击交互(含代码复用技巧)

告别死板ALV&#xff1a;手把手教你用ABAP为报表添加智能双击交互&#xff08;含代码复用技巧&#xff09; 在SAP开发领域&#xff0c;ALV报表作为数据展示的标准组件&#xff0c;其交互体验直接影响用户效率。传统ALV双击事件处理往往陷入"一次开发&#xff0c;无法复用&…...

VSCode打造车规级开发环境:从AUTOSAR兼容配置到CANoe集成调试,12步零错误落地实录

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;VSCode车载开发环境的战略定位与车规级意义 在智能网联汽车加速落地的背景下&#xff0c;VSCode 已超越传统编辑器角色&#xff0c;演变为符合 ISO 26262 ASIL-B 级别开发要求的轻量化集成开发平台。其…...

探究 libhv Socketpair 在 clumsy 模拟延迟下的“超时”之谜

前言在进行网络编程开发时&#xff0c;我们经常使用 libhv 这种高性能的网络库&#xff0c;并利用 clumsy 等工具模拟弱网环境。最近在 Windows 环境下&#xff0c;当开启 clumsy 的 inbound 和 outbound 双向延迟&#xff08;20ms&#xff09;时&#xff0c;发现 libhv 的 Soc…...

2026 年 5 月・高项第 7 章 立项管理|精准预测 + 必刷练习题

一、2026 年 5 月 必考预测(5 题稳稳覆盖) 立项管理完整流程(排序题必考) 项目建议书 4 大核心内容(单选 / 多选) 四大可行性:技术 / 经济 / 法律 / 社会(场景判断题必考 1 题) 初步可行性 vs 详细可行性(精度、作用、是否可省略) 成本效益指标:投资回收期、NPV、I…...