DevOps 事后分析
众所周知,系统的变化会带来不稳定,进而引发事故。迁移到 DevOps 使世界各地的组织能够以更小的增量和更高的频率进行发布。这降低了特定版本中失败的风险。另一方面,增加发布数量并不一定会减少待命团队需要响应的事件数量。
事件响应团队的主要职责是量化影响,并在必要时减轻影响。结果,服务恢复到正常运行状态。分析根本原因并实施预防措施不属于这个过程。现在,如果不进行这样的学习和分析,根本原因就得不到解决,预防措施也得不到落实。结果是:事件开始成倍增加,级联错误成为每周例行公事的一部分。最终,DevOps 团队花在事件响应上的时间越来越多,服务质量却不断下降。
进行尸检
为了避免这种死亡螺旋,您的团队必须承认需要从过去中学习以建设更美好的未来。这个学习过程称为事后分析(或post-mortem)。每当事件需要值班工程师做出响应时,就应该触发事后分析。典型的事后剖析从记录客观证据开始:
事件的触发因素
事件影响
检测和缓解的时间
采取的缓解措施
根本原因分析
根据上述证据,应该进行分析。分析通常由响应事件的待命团队成员执行,并且可能包括帮助缓解或分析根本原因的其他团队成员。分析过程需要找到以下问题的答案:
扳机。
我们收到了多少关于该事件的警报?
触发是否及时,或者我们可以提前注册吗?
影响
首先,影响是否足以引发事件?或者我们应该校准触发器吗?
是否采取了足够的措施来减轻影响并且是否遵循了流程?如果没有,我们是否需要投资培训或改进指南?
我们是否设法足够快地减轻影响?我们能做些什么来缩短缓解时间吗?
根本原因
根本原因会得到解决还是我们必须忍受它?
如果根本原因得到解决,那么我们到底需要做什么来解决呢?
根据分析,应撰写总结,包括吸取的教训以及登记和确定优先顺序的后续任务。后续任务通常包括:
解决根本原因的工程任务
DevOps 工程师改进监控设置的任务
管理者改进流程的任务
事后分析简介
向一个历史上从未进行过事后分析的组织引入事后分析并不像听起来那么容易。与每个新的或不断变化的流程一样,引入和持续变革需要组织各个级别的时间和精力。但是,有一些关键原则可以使更改变得更容易:
确保远离指责游戏和相互指责。这是让事情顺利进行的最关键的方面。如果分析的重点是指责造成事件的人,而不是确保团队学习和改进,那么这种举措就会造成伤害而不是好处。
指定专职领导,强制执行每个事件响应并进行事后分析。这些人往往来自 DevOps/on-call 团队,而且大多数情况下他们自己就是团队领导。
协作与分享。确保在适合共享和学习的媒介(例如维基)中记录事后分析。使用上个月的事后分析作为团队的定期学习材料。允许在事后分析期间和之后进行协作和评论。
涉及管理。表现出管理层的支持可以使工程师之间的宣传和教育变得更加容易。为了保持管理层的参与,提前制定目标并展示进展情况。你知道,经理们最喜欢的就是向上和向右的图表。
从小事做起。如果组织规模很大,那么从几个服务和一个团队开始就足以构建一个激励其他团队效仿的示例。最初的团队庆祝胜利通常足以让其他团队加入这股潮流。如果没有组织内部的积极榜样,那么引入变革就会困难得多。
事后检查清单
我们准备了一份清单,列出了您需要问自己的问题,以便以尽可能最好的方式进行 DevOps 事后分析。
检测
影响
对最终用户的影响
对生产力的影响
对基础设施的影响
减轻
缓解时间
缓解步骤#1
缓解步骤#2
根本原因分析
得到教训
后续行动
任务#1(检测/缓解/处理)
任务#2(检测/缓解/处理)
任务#3(检测/缓解/处理)
相关文章:
DevOps 事后分析
众所周知,系统的变化会带来不稳定,进而引发事故。迁移到 DevOps 使世界各地的组织能够以更小的增量和更高的频率进行发布。这降低了特定版本中失败的风险。另一方面,增加发布数量并不一定会减少待命团队需要响应的事件数量。 事件响应团队的…...
fastdfs-client-java-1.30 maven 打包安装
1. 进入源代码目录,打开cmd mvn clean install 或者 mvn package 问题不大的话会在同级目录target目录下生成打包后文件 2. 当前目录下cmd进行maven安装 mvn install:install-file -DgroupIdorg.csource -DartifactIdfastdfs-client-java -Dversion${version} -D…...
【视觉SLAM十四讲学习笔记】第三讲——旋转矩阵
专栏系列文章如下: 【视觉SLAM十四讲学习笔记】第一讲——SLAM介绍 【视觉SLAM十四讲学习笔记】第二讲——初识SLAM 本章将介绍视觉SLAM的基本问题之一:如何描述刚体在三维空间中的运动? 旋转矩阵 点、向量和坐标系 三维空间由3个轴组成&…...
Linux驱动开发笔记(四):设备驱动介绍、熟悉杂项设备驱动和ubuntu开发杂项设备Demo
若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/134533533 红胖子网络科技博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片机、软硬…...
C/C++ 实现Windows注册表操作
Windows注册表(Registry)是Windows操作系统中用于存储系统配置信息、用户设置和应用程序数据的一个集中式数据库。它是一个层次结构的数据库,由键(Key)和值(Value)组成,这些键和值被…...
nginx 模块相关配置及结构理解
文章目录 模块配置结构模块配置指令先看一下 ngx_command_t 结构一个模块配置的demo简单模块配置的案例演示 模块上下文结构模块的定义 模块配置结构 Nginx中每个模块都会提供一些指令,以便于用户通过配置去控制该模块的行为。 Nginx的配置信息分成了几个作用域(sc…...
同时创建多个websoket(初始化多个连接、断开的重连、每个连接定时发消息、每个连接存储接收的数据(vuex或者pinia))
可复制现成代码直接使用!! 1.下边的例子演示了创建10个WebSocket 实例,当其中某一个连接失败时,会自动进行重连 <template><div></div> </template><script setup> import { ref, reactive, onMo…...
C语言——指针(一)
📝前言 这篇文章主要带大家初步认识一下指针,供大家理解参考。 主要归纳与讲解: 1,指针与指针变量 2,指针的基本使用(如何定义,初始化,引用) 🎬个人简介&…...
学习量化交易如何入门?
Python 量化入门很简单,只需 3 步就能快速上手! 题主在程序方向没有相关经验,今天就从量化行业的通用语言-Python 着手,教大家如何快速入门。 一、准备工作 在开始 Python 编程之前,首先需要确保你的计算机上安装了合适的 Pytho…...
CSS3动画
在CSS3中新增了一个很有意思的东西,那就是动画,有了动画我们可以做很多的事情,让我为大家介绍一下动画吧! 本篇文章关于介绍动画,利用小球移动为你们介绍一下动画 默认样式: <!DOCTYPE html> <ht…...
黑马点评-10实现用户点赞和点赞排行榜功能
用户点赞功能 如果用户只要点赞一次就对数据库中blog表中的liked字段的值加1就会导致一个用户无限点赞 PutMapping("/like/{id}") public Result likeBlog(PathVariable("id") Long id) {// 修改点赞数量,update tb_blog set liked liked 1 where id …...
Spring配置其他注解Spring注解的解析原理
Spring配置其他注解 Primary注解用于标注相同类型的Bean优先被使用权,Primary是Spring 3.0引入的,与Component和Bean一起使用,标注该Bean的优先级更高,则在通过类型获取Bean或通过Autowired根据类型进行注入时,会选用优…...
TypeScript 学习笔记 第一部分 语法基础
【视频链接】尚硅谷TypeScript教程(李立超老师TS新课) TypeScript 1. 类型1.1 | 联合类型1.2 字面量类型1.3 any 任意类型1.4 unkown 类型1.5 as 类型断言1.6 object 对象类型1.7 { } 对象类型1.8 ? 对象中的可选属性1.9 对象中的任意属性1.1…...
【element优化经验】怎么让element-ui中表单多语言切换排版不乱
目录 前言: 痛点: 1.左对齐,右对齐在中文和外语情况下字数不同,固定宽度会使名称换行,不在整行对齐,影响美观。 2.如果名称和输入框不在一行,会使页面越来越长 3.label-width值给变量&#…...
软件设计中如何画各类图之一实体关系图(ER图):数据库设计与分析的核心工具
目录 1 前言2 符号及作用:3 绘制清晰的ER图步骤4 实体关系图的用途5 使用场景6 实际应用场景举例7 结语 1 前言 当谈到数据库设计与分析的核心工具时,实体关系图(ER图)无疑是其中最重要的一环。在软件开发、信息管理以及数据库设…...
【神印王座】龙皓晨美妆胜过月夜,魔神皇识破无视,撮合月夜阿宝
Hello,小伙伴们,我是拾荒君。 《神印王座》国漫第82集已更新,拾荒君和大多数人一样,更新就去看了。魔神皇枫秀,威严凛然,突然空降月魔宫,整个宫殿都在这股无与伦比的强大气息中颤栗。为了顺利躲避魔神皇的…...
汽车级全保护型六路半桥驱动器NCV7708FDWR2G 原理、参数及应用
NCV7708FDWR2G 是一款全保护型六路半桥驱动器,特别适用于汽车和工业运动控制应用。六个高压侧和低压侧驱动器可自由配置,也可单独控制。因此可实现高压侧、低压侧和 H 桥控制。H 桥控制提供正向、逆向、制动和高阻抗状态。驱动器通过标准 SPI 接口进行控…...
【小技巧】MyBatis 中 SQL 写法技巧小总结
最近有个兄弟在搞mybatis,问我怎么写sql ,说简单一点mybatis就是写原生sql,官方都说了 mybatis 的动态sql语句是基于 OGNL表达式的。可以方便的在 sql 语句中实现某些逻辑. 总体说来mybatis 动态SQL 语句主要有以下几类: if 语句 (简单的条件…...
C#编程题分享(4)
换行输出整数问题 输⼊任意⼀个位数未知的整数,输出这个数每⼀位上的数字。输出的时候,从个位开始输出,每输出⼀个数字换⼀⾏。样例输⼊:3547 输出:7 换行输出 4 换行输出5 换行输出3 int n Convert.ToInt32(Conso…...
CTF靶场搭建及Web赛题制作与终端docker环境部署
♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ 写在前面 ╔═══════════════════════════════════════════════════…...
GBFR Logs:碧蓝幻想Relink玩家的终极DPS监控与数据分析工具
GBFR Logs:碧蓝幻想Relink玩家的终极DPS监控与数据分析工具 【免费下载链接】gbfr-logs GBFR Logs lets you track damage statistics with a nice overlay DPS meter for Granblue Fantasy: Relink. 项目地址: https://gitcode.com/gh_mirrors/gb/gbfr-logs …...
从微信语音到VoNR:深入聊聊5G时代‘打电话’背后的QoS优先级战争
从微信语音到VoNR:5G时代语音服务的质量争夺战 当微信语音通话成为日常,我们是否还需要运营商的传统语音服务?这个问题在5G时代有了更复杂的技术答案。每次按下通话按钮,背后都是一场关于服务质量(QoS)的隐形战争——互联网OTT应…...
生图新王GPT Image 2正式发布!彻底告别中文乱码,附无魔法国内稳定渠道
AI绘图圈又迎来了史诗级大地震!出乎所有人意料,OpenAI这次连发布会都没开,GPT-Image-2 就已经全量开放测试了。 目前,所有用户均可免费体验,但无论是免费用户还是付费用户,都会面临严格的额度限制。免费用…...
【仅限头部金融级用户知晓】Java 25 ZGC 2.0生产调优白皮书(含JFR采样模板与火焰图标注规范)
更多请点击: https://intelliparadigm.com 第一章:Java 25 ZGC 2.0 生产调优白皮书导论 ZGC 2.0 是 Java 25 中面向超低延迟场景的下一代垃圾收集器重大演进,其核心目标是将 GC 停顿时间稳定控制在 **1ms 以内**(P99 ≤ 0.8ms&am…...
tlbs-map-vue:解决Vue项目中地图集成难题的现代化组件方案
tlbs-map-vue:解决Vue项目中地图集成难题的现代化组件方案 【免费下载链接】tlbs-map-vue 基于腾讯位置服务 JavaScript API 封装的 Vue 版地图组件库 项目地址: https://gitcode.com/gh_mirrors/tl/tlbs-map-vue 在当今的前端开发中,地图功能已成…...
3分钟搭建完整KIMI AI免费API:解锁智能对话接口的终极解决方案
3分钟搭建完整KIMI AI免费API:解锁智能对话接口的终极解决方案 【免费下载链接】kimi-free-api 🚀 KIMI AI 长文本大模型逆向API【特长:长文本解读整理】,支持高速流式输出、智能体对话、联网搜索、探索版、K1思考模型、长文档解读…...
【2026.4】达利欧清华演讲:投资原则和大周期
达利欧《原则》:https://pan.xunlei.com/s/VOrDKWmluEcWHZdBKcYcGqYrA1?pwdp3e9# 更多:https://pan.xunlei.com/s/VOrDKa3yigihx-Rz0nfd8Wa-A1?pwdtw6g# "当前处于一生仅见的全球货币、格局和地缘秩序的系统性崩溃期。"——瑞达利欧 一、投…...
NCM格式解密完全指南:三分钟掌握网易云音乐转换核心技术
NCM格式解密完全指南:三分钟掌握网易云音乐转换核心技术 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 还在为网易云音乐下载的加密NCM文件无法在车载音响、手机播放器或其他设备上播放而烦恼吗?ncmdump项目…...
别再乱画UML了!用包图整理你的用例图和类图,让项目结构一目了然
用UML包图重构项目架构:从混乱到清晰的实战指南 当你的代码库膨胀到几十万行,当每次需求变更都引发连锁反应,当新成员需要三个月才能摸清模块边界——是时候重新审视项目的组织结构了。UML包图就像软件架构的GPS导航系统,它能将散…...
如何借助AI进行测试代码code review
成熟测试团队会产出大量自动化代码,因测试人员的经验和习惯原因,代码质量可能参差不齐,通常需要依靠专家code review(CR)来确保产出的测试代码质量,借助大模型进行CR已经成为一种趋势,可以提高CR效率和有效性。 大模型…...
