故障演练 | 微服务架构下如何做好故障演练
前言
微服务架构场景中,应用系统复杂切分散。长期运行时,局部出现故障时不可避免的。如果发生故障时不能进行有效反应,系统的可用性将极大地降低。
什么是故障演练
故障演练是指模拟生产环境中可能出现的故障,测试系统或应用在面对故障时的反应和响应能力。
故障演练可以模拟各种故障情况(网络故障、数据库故障、服务过载,CPU或内存异常等)。
为什么需要故障演练
故障演练是微服务架构下非常重要的实践,用以测试系统或应用在面对故障或缺陷时的反应表现及其恢复能力。
通过故障演练,至少可以在以下几方面获得收益:
- 提前发现、预测生成环境可能出现的部分故障,快速响应,防止故障扩散。
- 在演练中识别系统和应用程序的风险和漏洞,取必要的纠正措施。
- 改进团队响应流程 。 故障演练可以促进团队沟通、理解和协作,完善生产环境的排障流程。
故障演练的目标
故障演练的目标是尽可能模拟真实世界中的故障情况,战略性推动全面和深入的风险管理与测试。
故障演练的基本流程
故障演练大致可以分为:计划、演练、评价、改进四个阶段,其基本流程如下图所示。

云原生、微服务架构场景下故障模拟的挑战

- 微服务的架构复杂性:微服务由许多小型、相互依赖的服务组成,部署架构复杂。在演练过程中需要考虑服务间的交互和依赖。
- 演练环境难以复制:故障演练需要尽可能确保演练环境和生产环境的一致性。在微服务应用程序中,数据在多个服务之间相互流动,生成环境的数据和设施不一定能完全复制到演练环境。
- 监控和记录难度大 – 在微服务场景下,服务分散,通常需要更强大的监控和日志记录方案来跟踪故障的发生并找到它们的原因。
- 成本和资源问题:微服务架构通常会占用更多的计算、存储、网络资源,而且部署演练环境所需要的人力投入也更大。
- 团队协调:微服务架构下,系统通常是有不同的团队协作搭建的,因而故障演练也常常涉及到多个团队的协作沟通。
云原生、微服务场景下的故障演练工具
以下是云原生、微服务场景下常用的故障演练工具:
- Chaos Mesh:Chaos Mesh 是一个开源的云原生混沌工程平台,提供丰富的故障模拟类型,具有强大的故障场景编排能力,方便用户在开发测试中以及生产环境中模拟现实世界中可能出现的各类异常,帮助用户发现系统潜在的问题。
- Gremlin:这是一款用于可靠性测试和混沌工程的工具。可以模拟真实流量、人工输入等方式来模拟各种稳定性问题,如网络延迟、磁盘故障等,而不是仅仅使用硬编码的方法 simulations 的混沌工程平台。Gremlin 完全云托管,可在云和本地基础架构上使用。
- chaosmonkey:Chaos Monkey 负责随机终止生产中的实例,以确保工程师实施其服务以适应实例故障。
- Kube-monkey:kube-monkey 是 Netflix 的 Chaos Monkey for Kubernetes 集群的实现。这是一款开源的 Kubernetes 故障模拟工具。它随机删除集群中的 Kubernetes (k8s) Pod,鼓励和验证容错服务的开发。
- LitmusChaos:Litmus 是一个开源混沌工程平台,使团队能够通过以受控方式引入混沌测试来识别基础设施中的弱点和潜在中断。
如何进行故障演练
故障演练通常可以按照面的流程和步骤来进行:

演练前 | 确认演练对象与目标
- 确定演练对象,例如可以是整个系统,某个部分,或者某个服务等等;
- 确定演练目标,包括期望模拟出哪些故障场景,如网络故障,服务器故障,系统缓慢等等;
- 确定所需的数据和监控指标,以便评估演练质量和结果。
演练前 | 准备演练环境
- 确定演练环境(包括硬件、网络、安全等等),尽可能接近生产环境;
- 决定是否要使用模拟器或其他形式的虚拟基础设施,并准备相应的实验数据;
- 解除故障演练的相关限制。
演练前 | 制定故障应对策略
- 按照目标和需求开发故障响应计划,包括如何快速定位问题、处理方法和流程、在哪些问题下开展演练等等;
- 为处理问题的步骤定制标准操作程序,以便在演练期间可以更好的实施。
演练前 | 协调演练人员
- 确定相应的演练人员;
- 分配合适的职责和任务,以确保演练进度和目标的完成;
- 指定一个负责人,协调和管理演练过程。
演练前 | 演练周知
- 在演练开始前,向参与演练的用户、管理员、支持或其他流程中的责任人员发送通知,以确保他们知道这个演练是为了什么,何时开始,以及他们可能会受到哪些潜在影响;
- 向所有相关部门进行演练周知,确保相关人员充分了解和理解演练内容并能够按计划进行。
演练中 | 故障注入
- 使用已准备好的故障注入测试工具注入故障或模拟所需故障场景;
- 根据演练计划,按照预先制定的步骤逐步模拟不同的故障。
演练中 | 观察与记录
- 在故障注入后,观察并记录故障的发生,并确认监控数据的变化;
- 确认是否已经按照预期的流程进行了处理,并将事件的应对措施记录并报告。
演练中 | 故障响应
- 当出现故障时,按照预先制定的响应流程进行处理,确保演练不影响日常生产;
- 在故障修复后,进行必要的后续操作,例如清理环境并恢复生产流程。
演练后 | 清理现场,恢复环境
- 在演练完后,清理测试环境和测试数据,确保不会影响到生产环境;
- 恢复环境到正常状态,并检查环境是否已完全恢复正常状态,包括检查应用程序、网络、系统状态,确保各项指标均处于正常运行状态。
演练后 | 报告与总结
- 汇总并报告故障演练的结果,包括每个故障场景的模拟效果、记录的数据和监控指标等;
- 分享演练中发现的问题,并制定改进方案,推进后续工作。
演练后 | 后续规划:系统改进与流程改进
- 根据演练结果和总结,制定后续系统改进措施,进一步提高系统的可用性、容错性等;
- 优化故障响应流程,提升故障修复效率。
- 故障演练常规化,不断调整和优化演练流程和方法,不断提高演练的质量和效率,并能够更好地支持未来的需求和挑战。、
我的公众号

相关文章:
故障演练 | 微服务架构下如何做好故障演练
前言 微服务架构场景中,应用系统复杂切分散。长期运行时,局部出现故障时不可避免的。如果发生故障时不能进行有效反应,系统的可用性将极大地降低。 什么是故障演练 故障演练是指模拟生产环境中可能出现的故障,测试系统或应用在…...
Python爬虫-获取汽车之家车家号
前言 本文是该专栏的第9篇,后面会持续分享python爬虫案例干货,记得关注。 地址:aHR0cHM6Ly9jaGVqaWFoYW8uYXV0b2hvbWUuY29tLmNuL0F1dGhvcnMjcHZhcmVhaWQ9MjgwODEwNA== 需求:获取汽车之家车家号数据 笔者将在正文中介绍详细的思路以及采集方法,废话不多说,跟着笔者直接往…...
No195.精选前端面试题,享受每天的挑战和学习
🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云课上架的前后端实战课程《Vue.js 和 Egg.js 开发企业级健康管理项目》、《带你从入…...
pytest与testNg自动化框架
一.pytest 1.安装pytest: pip install pytest 2.编写用例 - 收集用例 - 执行用例 - 生成报告 3.pytest如何自动识别用例 识别规则如下: 1、搜索根目录:默认从当前目录中搜集测试用例,即在哪个目录下运行pytest命令,…...
数据库安全:Hadoop 未授权访问-命令执行漏洞.
数据库安全:Hadoop 未授权访问-命令执行漏洞. Hadoop 未授权访问主要是因为 Hadoop YARN 资源管理系统配置不当,导致可以未经授权进行访问,从而被攻击者恶意利用。攻击者无需认证即可通过 RESTAPI 部署任务来执行任意指令,最终完…...
前端---认识HTML
文章目录 什么是HTML?HTML的读取、运行HTML的标签注释标签标题标签段落标签换行标签格式化标签图片标签a标签表格标签列表标签表单标签form标签input标签文本框单选框复选框普通按钮提交按钮文件选择框 select标签textarea标签特殊标签div标签span标签 什么是HTML&a…...
竞赛 题目:基于FP-Growth的新闻挖掘算法系统的设计与实现
文章目录 0 前言1 项目背景2 算法架构3 FP-Growth算法原理3.1 FP树3.2 算法过程3.3 算法实现3.3.1 构建FP树 3.4 从FP树中挖掘频繁项集 4 系统设计展示5 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 基于FP-Growth的新闻挖掘算法系统的设计与实现…...
保姆级jupyter lab配置清单
❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博…...
数据结构预算法--链表(单链表,双向链表)
1.链表 目录 1.链表 1.1链表的概念及结构 1.2 链表的分类 2.单链表的实现(不带哨兵位) 2.1接口函数 2.2函数的实现 3.双向链表的实现(带哨兵位) 3.1接口函数 3.2函数的实现 1.1链表的概念及结构 概念:链表是一种物理存储结…...
数据结构线性表——栈
前言:哈喽小伙伴们,今天我们将一起进入数据结构线性表的第四篇章——栈的讲解,栈还是比较简单的哦,跟紧博主的思路,不要掉队哦。 目录 一.什么是栈 二.如何实现栈 三.栈的实现 栈的初始化 四.栈的操作 1.数据入栈…...
自定义 springboot 启动器 starter 与自动装配原理
Maven 依赖 classpath 类路径管理 Maven 项目中的类路径添加来源分为三类 自定义 springboot starter starter 启动器定义的规则自定义 starter 示例 自动装配 文章链接...
16 _ 二分查找(下):如何快速定位IP对应的省份地址?
通过IP地址来查找IP归属地的功能,不知道你有没有用过?没用过也没关系,你现在可以打开百度,在搜索框里随便输一个IP地址,就会看到它的归属地。 这个功能并不复杂,它是通过维护一个很大的IP地址库来实现的。地址库中包括IP地址范围和归属地的对应关系。 当我们想要查询202…...
vb.net圣经带快捷键,用原装的数据库
Imports System.Data.SqlServerCe Imports System.Text.RegularExpressions Imports System.Data.OleDbPublic Class Form1Dim jiuyue As String() {"创", "出", "利", "民", "申", "书", "士", "…...
Unity中Shader的雾效
文章目录 前言一、Unity中的雾效在哪开启二、Unity中不同种类雾的区别1、线性雾2、指数雾1(推荐用这个,兼具效果和性能)3、指数雾2(效果更真实,性能消耗多) 三、在我们自己的Shader中实现判断,是…...
企业微信开发教程一:添加企微应用流程图解以及常见问题图文说明
最近在前辈的基础上新添加了一个企微应用,过程中遇到了一些卡点,这里一一通过图片标注与注释的方式记录一下,希望能给后来人提供一些清晰明了的帮助,话不多说,大家直接看图吧。 (文中包括一些本项目独有的配…...
【LeetCode】67. 二进制求和
67. 二进制求和 难度:简单 题目 给你两个二进制字符串 a 和 b ,以二进制字符串的形式返回它们的和。 示例 1: 输入:a "11", b "1" 输出:"100"示例 2: 输入:a "…...
【LeetCode刷题笔记】二叉树(一)
102. 二叉树的层序遍历 解题思路: 1. BFS广度优先遍历 ,使用队列,按层访问 解题思路: 2. 前序遍历 , 递归 ,在递归方法参数中,将 层索引...
NativeScript开发ios应用,怎么生成测试程序?
在 NativeScript 中,要部署 iOS 应用程序,你需要遵循以下一般步骤: 1、确保开发环境: 确保你的开发环境中已经安装了 Xcode,并且你有一个有效的 Apple 开发者账号。 2、构建 iOS 应用: 在你的 NativeScri…...
Js面试题:说一下js的模块化?
作用: 一个模块就是实现某个特定功能的文件,在文件中定义的变量、函数、类都是私有的,对其他文件不可见。 为了解决引入多个js文件时,出现 命名冲突、污染作用域 等问题 AMD: 浏览器端模块解决方案 AMD即是“异步模块定…...
媒体转码软件Media Encoder 2024 mac中文版功能介绍
Media Encoder 2024 mac是一款媒体转码软件,它可以将视频从一种格式转码为另一种格式,支持H.265、HDR10等多种编码格式,同时优化了视频质量,提高了编码速度。此外,Media Encoder 2024还支持收录、创建代理和输出各种格…...
12.找到字符串中所有字母异位词
🧠 题目解析 题目描述: 给定两个字符串 s 和 p,找出 s 中所有 p 的字母异位词的起始索引。 返回的答案以数组形式表示。 字母异位词定义: 若两个字符串包含的字符种类和出现次数完全相同,顺序无所谓,则互为…...
【 java 虚拟机知识 第一篇 】
目录 1.内存模型 1.1.JVM内存模型的介绍 1.2.堆和栈的区别 1.3.栈的存储细节 1.4.堆的部分 1.5.程序计数器的作用 1.6.方法区的内容 1.7.字符串池 1.8.引用类型 1.9.内存泄漏与内存溢出 1.10.会出现内存溢出的结构 1.内存模型 1.1.JVM内存模型的介绍 内存模型主要分…...
适应性Java用于现代 API:REST、GraphQL 和事件驱动
在快速发展的软件开发领域,REST、GraphQL 和事件驱动架构等新的 API 标准对于构建可扩展、高效的系统至关重要。Java 在现代 API 方面以其在企业应用中的稳定性而闻名,不断适应这些现代范式的需求。随着不断发展的生态系统,Java 在现代 API 方…...
前端开发者常用网站
Can I use网站:一个查询网页技术兼容性的网站 一个查询网页技术兼容性的网站Can I use:Can I use... Support tables for HTML5, CSS3, etc (查询浏览器对HTML5的支持情况) 权威网站:MDN JavaScript权威网站:JavaScript | MDN...
WebRTC调研
WebRTC是什么,为什么,如何使用 WebRTC有什么优势 WebRTC Architecture Amazon KVS WebRTC 其它厂商WebRTC 海康门禁WebRTC 海康门禁其他界面整理 威视通WebRTC 局域网 Google浏览器 Microsoft Edge 公网 RTSP RTMP NVR ONVIF SIP SRT WebRTC协…...
Qt的学习(一)
1.什么是Qt Qt特指用来进行桌面应用开发(电脑上写的程序)涉及到的一套技术Qt无法开发网页前端,也不能开发移动应用。 客户端开发的重要任务:编写和用户交互的界面。一般来说和用户交互的界面,有两种典型风格&…...
【深尚想】TPS54618CQRTERQ1汽车级同步降压转换器电源芯片全面解析
1. 元器件定义与技术特点 TPS54618CQRTERQ1 是德州仪器(TI)推出的一款 汽车级同步降压转换器(DC-DC开关稳压器),属于高性能电源管理芯片。核心特性包括: 输入电压范围:2.95V–6V,输…...
Spring是如何实现无代理对象的循环依赖
无代理对象的循环依赖 什么是循环依赖解决方案实现方式测试验证 引入代理对象的影响创建代理对象问题分析 源码见:mini-spring 什么是循环依赖 循环依赖是指在对象创建过程中,两个或多个对象相互依赖,导致创建过程陷入死循环。以下通过一个简…...
(12)-Fiddler抓包-Fiddler设置IOS手机抓包
1.简介 Fiddler不但能截获各种浏览器发出的 HTTP 请求,也可以截获各种智能手机发出的HTTP/ HTTPS 请求。 Fiddler 能捕获Android 和 Windows Phone 等设备发出的 HTTP/HTTPS 请求。同理也可以截获iOS设备发出的请求,比如 iPhone、iPad 和 MacBook 等苹…...
RFID推动新能源汽车零部件生产系统管理应用案例
RFID推动新能源汽车零部件生产系统管理应用案例 一、项目背景 新能源汽车零部件场景 在新能源汽车零部件生产领域,电子冷却水泵等关键部件的装配溯源需求日益增长。传统 RFID 溯源方案采用 “网关 RFID 读写头” 模式,存在单点位单独头溯源、网关布线…...
