当前位置：首页 > news >正文

学习笔记-架构的演进之服务容错策略-服务发现-3月day01

news 2026/5/13 16:02:08

文章目录

前言
服务容错
- 容错策略
附

前言

“容错性设计”（Design for Failure）是微服务的一个核心原则。
使用微服务架构，拆分出的服务越来越多，也逐渐导致以下问题：

某一个服务的崩溃，会导致所有用到这个服务的其他服务都无法正常工作，一个点的错误经过层层传递，最终波及到调用链上与此有关的所有服务，这便是雪崩效应。如何防止雪崩效应，便是微服务架构容错性设计原则的具体实践，否则服务化程度越高，整个系统反而越不稳定。
服务虽然没有崩溃，但由于处理能力有限，面临超过预期的突发请求时，大部分请求直至超时都无法完成处理。这种现象产生的后果跟交通堵塞是类似的，如果一开始没有得到及时地治理，后面就会需要很长时间才能使全部服务都恢复正常。

以上就是“流量治理”要解决的问题，涉及到服务容错、流量控制、服务质量管理等一系列解决方案。

服务容错

构建微服务系统的指导性原则（九大原则）中，多数特征可能会有或多或少的妥协，比如分散治理、数据去中心化、轻量级通讯机制、演进式设计，但有一些特征是无法做出妥协的，就包括容错性设计。

容错性设计不能妥协的原因在于，分布式系统的本质是不可靠的，一个大的服务集群中，程序可能崩溃、节点可能宕机、网络可能中断，这些“意外情况”其实全部都在“意料之中”。原本信息系统设计成分布式架构的主要动力之一，就是提升系统的可用性，最低限度也必须保证将原有系统重构为分布式架构之后，可用性不出现倒退才行。

容错策略

容错策略，指的是“面对故障，我们该做些什么”，这里主要介绍7 种常见的容错策略，包括故障转移、快速失败、安全失败、沉默失败、故障恢复、并行调用和广播调用。

故障转移（Failover）
高可用的服务集群中，多数的服务，尤其是那些经常被其他服务依赖的关键路径上的服务，都会部署多个副本。这些副本可能部署在不同的节点（避免节点宕机）、不同的网络交换机（避免网络分区），甚至是不同的可用区（避免整个地区发生灾害或电力、骨干网故障）中。
故障转移是指，如果调用的服务器出现故障，系统不会立即向调用者返回失败结果，而是自动切换到其他服务副本，尝试其他副本能否返回成功调用的结果，从而保证了整体的高可用性。
故障转移的容错策略应该有一定的调用次数限制，比如允许最多重试三个服务，如果都发生报错，那还是会返回调用失败。引入调用次数的限制，不仅是因为重试有执行成本，更是因为过度的重试反而可能让系统处于更加不利的状况。
快速失败（Failfast）
一些业务场景是不允许做故障转移的，因为故障转移策略能够实施的前提，是服务具有幂等性。那对于非幂等的服务，重复调用就可能产生脏数据，引起的麻烦远大于单纯的某次服务调用失败。这时候，就应该把快速失败作为首选的容错策略。当故障发生时，尽快让服务报错并抛出异常，坚决避免重试，由调用者自行处理。
安全失败（Failsafe）
在一个调用链路中的服务，通常也有主路和旁路之分，并不见得每个服务都是不可或缺的，属于旁路逻辑的一个显著特点是，服务失败了也不影响核心业务的正确性。典型的有审计、日志、调试信息，等等。
属于旁路逻辑的另一个显著特征是，后续处理不会依赖其返回值，或者它的返回值是什么都不会影响后续处理的结果。
对这类逻辑，一种理想的容错策略是，即使旁路逻辑调用失败了，也当作正确来返回，如果需要返回值的话，系统就自动返回一个符合要求的数据类型的对应零值，然后自动记录一条服务调用出错的日志备查即可。这种容错策略，被称为安全失败。
沉默失败（Failsilent）
如果大量的请求需要等到超时（或者长时间处理后）才宣告失败，很容易因为某个远程服务的请求堆积而消耗大量的线程、内存、网络等资源，进而影响到整个系统的稳定性。
面对这种情况，一种合理的失败策略是当请求失败后，就默认服务提供者一定时间内无法再对外提供服务，不再向它分配请求流量，并将错误隔离开来，避免对系统其他部分产生影响。这种容错策略，就被称为沉默失败。
故障恢复（Failback）
故障恢复一般不单独存在，而是作为其他容错策略的补充措施。故障恢复是指，当服务调用出错了以后，将该次调用失败的信息存入一个消息队列中，然后由系统自动开始异步重试调用。
一方面是尽力促使失败的调用最终能够被正常执行，另一方面也可以为服务注册中心和负载均衡器及时提供服务恢复的通知信息。很显然，故障恢复也要求服务必须具备幂等性，由于它的重试是后台异步进行，即使最后调用成功了，原来的请求也早已经响应完毕。所以，故障恢复策略一般用于对实时性要求不高的主路逻辑，也适合处理那些不需要返回值的旁路逻辑。
为了避免在内存中的异步调用任务堆积，故障恢复与故障转移一样，也应该有最大重试次数的限制。
并行调用（Forking）
并行调用策略，是指一开始就同时向多个服务副本发起调用，只要有其中任何一个返回成功，那调用便宣告成功。这种策略是在一些关键场景中，使用更高的执行成本换取执行时间和成功概率的策略。
广播调用（Broadcast）
广播调用与并行调用是相对应的，都是同时发起多个调用，但并行调用是任何一个调用结果返回成功便宣告成功，而广播调用则是要求所有的请求全部都成功，才算是成功。也就是说，对于广播调用来说，任何一个服务提供者出现异常都算调用失败。因此，广播调用通常被用于实现“刷新分布式缓存”这类的操作。

附

此文章为3月Day01学习笔记，内容来源于极客时间《周志明的软件架构课》

学习笔记-架构的演进之服务容错策略-服务发现-3月day01

文章目录前言服务容错容错策略附前言 “容错性设计”（Design for Failure）是微服务的一个核心原则。使用微服务架构，拆分出的服务越来越多，也逐渐导致以下问题： 某一个服务的崩溃，会导致所有用到这个服务…...

编程日记 2023/3/2 15:16:56

采编式AIGC视频生产流程编排实践

作者 | 百度人工智能创作团队导读本文从业务出发，系统介绍了采编式 TTV的实现逻辑和实现路径。结合业务拆解，实现了一个轻量级服务编排引擎，有效实现业务诉求、高效支持业务扩展。全文6451字，预计阅读时间17分钟。 01 背景近…...

编程日记 2023/3/2 15:15:49

Leetcode23. 合并k个升序链表

一、题目描述： 给你一个链表数组，每个链表都已经按升序排列。请你将所有链表合并到一个升序链表中，返回合并后的链表。示例 1： 输入：lists [[1,4,5],[1,3,4],[2,6]]输出：[1,1,2,3,4,4,5,6]解释&#…...

编程日记 2023/3/2 15:13:33

从用户出发，互联网产品策划方法论

【一】从用户到需求产品经理需要具备两个非常重要的技能，一个叫策划，一个叫感知用户。我们在分析问题的时候往往会说“这么做，我认为用户会怎么怎么样”、“用户会认为这样很不爽”，当我们这样说时，很有可能是把自己当成了用户，用某些特定的情感或记忆代表了用户。当我…...

编程日记 2023/3/2 15:12:26

STM32 E18-D80NK红外检测

本文代码使用 HAL 库。文章目录前言一、E18-D80NK 红外传感器：1. E18-D80NK 的介绍2. 电器特性二、红外检测小实验代码讲解三、实验现象总结前言这篇文章介绍如何使用 STM32 控制 E18-D80NK 进行红外检测。一、E18-D80NK 红外传感器： 1. E18-D80N…...

编程日记 2023/3/2 15:11:19

Linux常用命令--进程和计划任务管理

一、程序和进程的关系 1、程序 ①保存在硬盘、光盘等介质中的可执行代码和数据 ②静态保存的代码 2、进程 ①在cpu及内存中运行及进程代码 ②动态执行的代码 ③父（fork）、子进程，每个程序可以创建一个或多个进程父进程和子进程的区别&am…...

编程日记 2023/3/2 15:10:10

Unity TextMeshPro

Unity TextMeshPro 简介 TextMeshPro(也简称为TMP)号称是Unity的终极文本解决方案，它是Unity 的 UI 文本和旧版文本网格体的完美替代品。功能强大且易于使用，使用高级文本渲染技术以及一组自定义着色器;提供实质性的视觉质量改进，同时在文本样式和纹理方面为用户提供令人…...

编程日记 2023/3/2 15:09:00

虹科分享| 浅谈HK-Edgility边缘计算平台

上周，我们推出了虹科新品HK-Edgility边缘计算平台以及uCPE解决方案。本篇文章我们再来谈一谈到底什么是边缘计算？为什么需要边缘计算？边缘计算和云计算有什么关系？HK-Edgility边缘计算平台将为您带来什么？一、边缘计算…...

编程日记 2023/3/2 15:07:49

React Router v6详解

旧版本React Router使用方式 BrowserRouter：通过 history 库，传递 history 对象，location 对象Switch：匹配唯一的路由 Route，展示正确的路由组件Route：视图承载容器，控制渲染 UI 组件新版本R…...

编程日记 2023/3/2 15:06:42

帮助100w人成功入职的软件测试面试常见问题以及答案

测试面试题怎么来设计测试方案根据测试需求（包括功能需求和非功能性需求），识别测试要点，识别测试环境要求，安排测试轮次，根据项目计划和开发计划做整体的测试安排。被测试的特性：通过对需求规格…...

编程日记 2023/3/2 15:05:36

tensorflow2.4--2.回归问题分析

文章目录前言流程案例操作前言流程回归问题预测连续值,在某个区间内变动. 常见的线性回归问题模型是yaxb,然而现实世界由于大量的数据偏差以及复杂度,同时还有大量的噪声,往往达不到如此的精确解,实际解决问题时需要考虑噪声的存在对于噪声,往往我们已经假设了它符合高斯…...

编程日记 2023/3/2 15:04:28

【2023】DevOps、SRE、运维开发面试宝典之Kafka相关面试题

文章目录 1、消息队列的流派2、kafka的优势3、Kafka与Zookeeper的关系4、Kafka消息队列各组件概念5、Kafka消息队列应用场景6、Kafka消息收发的过程7、Kafka消息数据存储概念8、kafka消息的偏移量概念原理9、Kafka消息数据的顺序消费概念原理10、Kafka单播消费消息的原理11、Ka…...

编程日记 2023/3/2 15:03:19

CentOS系统编译安装PHP-5.6.27版本

一、手动安装编译工具： yum install -y gcc gcc-c 二、添加用户和用户组： groupadd web useradd -M -s /sbin/nologin -g web php 三、yum安装依赖： yum -y install libmcrypt libmcrypt-devel mcrypt mhash libxml2-devel libpng-devel l…...

编程日记 2023/3/2 15:02:12

和风SDK查询城市ID（保姆级教程）

android studio版本：2021.2.1例程名：hfserachcityid这几天没什么事做，而且我原来那个“项目”因为免费api不能用了，只能改为和风的免费api,但需要申请，而且还要城市ID，玩天气的基本都知道城市ID这个东西&am…...

编程日记 2023/3/2 15:01:05

暴力递归到动态规划

暴力递归到动态规划假设有排成一行的n个位置， 记为1~n，n-定大于或等于2。开始时机器人在其中的m位置上(m 一定是1~n中的一个)。如果机器人来到1位置，那么下一步只能往右来到2位置；如果机器人来到n位置， 那么下一步只能…...

编程日记 2023/3/2 14:59:57

Java：Java仍然处于领先地位?

没有多少编程语言能够自吹自擂并持续流行20多年，但Java就是其中之一。Java应用程序不仅局限于web和移动开发，而且给大数据和人工智能留下了深刻的印象。不用多说，让我们讨论一下Java流行的几个原因!!1.实用性根据JamesGosling的说法&#xff…...

编程日记 2023/3/2 14:58:51

虚拟地址空间

本节目录1.如何理解区域划分2.为什么一个变量可以存储两个不同的值？3.深入理解虚拟地址空间为什么要有地址空间？4.理解什么是挂起？1.虚拟地址空间究竟是什么？2.映射关系的维护是谁做的？1.如何理解区域划分所谓的区域…...

编程日记 2023/3/2 14:57:39

Python基础篇（十五）-- Pygame游戏编程

1 初识Pygame Pygame是一个开源的Python模块，专门用于多媒体应用（如电子游戏）的开发，其中包含对图像、声音、视频、事件、碰撞等的支持。Pygame建立在SDL的基础上，SDL是一套跨平台的多媒体开发库，用C语言实…...

编程日记 2023/3/2 14:56:26

LeetCode 热题 HOT 100 Java 题解 -- Part 2

练习地址 Part 1 : https://blog.csdn.net/qq_41080854/article/details/128829494 LeetCode 热题 HOT 100 Java 题解 -- Part 236. 二叉树的中序遍历 9437. 不同的二叉搜索树 9638. 验证二叉搜索树 9839. 对称二叉树 10140. 二叉树的层序遍历 10241. 二叉树的最大深度 10442.…...

编程日记 2023/3/2 14:55:18

【项目实战】IDEA常用快捷键汇总

一、修改为Eclipse的快捷键相信很多朋友跟我一样， 都是习惯了eclipse的快捷键，没错，习惯这东西真的很难改！IDEA非常强大，支持我们修改IDEA中的keymap为Eclipse的快捷键！友好又贴心，有没有&…...

编程日记 2023/3/2 14:54:08

终极矢量图标库完全指南：Remix Icon 3200+免费图标深度解析

终极矢量图标库完全指南：Remix Icon 3200免费图标深度解析【免费下载链接】RemixIcon Open source neutral style icon system 项目地址: https://gitcode.com/gh_mirrors/re/RemixIcon Remix Icon 是一套开源的矢量图标库，包含超过3200个精心设…...

编程新知 2026/5/13 15:48:07

从入门到精通：Python开发在Web后端的实战应用

在当今快速发展的互联网时代，Web后端开发作为连接前端界面与数据库的核心，其重要性不言而喻。Python，凭借其简洁的语法、强大的库支持以及活跃的社区，已成为Web后端开发的热门选择。本文将带你从零开始，逐步掌握Python…...

编程新知 2026/5/13 14:12:22

构建AI信任层TrustLayer：开源插件化架构保障AI输出安全与可靠

1. 项目概述：为什么我们需要一个AI信任层？最近几个月，我几乎把所有主流的AI工具都试了个遍。从代码助手到文案生成，从图像创作到数据分析，每个工具都承诺能提升效率。但用着用着，我发现一个越来越明显的问题…...

编程新知 2026/5/13 12:58:59

3大照片管理痛点，1个工具彻底解决：ExifToolGUI完全指南

3大照片管理痛点，1个工具彻底解决：ExifToolGUI完全指南【免费下载链接】ExifToolGui A GUI for ExifTool 项目地址: https://gitcode.com/gh_mirrors/ex/ExifToolGui 你是否曾面对数百张旅行照片，需要统一修改拍摄时间却无从下手&…...

编程新知 2026/5/13 12:13:12

从2013年光网络市场增长看100G与分组化技术演进

1. 从一篇旧闻说起：2013年光网络市场的“中国引擎”最近在整理一些老资料，翻到了EE Times在2013年9月的一篇市场分析报道。标题很直白，叫“中国驱动基础设施增长”。报道的核心数据是，光分组平台市场（包含光分组传输、…...

编程新知 2026/5/13 11:38:57

OpenFOAM-dev后处理与数据可视化：ParaView与fieldFunctionObjects实战指南

OpenFOAM-dev后处理与数据可视化：ParaView与fieldFunctionObjects实战指南【免费下载链接】OpenFOAM-dev OpenFOAM Foundation development repository 项目地址: https://gitcode.com/gh_mirrors/op/OpenFOAM-dev OpenFOAM-dev作为开源CFD领域的核心工具&a…...

编程新知 2026/5/13 10:20:24

数学全景地图6---数学的内容、方法和意义，50年代苏联的数学全景大书Big Picture。

0、数学--它的内容、方法和意义。Mathematics--Its Content, Methods, and Meaning.----俄文原版于1956年。英文翻译版于1963年。中文翻译版于1950年代。----在国内的《数学大辞典》中，特别指出这本书《数学-它的内容方法和意义》，是当时的数学辞书之一。…...

编程新知 2026/5/13 9:54:04

一次讲清本地大模型语音识别三件套：Vulkan 为什么是加速主线，而说话人识别为何成为唯一短板

把 whisper.cpp、sherpa-onnx、llama.cpp 三套引擎整合到一起，再用 Electron 包成桌面应用，这个技术思路本身并不复杂。真正考验工程功力的，是面向完全不懂技术的最终端用户，怎样让这些引擎尽可能“一键加速”，同时还不…...

编程新知 2026/5/13 9:49:36

systemverilog学习

1.数据类型 1.1logic类型和双状态数据类型 logic类型：在实际电路中，信号只有0和1两种状态，但是在电路设计中，能有四种状态，0、1、Z和X，X代表未知态，当给它两个驱动时（一边给0&#x…...

编程新知 2026/5/13 9:19:51

Beyond Compare 5完全激活指南：3种简单方法告别30天试用限制

Beyond Compare 5完全激活指南：3种简单方法告别30天试用限制【免费下载链接】BCompare_Keygen Keygen for BCompare 5 项目地址: https://gitcode.com/gh_mirrors/bc/BCompare_Keygen 你是否正在使用Beyond Compare 5这款强大的文件对比工具，却因…...

编程新知 2026/5/13 9:13:04

文章目录

前言

服务容错

容错策略

附

相关文章：