当前位置：首页 > article >正文

分布式系统相关面试题收集

article 2026/5/12 19:52:26

什么是分布式系统，以及它有哪些主要特性？
分布式系统中如何保证数据的一致性？
解释一下CAP理论，并说明在分布式系统中如何权衡CAP三者？
什么是分布式事务，以及它的实现方式有哪些？
什么是分布式锁，以及它的实现方案有哪些？
什么是分布式幂等性，如何在分布式系统中设计幂等性？
在分布式系统中，如何进行负载均衡和容错处理？

什么是分布式系统，以及它有哪些主要特性？

分布式系统是由多个计算机节点通过网络相互连接，共同协作完成特定任务的系统。这些节点可能位于不同的地理位置，通过网络通信来共享资源和信息。以下是分布式系统的一些主要特性：

1、可扩展性：
分布式系统能够根据需要轻松地添加或移除节点，从而增加或减少系统的计算能力、存储能力或其他资源。这种可扩展性使得分布式系统能够适应不断变化的业务需求。
2、高可用性：
通过冗余和故障转移机制，分布式系统能够在部分节点出现故障时继续提供服务。例如，如果某个节点宕机，其他节点可以接管其任务，确保系统整体的高可用性。
3、容错性：
分布式系统能够检测并处理节点故障，而不会导致整个系统的崩溃。这通常通过复制数据、使用容错协议以及实施错误检测和恢复机制来实现。
4、异构性：
分布式系统中的节点可以是不同类型的计算机，具有不同的硬件、操作系统、编程语言等。这种异构性使得系统能够灵活地适应各种环境和需求。
5、透明性：
对于用户来说，分布式系统应该看起来像是一个单一的系统。用户无需关心数据或计算任务在哪个节点上执行，只需关注系统的整体功能和性能。
6、并发性：
分布式系统中的多个节点可以同时处理任务，从而提高系统的吞吐量和响应时间。这种并发性使得系统能够更有效地利用资源，满足大规模并发访问的需求。
7、通信开销：
由于节点之间需要通过网络通信来共享信息和资源，因此分布式系统面临着一定的通信开销。这包括数据传输时间、网络延迟以及通信故障等。
8、安全性：
分布式系统需要确保数据的安全性，包括数据的机密性、完整性和可用性。这通常通过加密技术、访问控制机制以及安全协议来实现。
9、分布式数据管理：
分布式系统需要处理跨多个节点的数据管理问题，包括数据复制、一致性维护、数据分区以及数据迁移等。
10、分布式计算模型：
分布式系统支持多种计算模型，如客户端-服务器模型、对等模型（P2P）以及混合模型等。这些模型允许系统根据需求进行灵活的配置和优化。

分布式系统中如何保证数据的一致性？

由于网络延迟、节点故障等因素，分布式系统中很难保证数据在所有副本上实时一致。因此，需要采用适当的数据一致性保障策略来确保数据在可接受的范围内保持一致。

以下是一些常见的方法和策略：

一、一致性模型
一致性模型是一种用于描述分布式系统中数据一致性的框架。常见的一致性模型包括：

1、强一致性：要求所有节点在任何时刻都保持相同的状态，即数据一旦更新，所有节点都会立即看到最新的值。这种一致性模型提供了最高的数据一致性保障，但可能带来较大的性能开销。

2、弱一致性：允许节点之间的数据存在一定的不一致性，但这种不一致性通常会在某个时间点后得到纠正。弱一致性模型提供了较低的数据一致性保障，但可以提高系统的性能和容错性。

3、最终一致性：保证在有限的时间内，所有节点最终都会收敛到相同的状态。这种一致性模型适用于对数据一致性要求不高的场景，如缓存系统、分布式数据库等。

二、一致性算法
一致性算法是用于实现数据一致性的方法。常见的一致性算法包括：

1、Paxos：一种用于实现一致性的分布式算法，其核心思想是通过多轮投票来实现一致性。Paxos算法具有较高的容错性和可扩展性，但实现起来相对复杂。

2、Raft：另一种用于实现一致性的分布式算法，其核心思想是通过选举来实现一致性。Raft算法相对Paxos来说更容易理解和实现，因此在一些分布式系统中得到了广泛应用。

3、Zab：Zookeeper原子广播协议，类似于Raft，也通过选举领导者的方式来保证数据一致性。

Paxos、Raft和Zab都是用于解决分布式系统中一致性问题的算法，它们各自具有不同的原理和实现过程。下面将分别详细介绍这三种算法。

Paxos算法
原理：

Paxos算法是莱斯利·兰伯特（Leslie Lamport）在1990年提出的一种基于消息传递的一致性算法。它解决的是在分布式系统中如何就某个值（决议）达成一致的问题。在一个可能发生异常的分布式系统中（如机器宕机、网络异常等），Paxos算法能够快速且正确地在集群内部对某个数据的值达成一致。

角色：

Proposer：负责提出提案。

Acceptor：负责对提案进行裁决（accept与否）。

Learner：负责学习提案结果。

过程实现：

Paxos算法的执行过程分为两个阶段：准备阶段（Prepare Phase）和接受阶段（Accept Phase）。

1、准备阶段：Proposer选择一个提案编号N，然后向半数以上的Acceptor发送编号为N的Prepare请求。如果一个Acceptor收到一个编号为N的Prepare请求，且N大于它已经响应过的所有Prepare请求的编号，那么它就会将自己已经接受过的编号最大的提案（如果有的话）作为响应反馈给Proposer，并承诺不再接受任何编号小于N的提案。

2、接受阶段：如果Proposer收到半数以上Acceptor对其发出的编号为N的Prepare请求的响应，那么它就会发送一个针对[N,V]提案的Accept请求给半数以上的Acceptor。V是收到的响应中编号最大的提案的值（如果响应中不包含任何提案，那么V就由Proposer自己决定）。如果Acceptor收到一个针对编号为N的提案的Accept请求，且该Acceptor没有对编号大于N的Prepare请求做出过响应，那么它就接受该提案。

特点：

Paxos算法具有高度的容错特性。

它是目前公认的解决分布式一致性问题最有效的算法之一。

Raft算法
原理：

Raft是一个基于Raft协议的分布式一致性算法，它实现了一种双向的协作式的领导者选举和成员投票的过程，从而保证了分布式系统的高可用和一致性。

角色：

Leader：负责处理所有客户端请求，并向其他节点广播心跳消息以维持其领导地位。

Follower：跟随者节点，接收来自Leader的心跳消息和日志复制请求。

Candidate：候选者节点，在Leader选举过程中充当的角色。

过程实现：

Raft算法的执行过程主要包括领导者选举和日志复制两个阶段。

1、领导者选举：当系统启动时或Leader失效时，节点会进入Candidate状态并发起领导者选举。节点会向其他节点发送请求投票消息，并等待其他节点的回应。如果节点收到超过半数的支持票，则成为Leader。

2、日志复制：Leader接收客户端的请求并将其作为日志条目添加到自己的日志中。然后，Leader会向其他节点广播日志复制请求，以确保所有节点都具有相同的日志条目。如果大多数节点都成功复制了日志条目，则该日志条目被视为已提交。

特点：

Raft算法易于理解和实现。

它提供了强一致性保证。

在实际应用中，如Microsoft的Azure、AWS以及Google的Kubernetes中都得到了广泛的应用。

Zab算法
原理：

Zab（Zookeeper Atomic Broadcast）是为分布式协调服务Zookeeper专门设计的一种支持崩溃恢复的原子广播协议。它是Zookeeper保证数据一致性的核心算法。

角色：

Leader：负责处理所有的写请求，并将写请求广播给所有Follower。

Follower：接收来自Leader的写请求和心跳消息，并执行写请求或保持与Leader的同步。

Observer（可选）：不参与选举过程，只接收来自Leader的写请求和心跳消息，并提供读取服务。

过程实现：

Zab算法的执行过程包括消息广播和崩溃恢复两个阶段。

1、消息广播：在正常工作状态下，Leader接收客户端的写请求，并为其分配一个全局唯一的zxid（事务ID）。然后，Leader将带有zxid的写请求作为提案分发给所有Follower。Follower在接收到提案后，会将其写入本地日志，并向Leader发送ACK消息。当Leader收到超过半数的ACK消息后，就认为该提案已被接受，并向所有Follower发送COMMIT命令。

2、崩溃恢复：当Leader失效时，系统会进入崩溃恢复模式。在恢复模式下，节点会进行领导者选举以产生一个新的Leader。新的Leader会负责将整个系统同步到最新状态。

特点：

Zab算法为Zookeeper提供了高可用性和一致性保证。

它特别适用于需要频繁读写操作的分布式协调服务场景。

三、复制策略
1、主从复制：将数据副本分为一个主副本和多个从副本。主副本负责处理所有写操作，并将其同步到从副本。从副本只负责处理读操作，以减轻主副本的负载。这种策略保证了数据的高一致性，但带来了性能上的开销。

2、多主复制：允许多个节点同时作为主副本，处理写操作。这种策略提供了更高的可用性，但同时也增加了数据一致性维护的复杂性。为了实现数据一致性，需要额外的机制来解决主副本之间的数据一致性问题。

四、分布式事务
分布式事务是一种用于协调多个节点上的事务的方法，以确保它们要么全部成功，要么全部失败。常见的分布式事务管理方法包括：

1、两阶段提交（2PC）：一种经典的分布式事务管理方法，分为准备阶段和提交阶段。在准备阶段，所有参与节点都会尝试执行事务并准备提交；在提交阶段，如果所有节点都准备成功，则实际提交事务，否则回滚。但这种方法存在事务锁定时间长、单点故障等问题。

2、三阶段提交（3PC）：在2PC的基础上进行改进，增加了超时机制来减少事务锁定时间。但这种方法相对复杂，实现起来较为困难。

五、其他策略
1、分布式锁：分布式锁是一种用于实现数据一致性的技术。它可以确保在同一时刻，只有一个节点能够更新数据。这种技术通常用于需要严格控制数据一致性的场景。

2、因果一致性：一种更严格的异步复制策略，它保证因果关系保持一致。这意味着如果操作A在操作B之前发生，那么所有副本都必须看到A在B之前发生。这种策略适用于对数据一致性要求较高的场景。

解释一下CAP理论，并说明在分布式系统中如何权衡CAP三者？

CAP理论解释
CAP理论是分布式架构中提出来的一种设计思想模型，全称是由Consistency（一致性）、Availability（可用性）、Partition Tolerance（分区容错性）三个词组成。CAP理论表明，在分布式系统中，这三个属性不能同时成立，即最多只能同时满足其中两个。

1、一致性（Consistency）：保证所有节点上的数据始终同步，即系统中的所有节点在同一时间看到相同的数据。也就是说，每次读操作都能返回最新的写入结果。

2、可用性（Availability）：无论响应成功还是失败，每个请求都是有效的，并不会发生网络超时等情况。系统能够保证每个请求都会收到一个响应，无论是成功的响应还是失败的响应。这意味着系统在任何情况下都是可用的，即使某些节点出现故障。

3、分区容错性（Partition Tolerance）：系统内部（某个节点的分区）中丢失消息，系统也应该可以继续提供服务。即系统能够容忍网络分区（即节点之间的通信中断），并且在出现分区时仍然能够继续运作。

分布式系统中CAP三者的权衡
在分布式系统设计中，由于CAP理论的限制，通常需要在一致性、可用性和分区容错性之间做出权衡。以下是三种主要的组合方式：

1、CA模型（一致性+可用性）：
在没有网络分区的情况下，系统能够保证数据的一致性和可用性。

但在出现网络分区时，系统可能无法继续提供服务。

由于网络分区在分布式系统中不可避免，因此CA模型通常是理论上的，在实际应用中较难实现。

2、CP模型（一致性+分区容错性）：
在网络分区的情况下，系统优先保证数据的一致性。

可能暂时降低可用性，例如某些分布式数据库系统会选择这种模型。

当一个数据分片无法与其他分片通信时，系统可能拒绝读写请求，以避免数据不一致。

3、AP模型（可用性+分区容错性）：
在网络分区的情况下，系统优先保证可用性。

即使这意味着可能出现数据不一致的情况，例如分布式缓存系统通常选择AP模型。

即使某个分片无法与其他分片通信，系统仍然允许对该分片的读写操作，并在之后进行数据同步。

在实际应用中，工程师们需要根据系统的具体需求和应用场景来权衡CAP三者。例如：

在电商系统中，用户模块的数据（如账户信息、钱包余额等）对一致性要求很高，因此可以采用CP架构来确保数据的一致性和分区容错性。

对于商品信息方面的数据，对一致性要求相对较低，但对可用性要求较高，为了照顾用户体验，可以选择AP架构来确保在网络分区时系统依然可用。

尽管理论上存在CA、CP和AP三种组合方式，但在实际的分布式系统中，网络不可避免地会出现分区现象。因此，分区容错性是必选项，分布式系统通常只能选择CP或AP架构。在选择CAP组合的同时，也应为不能保障的第三点做一些防备措施或冗余方案。例如：

在选择AP模型时，可以通过异步数据同步机制或定期一致性校验来减轻数据不一致带来的影响。

在选择CP模型时，可以增加副本数量或引入故障恢复机制以提升系统的可用性。

什么是分布式事务，以及它的实现方式有哪些？

分布式事务的定义
分布式事务（Distributed Transaction）是指在分布式系统中，涉及多个数据库、服务、消息队列等资源，并且需要保证这些资源上的操作要么全部成功提交，要么全部失败回滚的一种机制。

在分布式系统中，由于网络分区、服务故障、数据不一致等问题，传统的单一数据库事务已经无法满足需求，因此需要引入分布式事务来确保数据的一致性和可靠性。

分布式事务的实现方式
分布式事务的实现方式有多种，以下是几种常见的实现方式：

1、两阶段提交（2PC/XA方案）
两阶段提交是最常见的分布式事务实现方式之一。它包括协调者和参与者两个角色。

在第一阶段（准备阶段），协调者向所有参与者发送准备（prepare）请求，每个参与者执行操作并返回是否就绪的消息。

在第二阶段（提交阶段），如果所有参与者都返回就绪消息，协调者则向所有参与者发送提交（commit）请求；如果任何参与者返回未就绪消息，则协调者发送回滚（abort）请求。

这种方式的优点是原理简单，实现容易；缺点是严重依赖于数据库层面来搞定复杂的事务，效率较低，不适合高并发的场景。

2、TCC（Try-Confirm-Cancel）
TCC是一种基于补偿机制的分布式事务解决方案。它将一个大的事务拆分成多个小的子事务，并为每个子事务定义Try、Confirm和Cancel三个阶段。

在Try阶段，尝试执行操作，并对资源进行锁定或预留。

在Confirm阶段，正式执行操作，如果所有子事务都成功，则完成整个事务。

在Cancel阶段，如果任何一个子事务失败，则进行补偿操作，即回滚已经执行成功的子事务。

TCC模式需要对代码和业务逻辑进行一定程度的改造，应用程序需要具备良好的幂等性和可补偿性。此外，该方式的事务回滚严重依赖于开发人员的代码实现，因此可能造成补偿代码复杂且难以维护。

在Java中，可以使用Alibaba的Seata、TCC-Transaction、ByteTCC等框架来实现TCC模式的分布式事务。

3、本地消息表
本地消息表是一种基于最终一致性的分布式事务实现方式。

A系统在自己本地一个事务里操作的同时，插入一条数据到本地消息表。

A系统接着将这个消息发送到消息队列（MQ）中去。

B系统接收到消息之后，在一个事务里，往自己本地消息表里插入一条数据，同时执行其他的业务操作。如果这个消息已经被处理过了，那么此时这个事务会回滚，以保证不会重复处理消息。

B系统执行成功之后，就会更新自己本地消息表的状态以及A系统消息表的状态。

如果B系统处理失败了，那么就不会更新消息表状态。此时A系统会定时扫描自己的消息表，如果有未处理的消息，会再次发送到MQ中去，让B再次处理。

这种方式的优点是实现了最终一致性，即使B事务失败了，A也会不断重发消息，直到B成功为止。缺点是严重依赖于数据库的消息表来管理事务，可能导致在高并发场景下性能不佳。

4、可靠消息最终一致性方案
该方案也基于最终一致性。

A系统先发送一个prepared消息到MQ，如果发送失败则直接取消操作。

如果消息发送成功，A系统接着执行本地事务。如果本地事务成功，则告诉MQ发送确认消息；如果失败，则告诉MQ回滚消息。

B系统接收到确认消息后，执行本地的事务。

MQ会自动定时轮询所有prepared消息，询问其对应的本地事务是否处理成功。对于未发送确认消息的情况，MQ会继续重试或回滚。

这种方式的优点是灵活性较高，适用于各种业务场景；缺点是需要实现复杂的消息状态和重试机制。

5、最大努力通知方案
在该方案中，系统A本地事务执行完之后，发送一个消息到MQ。

有一个专门消费MQ的最大努力通知服务，该服务会消费MQ中的消息，并将其写入数据库中记录下来，或者放入内存队列中。接着调用系统B的接口。

如果系统B执行成功则无事；如果执行失败，则最大努力通知服务会定时尝试重新调用系统B，反复多次，如果还是失败则最终放弃。

这种方式的优点是简单易行；缺点是可能存在消息丢失或重复通知的问题，需要业务方进行幂等性处理。

分布式事务实现方式的评估与选择
在选择合适的分布式事务实现方案时，需要综合考虑系统的性能、可扩展性、数据一致性等因素。以下是一些评估与选择的建议：

性能：根据系统的并发量和响应时间要求，选择对性能影响较小的方案。例如，在高并发场景下，两阶段提交可能因网络开销和锁等待而导致性能下降。

可扩展性：考虑系统未来的扩展需求，选择易于扩展和维护的方案。例如，TCC模式虽然需要对代码进行改造，但可以根据业务需求灵活扩展子事务的数量和类型。

数据一致性：根据业务对数据一致性的要求，选择能够提供强一致性或最终一致性的方案。例如，对于金融支付等关键业务场景，需要选择能够提供强一致性的方案；而对于一些非关键业务场景，可以选择最终一致性的方案以提高性能和可扩展性。

什么是分布式锁，以及它的实现方案有哪些？

分布式锁的定义
分布式锁（Distributed Lock）是分布式系统或不同系统实例之间用于控制对共享资源访问的一种同步机制。在分布式环境中，由于多个进程或线程可能运行在不同的机器上，传统的单机锁（如Java中的synchronized关键字或ReentrantLock）无法有效地工作，因为它们只能控制单个JVM内的同步。分布式锁的核心目标是确保在分布式系统中的多个客户端之间，对共享资源的访问是互斥的，即同一时间只有一个客户端能够访问该资源。

分布式锁的实现方案
分布式锁的实现方案有多种，以下是几种常见的实现方式：

1、基于数据库实现分布式锁
悲观锁：利用数据库的排他锁（如MySQL的SELECT … FOR UPDATE）来实现。但需要注意索引的使用，避免锁表问题。此外，悲观锁在持有锁期间会阻塞其他事务，可能导致性能下降。

乐观锁：基于CAS（Compare And Swap）思想，通过增加一个版本号字段来实现。在更新数据时，检查版本号是否匹配，如果不匹配则说明有其他事务已经修改了数据，此时需要重试或报错。乐观锁不具有互斥性，不会产生锁等待而消耗资源，但在高并发场景下可能导致数据更新失败。

2、基于缓存（如Redis）实现分布式锁
SETNX + EXPIRE：使用Redis的SETNX命令尝试获取锁，如果成功则使用EXPIRE命令为锁设置一个超时时间，防止死锁。但这种方式需要确保SETNX和EXPIRE两个命令的原子性，可以通过Lua脚本来实现。

SET的扩展命令（SET EX PX NX）：Redis提供了SET命令的扩展参数，可以同时设置键的值、过期时间和仅在键不存在时设置成功（NX选项）。这种方式比SETNX + EXPIRE更加简洁和原子。

Redisson：Redisson是一个在Redis的基础上实现的Java驻内存数据网格（In-Memory Data Grid）。它不仅提供了一系列的分布式的Java常用对象和服务，还提供了许多分布式服务（比如，分布式锁，分布式信号量，分布式集合，分布式地图等）。Redisson的分布式锁实现了可重入性、超时控制、可监听等高级特性。

Redlock：Redlock是Redis官方提供的分布式锁算法实现。它基于多个Redis实例（主从架构或集群模式）来实现高可用性和容错性。Redlock算法要求客户端在获取锁时，需要向多个Redis实例发送请求，并只有当超过半数的实例成功返回锁时，才认为获取锁成功。这种方式可以大大提高分布式锁的可用性和可靠性，但也需要更多的Redis实例和更复杂的实现。

3、基于Zookeeper实现分布式锁
Zookeeper是一个开源的分布式协调服务，它使用强一致性协议（如ZAB协议）来确保分布式系统中的数据一致性。每个节点想获取锁时，会在Zookeeper上创建一个临时顺序节点（Ephemeral Sequential Node）。这些节点会按照顺序排列，最小的节点表示锁的拥有者，其他节点则监听比自己小的节点是否被删除。当锁的拥有者释放锁时，会删除自己的节点，此时下一个节点会成为锁的拥有者并继续执行操作。这种方式具有高可用性和强一致性，但实现相对复杂，且需要额外的Zookeeper集群来支持。

分布式锁实现方案的评估与选择
在选择合适的分布式锁实现方案时，需要综合考虑系统的性能、可扩展性、数据一致性、可靠性等因素。以下是一些评估与选择的建议：

性能：根据系统的并发量和响应时间要求，选择对性能影响较小的方案。例如，在高并发场景下，基于数据库的分布式锁可能会因为数据库的性能瓶颈而导致性能下降；而基于缓存（如Redis）的分布式锁则通常具有更好的性能表现。

可扩展性：考虑系统未来的扩展需求，选择易于扩展和维护的方案。例如，基于Redis的分布式锁可以通过增加Redis实例来扩展系统的性能和容量；而基于Zookeeper的分布式锁则需要考虑Zookeeper集群的扩展和维护成本。

数据一致性：根据业务对数据一致性的要求，选择能够提供强一致性或最终一致性的方案。例如，对于金融支付等关键业务场景，需要选择能够提供强一致性的方案（如基于Zookeeper的分布式锁）；而对于一些非关键业务场景，可以选择最终一致性的方案（如基于缓存的分布式锁，并设置合理的超时时间和重试机制）。

可靠性：考虑系统的可靠性和容错性需求，选择具有高可用性和容错性的方案。例如，基于Redis的分布式锁可以通过主从架构或集群模式来提高系统的可靠性和容错性；而基于数据库的分布式锁则需要考虑数据库的备份和恢复策略以及事务的回滚机制等。

什么是分布式幂等性，如何在分布式系统中设计幂等性？

分布式幂等性是指一种设计方式，使得分布式系统中的操作在多次执行时具有相同的结果，而不需要额外的同步控制。设计具有幂等性的分布式系统可以有效避免数据不一致和重复处理的问题。以下是在分布式系统中设计幂等性的关键步骤和策略：

一、理解幂等性的概念
幂等性是指一个操作无论执行多少次，其结果都相同。在分布式系统中，这通常意味着多次调用同一接口或执行同一操作，不会对系统状态产生不同的影响。例如，用户创建操作应该是幂等的，即调用一次和多次应只创建一个用户。

二、确定幂等性操作
在设计分布式系统时，首先需要确定哪些操作是幂等的。这通常包括那些不会因为并发执行而产生不同结果的操作，如插入（在不存在时）、更新（在特定条件下）和删除（在存在时）等。

三、使用唯一标识符
为了确保幂等性，可以使用唯一标识符（如UUID）来区分不同的操作实例。在处理请求时，系统可以检查该标识符以确定操作是否已执行过。如果已执行过，则可以直接返回结果而不执行实际的操作。

四、实现幂等性的具体策略
1、全局唯一索引：

在数据库中为需要幂等性的操作设置全局唯一索引。这可以防止重复数据插入，并确保每次操作都是唯一的。

2、Token机制：

在执行操作前，向系统申请一个唯一的Token。该Token在请求中携带，并在服务器端进行验证。如果Token已存在，则表示该操作已执行过，直接返回结果。

Token可以存储在Redis等缓存中，并设置有效时间。在处理完请求后，删除对应的Token。

3、乐观锁：

为数据库表增加一个version字段，每次更新操作时检查version字段是否匹配。如果匹配，则执行更新并增加version值；如果不匹配，则表示该记录已被其他操作修改过，返回错误或重新尝试。

4、分布式锁：

在处理关键业务逻辑时，使用分布式锁来确保同一时间只有一个线程或进程能够执行该操作。这可以通过Redis、Zookeeper等分布式锁实现。

5、事务与补偿机制：

在涉及多个服务的分布式事务中，可以使用事务管理器来确保所有操作要么全部成功，要么全部回滚。此外，还可以设计补偿机制来处理失败的操作。

五、考虑容错性和一致性
在设计分布式幂等性时，还需要考虑容错性和一致性。例如，当系统发生故障或网络中断时，应确保操作能够正确重试而不导致数据不一致。这可以通过记录操作日志、使用幂等性标识和事务回滚等机制来实现。

在分布式系统中，如何进行负载均衡和容错处理？

在分布式系统中，负载均衡和容错处理是两个至关重要的方面。以下是对这两个方面的详细探讨：

一、负载均衡
负载均衡是指将网络流量分发到不同的服务器上，以实现资源的均衡利用和提高系统的性能、可靠性和可扩展性。分布式系统中的负载均衡可以通过多种方式实现，主要包括：

1、软件负载均衡与硬件负载均衡：
软件负载均衡：通过在服务器相应的操作系统上安装一个或多个附加软件来实现负载均衡，如DNS Load Balance、CheckPoint Firewall-1 ConnectControl等。

硬件负载均衡：直接在服务器和外部网络间安装负载均衡设备，这种设备通常称之为负载均衡器。由于专门的设备完成专门的任务，独立于操作系统，整体性能得到大量提高，加上多样化的负载均衡策略，智能化的流量管理，可达到最佳的负载均衡需求。

2、负载均衡算法：
静态负载均衡算法：以固定的概率分配任务，不考虑服务器的状态信息，如轮转算法、加权轮转算法等。

动态负载均衡算法：以服务器的实时负载状态信息来决定任务的分配，如最小连接法、加权最小连接法等。

3、负载均衡的部署方式：
路由模式：部署灵活，约60%的用户采用这种方式部署。

桥接模式：不改变现有的网络架构。

服务直接返回（DSR）模式：比较适合吞吐量大特别是内容分发的网络应用，约30%的用户采用这种模式。

4、其他负载均衡技术：
反向代理负载均衡：如Apache+JK2+Tomcat组合，多个客户使用它访问内部Web服务器。

基于NAT的负载均衡技术：如Linux VirtualServer（LVS），通过一个地址转换网关将每个外部连接均匀转换为不同的内部服务器地址。

二、容错处理
容错是指分布式系统在出现故障或网络延迟等问题时，能够及时发现问题，并采取相应的措施进行恢复，以确保系统的正常运行。分布式系统中的容错处理主要包括以下几个方面：

1、数据备份：
将数据备份在其他节点，一旦出现故障，备份数据可以被放置在故障点上，从而避免数据丢失。

备份数据可以在不同节点之间复制，从而保证数据的容错性和高可用性。

2、故障检测：
是容错处理的核心。通过使用心跳机制或其他机制，可以快速检测到节点是否可用。

通常由一组监控节点负责检查分布式系统的活动情况和节点是否正常，如果发现节点故障，则会进行自动修复或告警，保证整个系统的可用性。

3、故障恢复：
当发生节点故障时，需要快速进行恢复。

可以通过重新分配节点、分裂集群或转移权威等方法来解决节点故障的问题，从而恢复分布式系统“集聚”的健康运行。

4、冗余配置：
在关键节点或组件上配置冗余设备或资源，以在故障发生时提供备用支持。

分布式系统相关面试题收集

目录什么是分布式系统，以及它有哪些主要特性？ 分布式系统中如何保证数据的一致性？ 解释一下CAP理论，并说明在分布式系统中如何权衡CAP三者？ 什么是分布式事务，以及它的实现方式有哪些？ 什么是…...

编程日记 2026/5/6 23:42:23

CSAPP学习：前言

前言本书简称CS：APP。背景知识一些基础的C语言知识如何阅读 Do-做系统在真正的系统上解决具体的问题，或是编写和运行程序。章节 2025-1-27 个人认为如下章节将会对学习408中的操作系统与计算机组成原理提供帮助，于是先凭借记忆将其简单…...

编程日记 2026/5/9 7:34:13

kaggle比赛入门 - House Prices - Advanced Regression Techniques（第三部分）

本文承接上一篇。 1. 数据预处理流水线（pipelines） from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline from sklearn.impute import SimpleImputer from sklearn.preprocessing import StandardScaler, OneHotEnc…...

编程日记 2026/4/22 15:48:02

Linux 命令之技巧（Tips for Linux Commands）

Linux 命令之技巧简介 Linux ‌是一种免费使用和自由传播的类Unix操作系统，其内核由林纳斯本纳第克特托瓦兹（Linus Benedict Torvalds）于1991年10月5日首次发布。Linux继承了Unix以网络为核心的设计思想，是一个性能稳定的多用户…...

编程日记 2025/5/27 23:40:34

从 GShard 到 DeepSeek-V3：回顾 MoE 大模型负载均衡策略演进

作者：小天狼星不来客原文：https://zhuanlan.zhihu.com/p/19117825360 故事要从 GShard 说起——当时，人们意识到拥有数十亿甚至数万亿参数的模型可以通过某种形式的“稀疏化（sparsified）”来在保持高精度的同时加速训…...

编程日记 2026/3/20 7:25:25

【番外篇】鸿蒙扫雷天纪：运混沌灵智勘破雷劫天局

大家好啊，我是小象٩(๑ω๑)۶ 我的博客：Xiao Xiangζั͡ޓއއ 很高兴见到大家，希望能够和大家一起交流学习，共同进步。这一节课我们不学习新的知识，我们来做一个扫雷小游戏目录扫雷小游戏概述一、扫雷游戏分析…...

编程日记 2026/5/9 2:24:31

【反悔堆】力扣1642. 可以到达的最远建筑

给你一个整数数组 heights ，表示建筑物的高度。另有一些砖块 bricks 和梯子 ladders 。你从建筑物 0 开始旅程，不断向后面的建筑物移动，期间可能会用到砖块或梯子。当从建筑物 i 移动到建筑物 i1（下标从 0 开始 ）…...

编程日记 2026/5/9 2:21:35

字符串算法笔记

字符串笔记说到字符串，首先我们要注意的就是字符串的输入以及输出，因为字符串的输入格式以及要求也分为很多种，我们就来说几个比较常见的格式 g e t s gets gets 我们先来说这个函数的含义...

编程日记 2026/3/20 13:16:47

AWTK 骨骼动画控件用法

创建骨骼动画控件 atlas 指定纹理图集文件，skeleton 指定骨骼动画数据文件。可以是相对路径或绝对路径。atlas 中引用的图片文件需要和 skeleton 文件在同一目录下。 scale_x 和 scale_y 指定缩放比例，根据实际情况调整。 scale_time 指定播放速度&am…...

编程日记 2026/2/21 4:24:18

解决Oracle SQL语句性能问题（10.5）——常用Hint及语法（7）（其他Hint）

10.5.3. 常用hint 10.5.3.7. 其他Hint 1）cardinality：显式的指示优化器为SQL语句的某个行源指定势。该Hint具体语法如下所示。 SQL> select /*+ cardinality([@qb] [table] card ) */ ...; --注： 1）这里，第一个参数（@qb）为可选参数，指定查询语句块名；第二个参数…...

编程日记 2026/3/2 13:10:20

如何写美赛（MCM/ICM）论文中的Summary部分

美赛（MCM/ICM）作为一个数学建模竞赛，要求参赛者在有限的时间内解决一个复杂的实际问题，并通过数学建模、数据分析和计算机模拟等手段给出有效的解决方案。在美赛的论文中，Summary部分（通常也称为摘要）是非常关键的，它是整个论文的缩影，能让评审快速了解你解决问题的思…...

编程日记 2026/2/18 17:30:25

DataWhale组队学习 fun-transformer task5

1. 词向量：单词的“身份证” 首先，我们定义了四个单词的词向量，每个向量维度为3。你可以把这些词向量想象成每个单词的“身份证”。每个身份证上有3个特征，用来描述这个单词的“性格”或“特点”。 word_1 np.array([1, 0, 0])…...

编程日记 2025/11/28 13:45:56

【huawei】云计算的备份和容灾

目录 1 备份和容灾 2 灾备的作用？ ① 备份的作用 ② 容灾的作用 3 灾备的衡量指标 ① 数据恢复时间点（RPO，Recoyery Point Objective） ② 应用恢复时间（RTO，Recoyery Time Objective） 4…...

编程日记 2025/11/27 4:51:13

电力晶体管（GTR）全控性器件

电力晶体管（Giant Transistor，GTR）是一种全控性器件，以下是关于它的详细介绍：（模电普通晶体管三极管进行对比学习） 基本概念 GTR是一种耐高电压、大电流的双极结型晶体管（BJT&am…...

编程日记 2026/5/9 3:20:06

LQ1052 Fibonacci斐波那契数列

题目描述 Fibonacci斐波那契数列也称为兔子数列，它的递推公式为：FnFn-1Fn-2，其中F1F21。当n比较大时，Fn也非常大，现在小蓝想知道，Fn除以10007的余数是多少，请你编程告诉她。输入输入包含一…...

编程日记 2026/2/26 18:18:28

Cursor 帮你写一个小程序

Cursor注册地址首先下载客户端点击链接下载 1 打开微信开发者工具创建一个小程序项目选择TS-基础模版官方 2 然后使用Cursor打开小程序创建的项目 3 在CHAT聊天框输入自己的需求比如小程序功能描述：吃什么助手项目名称： 吃什么小程序功能目标…...

编程日记 2026/5/11 13:46:50

【机器学习】嘿马机器学习（算法篇）第13篇：决策树算法,学习目标【附代码文档】

本教程的知识点为：机器学习算法定位、 K-近邻算法 1.4 k值的选择 1 K值选择说明 1.6 案例：鸢尾花种类预测--数据集介绍 1 案例：鸢尾花种类预测 1.8 案例：鸢尾花种类预测—流程实现 1 再识K-近邻算法API 1.11 案例2：预测…...

编程日记 2026/5/10 6:42:02

echo ‘export PATH=/usr/local/bin:$PATH‘ ＞＞ ~/.bashrc这个和直接添加到/etc/profile有什么区别

echo export PATH/usr/local/bin:$PATH >> ~/.bashrc 和直接添加到 /etc/profile 都是用于修改 PATH 环境变量，但它们适用的范围和效果有所不同： 1. 修改 ~/.bashrc 文件作用范围：~/.bashrc 是针对当前用户的配置文件，它…...

编程日记 2026/5/9 1:24:05

菜鸟之路Day09一一集合进阶(二)

菜鸟之路Day09一一集合进阶(二) 作者：blue 时间：2025.1.27 文章目录菜鸟之路Day09一一集合进阶(二)0.概述1.泛型1.1泛型概述1.2泛型类1.3泛型方法1.4泛型接口1.5泛型通配符 2.Set系列集合2.1遍历方式2.2HashSet2.3LinkedHashSet2.4TreeSet 0.概述内…...

编程日记 2026/3/25 3:27:10

写在新年之际

各位关注我的小伙伴们，大家好！ 在这新年来临之际，首先祝大家新年快乐！愿新的一年充满机遇与收获，愿我们在各自的领域中继续突破和成长！ 回顾2024年，这是充满变革的一年，不仅世界局…...

编程日记 2026/3/25 6:06:31

【shell工具】编写一个批量扫描IP地址的shell脚本

批量扫描某个网段中的主机（并发） 创建目录编写脚本文件 mkdir /root/ip_scan_shell/ touch /root/ip_scan_shell/online_server.txt touch /root/ip_scan_shell/offline_server.txt touch /root/ip_scan_shell/ip_scan.sh写入下面shell到脚本文件中…...

编程日记 2026/5/11 9:11:06

分库分表后如何进行join操作

在分库分表后的系统中，进行表之间的 JOIN 操作比在单一数据库表中复杂得多，因为涉及的数据可能位于不同的物理节点或分片中。此时，传统的 SQL JOIN 语句不能直接用于不同分片的数据，以下是几种处理这样的跨分片 JOIN 操作的方法&a…...

编程日记 2025/5/20 3:05:46

004 mybatis基础应用之全局配置文件

文章目录配置内容properties标签typeAlias标签mappers标签配置内容 SqlMapConfig.xml中配置的内容和顺序如下： properties（属性） settings（全局配置参数） typeAliases（类型别名） typeHandler…...

编程日记 2026/4/27 10:08:43

vim如何设置制表符表示的空格数量

:set tabstop4 设置制表符表示的空格数量制表符就是tab键，一般默认是四个空格的数量示例： （vim如何使设置制表符表示的空格数量永久生效：vim如何使相关设置永久生效-CSDN博客）...

编程日记 2026/5/12 6:57:17

基于dlib/face recognition人脸识别推拉流实现

目录一.环境搭建二.推拉流代码三.人脸检测推拉流一.环境搭建 1.下载RTSP服务器MediaMTX与FFmpeg FFmpeg是一款功能强大的开源多媒体处理工具，而MediaMTX则是一个轻量级的流媒体服务器。两者结合，可以实现将本地视频或者实时摄像头画面推送到RTSP流，从而实现视频…...

编程日记 2026/5/2 6:12:41

LangChain：使用表达式语言优化提示词链

在 LangChain 里，LCEL 即 LangChain Expression Language（LangChain 表达式语言），本文为你详细介绍它的定义、作用、优势并举例说明，从简单示例到复杂组合示例，让你快速掌握LCEL表达式语言使用技巧。定义 …...

编程日记 2026/5/7 7:22:39

多线程编程杂谈( 下)

问题是否存在其它中途线程退出的方法？ 通过调用Linux系统函数 pthread_cancel(...) 可中途退出线程 Linux 提供了线程取消函数取消状态接受取消状态: PTHREAD_CANCEL_ENABLE拒绝取消状态: PTHREAD_CANCEL_DISABLE 取消请求延迟取消: PTHREAD_CANCEL_DEFERR…...

编程日记 2026/5/11 8:00:50

rdma-core debug

export MLX5_DEBUG_MASK0xff export MLX5_DEBUG_FILE/tmp/mlx5.txt git clone https://github.com/linux-rdma/rdma-core.git cd rdma-core ./build.sh 修改build/CMakeCache.txt MLX5_DEBUG:BOOLTRUE function install_rdma_core {local dir/swgwork/cmi/rdma-core/buil…...

编程日记 2025/9/28 14:36:15