Elasticsearch 故障转移及水平扩容
一、故障转移
Elasticsearch 的故障转移(Failover)机制是其高可用性的核心,通过分布式设计、自动检测和恢复策略确保集群在节点故障时持续服务。
1.1 故障转移的核心组件
| 组件 | 作用 |
|---|---|
| Master 节点 | 管理集群状态(分片分配、索引创建)、协调故障转移 |
| Data 节点 | 存储分片数据,参与分片复制 |
| Zen Discovery | 7.x 之前版本的节点发现和故障检测机制 |
| Raft 协议 | 7.x+ 版本用于 Master 选举的共识算法 |
| 分片副本(Replicas) | 数据冗余的基础,主分片故障时副本自动晋升 |
1.2 故障检测机制
-
心跳检测(Ping)
- 检测方式:节点间定期发送心跳(默认间隔 1s,超时 30s)。
- 关键参数:
discovery.zen.fd.ping_interval: 1s # 心跳间隔 discovery.zen.fd.ping_timeout: 30s # 超时判定 discovery.zen.fd.ping_retries: 3 # 重试次数
-
Master 选举
- 7.x 之前版本:基于 discovery.zen.minimum_master_nodes(防止脑裂)。
- 7.x+ 版本:使用 Raft 协议自动选举,需配置 cluster.initial_master_nodes。
1.3 故障转移流程
场景1:Data 节点故障
- 检测阶段:Master 节点检测到 Data 节点心跳丢失(超时 30s)。
- 分片重新分配:
- 若故障节点包含主分片,其对应的副本分片自动晋升为新主分片。
- 若副本不足,集群状态变为 yellow。
- 恢复新副本:Master 在健康节点上创建新的副本分片,恢复 green 状态。
场景2:Master 节点故障
- 选举触发:剩余 Master 候选节点发起新一轮选举(基于 Raft 协议)。
- 新 Master 生效:当选节点接管集群状态管理。
- 元数据同步:新 Master 从全局集群状态恢复分片分配信息。
场景3:网络分区(Split-Brain)
- 防护机制:
- 7.x 之前:minimum_master_nodes 阻止少数派选举。
- 7.x+:Raft 协议自动隔离少数派分区。
- 恢复:网络恢复后,少数派节点重新加入集群并同步数据。
1.4 手动故障转移场景与操作
-
节点计划性维护(如升级)
# 1. 排除节点分片分配 PUT _cluster/settings {"persistent": {"cluster.routing.allocation.exclude._name": "es-old-node"} }# 2. 等待分片迁移完成(检查无分片在此节点) GET _cat/shards?v&h=index,shard,node# 3. 安全停止节点 docker stop es-old-node -
分片强制分配(自动恢复失败时)
# 手动分配未分配的分片 POST /_cluster/reroute {"commands": [{"allocate_stale_primary": {"index": "logs-2023-10","shard": 0,"node": "es-new-node","accept_data_loss": true # 仅在必要时使用!}}] }
1.5 故障转移配置优化
-
控制分片恢复速度
# 避免瞬时带宽和 CPU 过载 cluster.routing.allocation.node_initial_primaries_recoveries: 4 cluster.routing.allocation.node_concurrent_recoveries: 2 indices.recovery.max_bytes_per_sec: 100mb -
延迟分片分配(应对短暂故障)
# 默认 1m,可延长至 5m 避免频繁迁移 index.unassigned.node_left.delayed_timeout: 5m -
优先恢复主分片
cluster.routing.allocation.enable: "primaries"
1.6 故障转移注意事项
- 避免脑裂:合理配置 discovery.zen.minimum_master_nodes(通常为 (master_eligible_nodes / 2) + 1)。
- 副本分片数量:设置 number_of_replicas ≥ 1,确保每个主分片有至少一个副本。
- 分片均衡:避免热点分片集中,合理设计索引和分片数量。
- 慢恢复问题:大规模分片恢复可能影响性能,可通过 cluster.routing.allocation.node_concurrent_recoveries 限制并发恢复数。
- 跨可用区部署:通过 awareness 配置将分片分布到不同机架或可用区(AZ),避免单点故障。
二、水平扩容
Elasticsearch 的水平扩容(Horizontal Scaling)是通过增加节点数量来扩展集群的处理能力和存储容量,以应对数据量增长或高并发请求的场景。其核心思想是利用分布式架构的特性,将数据和负载均匀分配到更多节点上。
2.1 水平扩容的核心原理
Elasticsearch 的分布式架构天然支持水平扩容,关键点包括:
- 分片(Shard)机制:索引被拆分为多个主分片(Primary Shard)和副本分片(Replica Shard),分片分布在集群的各个节点。
- 自动负载均衡:新增节点后,Elasticsearch 会自动将部分分片迁移到新节点,实现负载均衡。
- 无缝扩展:扩容过程对用户透明,无需停机或手动干预数据迁移。
2.2 水平扩容的典型场景
- 存储容量不足:原始节点磁盘空间不足,需增加节点扩展存储。
- 性能瓶颈:查询延迟高或写入吞吐量不足,需分散负载。
- 高可用性需求:通过更多节点提高副本分片数量,增强容错能力。
2.3 水平扩容的具体步骤
步骤 1:添加新节点到集群
- 配置新节点:
- 在新节点上安装 Elasticsearch,确保以下配置与现有集群一致:
# elasticsearch.yml cluster.name: my-cluster # 集群名称必须一致 discovery.seed_hosts: ["node1_ip:9300", "node2_ip:9300"] # 现有集群节点地址- 若新节点是数据节点,确保 node.roles: [ data ](默认角色)。
- 若新节点是专用主节点或协调节点,需显式配置角色。
- 在新节点上安装 Elasticsearch,确保以下配置与现有集群一致:
- 启动新节点:
- 新节点会自动加入集群,并接收分片分配任务。
步骤 2:调整分片分配策略
Elasticsearch 默认会自动将分片分配到新节点,但可以通过配置优化:
-
延迟分片分配(避免瞬时负载激增):
PUT /_cluster/settings {"transient": {"cluster.routing.allocation.node_initial_primaries_recoveries": 1, // 单节点并行恢复主分片数"cluster.routing.allocation.cluster_concurrent_rebalance": 2 // 并发分片迁移数} } -
排除旧节点(逐步迁移):
PUT /_cluster/settings {"persistent": {"cluster.routing.allocation.exclude._ip": "old_node_ip" // 从旧节点移出分片} }
步骤 3:调整索引分片数
-
新建索引时指定分片数:
水平扩容前需合理规划主分片数量(主分片数在创建索引后不可修改):PUT /my_index {"settings": {"number_of_shards": 6, // 主分片数需提前规划"number_of_replicas": 1 // 副本分片数可动态调整} } -
动态调整副本分片数(即时生效):
PUT /my_index/_settings {"number_of_replicas": 2 // 增加副本分片,提升容错和读取性能 }
步骤 4:触发分片重平衡
- 自动均衡:
- 默认情况下,Elasticsearch 会在节点加入集群后自动迁移分片。
- 手动触发:
- 若需强制重新分配分片,使用 _cluster/reroute API:
POST /_cluster/reroute {"commands": [{"move": {"index": "my_index","shard": 0,"from_node": "old_node","to_node": "new_node"}}] }
- 若需强制重新分配分片,使用 _cluster/reroute API:
2.4 扩容后的优化策略
-
分片设计优化
- 主分片数:
- 建议每个分片大小在 10GB-50GB 之间(避免过大导致迁移慢)。
- 主分片数应与数据增长预期匹配,通常可按 数据总量 / 30GB 估算。
- 副本分片数:
- 增加 number_of_replicas 可提高读取吞吐量和容错能力,但会占用更多存储。
- 主分片数:
-
跨节点负载均衡
- 分片分配过滤:
- 通过 awareness 配置实现跨机架或可用区(AZ)分布:
# elasticsearch.yml cluster.routing.allocation.awareness.attributes: rack # 按机架感知分配 node.attr.rack: rack1 # 节点所属机架 - 热冷分离架构:
- 使用 ILM(Index Lifecycle Management) 将冷数据迁移到低成本节点。
- 分片分配过滤:
2.5 水平扩容的注意事项
- 主分片数不可变:
- 索引的主分片数量在创建后无法修改,需提前规划或通过 Reindex API 重建索引。
- 网络与硬件一致性:
- 新节点的硬件配置(如磁盘类型、CPU)应与旧节点尽量一致,避免性能瓶颈。
- 脑裂风险:
- 扩容主节点时,确保 discovery.zen.minimum_master_nodes(7.x 之前版本)配置正确,防止多主节点冲突。
- 分片分布均匀性:
- 避免分片集中在少数节点,可通过 _cluster/allocation/explain 分析未分配分片的原因。
相关文章:
Elasticsearch 故障转移及水平扩容
一、故障转移 Elasticsearch 的故障转移(Failover)机制是其高可用性的核心,通过分布式设计、自动检测和恢复策略确保集群在节点故障时持续服务。 1.1 故障转移的核心组件 组件作用Master 节点管理集群状态(分片分配、索引创建&…...
机器学习中 提到的张量是什么?
在机器学习中, 张量(Tensor) 是一个核心数学概念,用于表示和操作多维数据。以下是关于张量的详细解析: 一、数学定义与本质 张量在数学和物理学中的定义具有多重视角: 多维数组视角 传统数学和物理学中,张量被定义为多维数组,其分量在坐标变换时遵循协变或逆变规则。例…...
edge 更新到135后,Clash 打开后,正常网页也会自动跳转
发现了一个有意思的问题:edge 更新135后,以前正常使用的clash出现了打开deepseek也会自动跳转: Search Resultshttps://zurefy.com/zu1.php#gsc.tab0&gsc.qdeepseek ,也就是不需要梯子的网站打不开了,需要的一直正…...
prime 1 靶场笔记(渗透测试)
环境说明: 靶机prime1和kali都使用的是NAT模式,网段在192.168.144.0/24。 Download (Mirror): https://download.vulnhub.com/prime/Prime_Series_Level-1.rar 一.信息收集 1.主机探测: 使用nmap进行全面扫描扫描,找到目标地址及…...
实验一 字符串匹配实验
一、实验目的 1.熟悉汇编语言编程环境和DEBUG调试程序的使用。 2.掌握键盘输入字符串的方法和分支程序的设计。 二、实验内容 编程实现:从键盘分别输入两个字符串,然后进行比较,若两个字符串的长度…...
跨境电商中的几种支付方式——T/T、L/C、D/P、D/A、O/A
在进行跨境电商的B端系统设计时,需要考虑的关键方面之一是支付流程。它为交易的成功奠定了基础,并确保涉及的双方都受到保护。 在本文中,我们将深入探讨各种常见支付方式的复杂性,包括电汇 (T/T)、信用证 (L/C)、付款交单 (D/P)、…...
第16届蓝桥杯单片机模拟试题Ⅲ
试题 代码 sys.h #ifndef __SYS_H__ #define __SYS_H__#include <STC15F2K60S2.H> //sys.c extern unsigned char UI; //界面标志(0湿度界面、1参数界面、2时间界面) extern unsigned char time; //时间间隔(1s~10S) extern bit ssflag; //启动/停止标志…...
打造现代数据基础架构:MinIO对象存储完全指南
目录 打造现代数据基础架构:MinIO对象存储完全指南1. MinIO介绍1.1 什么是对象存储?1.2 MinIO核心特点1.3 MinIO使用场景 2. MinIO部署方案对比2.1 单节点单驱动器(SNSD/Standalone)2.2 单节点多驱动器(SNMD/Standalone Multi-Drive)2.3 多节点多驱动器(…...
OOM问题排查和解决
问题 java.lang.OutOfMemoryError: Java heap space 排查 排查手段 jmap命令 jmap -dump,formatb,file<file-path> <pid> 比如 jmap -dump:formatb,file./heap.hprof 44532 使用JVisualVM工具: JVisualVM是一个图形界面工具,它可以帮…...
OSI 七层模型与 TCP/IP 协议栈详解
OSI 七层模型与 TCP/IP 协议栈详解 网络协议模型是理解计算机网络和通信的基础,而 OSI 七层模型和 TCP/IP 协议栈是最常见的两种网络通信模型。虽然这两者有些不同,但它们都提供了一种分层的结构,帮助我们理解和设计网络通信。本文将详细介绍…...
「出海匠」借助CloudPilot AI实现AWS降本60%,支撑AI电商高速增长
🔎公司简介 「出海匠」(chuhaijiang.com)是「数绘星云」公司打造的社交内容电商服务平台,专注于为跨境生态参与者提供数据支持与智能化工作流。平台基于大数据与 AI 技术,帮助商家精准分析市场趋势、优化运营策略&…...
LeetCode[541]反转字符串Ⅱ
思路: 题目给我们加了几个规则,剩余长度小于2k,大于等于k就反转k个,小于k就全部反转,我们按照这个逻辑来就行。 第一就是大于等于k就反转k个,我们for循环肯定是i2k了,接下来就是判断是否大于等于…...
队列的各种操作实现(数据结构C语言多文件编写)
1.先创建queue.h声明文件(Linux命令:touch queue.h)。编写函数声明如下(打开文件 Linux 操作命令:vim queue.h): //头文件 #ifndef __QUEUE_H__ #define __QUEUE_H__ //队列 typedef struct queue{int* arr;int in;int out;int cap;int size; }queue_t;…...
# Unity动画控制核心:Animator状态机与C#脚本实战指南 (Day 29)
Langchain系列文章目录 01-玩转LangChain:从模型调用到Prompt模板与输出解析的完整指南 02-玩转 LangChain Memory 模块:四种记忆类型详解及应用场景全覆盖 03-全面掌握 LangChain:从核心链条构建到动态任务分配的实战指南 04-玩转 LangChai…...
C++中extern关键字
C中extern关键字的完整用法总结 extern是C中管理链接性(linkage)的重要关键字,主要用于声明外部定义的变量或函数。以下是详细的用法分类和完整示例: 一、基本用法 1. 声明外部全局变量 // globals.cpp int g_globalVar 42; …...
【Python爬虫】简单案例介绍3
本文继续接着我的上一篇博客【Python爬虫】简单案例介绍2-CSDN博客 目录 3.3 代码开发 3.3 代码开发 编写代码的步骤: request请求科普中国网站地址url,解析得到类名为"list-block"的div标签。 for循环遍历这个div列表里的每个div࿰…...
计算机视觉与深度学习 | 视觉里程计(Visual Odometry, VO)学习思路总结
视觉里程计(Visual Odometry, VO)学习思路总结 视觉里程计(VO)是通过摄像头捕获的图像序列估计相机运动轨迹的技术,广泛应用于机器人、自动驾驶和增强现实等领域。以下是一个系统的学习路径,涵盖基础理论、核心算法、工具及实践建议:一、基础理论与数学准备 核心数学工具…...
android面试情景题详解:android如何处理断网、网络切换或低速网络情况下的业务连续性
在移动互联网时代,Android应用已经成为人们日常生活中不可或缺的一部分。从社交媒体到在线购物,从移动办公到娱乐消费,几乎所有的服务都依赖于网络连接。然而,网络环境并非总是稳定可靠。断网、网络切换(如从Wi-Fi切换…...
swift菜鸟教程6-10(运算符,条件,循环,字符串,字符)
一个朴实无华的目录 今日学习内容:1.Swift 运算符算术运算符比较运算符逻辑运算符位运算符赋值运算区间运算符其他运算符 2.Swift 条件语句3.Swift 循环4.Swift 字符串字符串属性 isEmpty字符串常量let 变量var字符串中插入值字符串连接字符串长度 String.count使用…...
质变科技发布自主数据分析MCP Server
2025年4月9日,质变科技正式发布Relyt AI MCP(Model Context Protocol),结合Relyt AI 在自主数据分析领域的前沿积累与MCP的开放连接能力,我们为用户带来了一个更智能、更灵活的数据交互生态系统。这一发布不仅拓展了Re…...
如何通过技术手段降低开发成本
通过技术手段降低开发成本的关键在于: 自动化工具的使用、优化开发流程、云计算资源的利用、开发技术栈的精简与创新、团队协作平台的高效管理。 其中,自动化工具的使用是最为有效的技术手段之一。自动化工具通过减少人工干预和重复性工作,大…...
Ubuntu上docker、docker-compose的安装
今天来实践下Ubuntu上面安装docker跟docker-compose,为后面安装dify、fastgpt做准备。 一、安装docker sudo apt-get updatesudo apt-get install docker.io 然后系统输入 docker --version 出现下图即为docker安装成功。 二、安装docker-compose 我先看下系统…...
CSS 列表样式学习笔记
CSS 列表样式提供了强大的功能,用于定制 HTML 列表的外观。通过 CSS,可以轻松地改变列表项的标记类型、位置,甚至使用图像作为列表项标记。以下是对 CSS 列表样式的详细学习笔记。 一、HTML 列表类型 在 HTML 中,主要有两种类型…...
AI云游戏盒子:未来娱乐的新纪元
AI云游戏盒子:未来娱乐的新纪元 随着科技的不断进步,人工智能(AI)与云计算技术的结合正在重新定义我们享受数字娱乐的方式。2025年,一款名为“AI云游戏盒子”的产品正逐渐成为家庭娱乐的核心设备,它不仅集…...
OpenCV图像处理进阶教程:几何变换与频域分析全解析
OpenCV图像处理进阶教程:几何变换与频域分析全解析 📚 本文提供了OpenCV图像处理的核心操作详解,从基础的几何变换到高级的频域分析,代码示例清晰易懂,实用性强。完整代码已开源至GitHub:https://github.co…...
AJAX与Axios基础
目录 一、AJAX 核心概念解析 1.1 AJAX 的核心概念 1.2 AJAX 工作原理 1.3 AJAX 局限性 二、axios 库介绍 2.1 Axios 核心特性 2.2 快速上手 2.3 核心配置项 2.4 错误处理标准方案 三、Axios 核心配置项 3.1 常用核心配置项 1. url 2. method 3. params 4. data …...
[OS] vDSO + vvar(频繁调用的处理) | 存储:寄存器(高效)和栈(空间大)| ELF标准包装规范(加速程序加载)
vDSO vvar 一、社区公告板系统(类比 vDSO vvar) 想象你住在一个大型社区,管理员(内核)需要向居民(用户程序)提供实时信息(如天气预报、社区活动时间等)。直接让每个居…...
Sentinel源码—1.使用演示和简介二
大纲 1.Sentinel流量治理框架简介 2.Sentinel源码编译及Demo演示 3.Dashboard功能介绍 4.流控规则使用演示 5.熔断规则使用演示 6.热点规则使用演示 7.授权规则使用演示 8.系统规则使用演示 9.集群流控使用演示 5.熔断规则使用演示 (1)案例说明熔断和降级 (2)Sentin…...
IDEA的常用设置(更新中......)
文章目录 1. 自动导包2. 忽略大小写3. 设置项目文件编码格式4. 设置方法之间分割线5. 设置字体大小6. 设置IDEA默认不打开项目持续更新中...... 1. 自动导包 File->Settings->Editor->General>Auto Import 2. 忽略大小写 File->Editor->General->Code…...
SQL注入之时间盲注攻击流程详解
目录 一、时间盲注原理 二、完整攻击流程 1. 注入点确认 2. 基础条件判断 3. 系统信息收集 (1)获取数据库版本 (2)获取当前数据库名 4. 数据提取技术 (1)表名枚举 (2)列名猜…...
