当前位置：首页 > news >正文

ES 集群常用排查命令

news 2026/2/9 15:33:12

说明：集群使用非默认端口9200，使用的是7116端口举例

一、常用命令

#1.集群健康状态


[wlsadmin@elastic-01~]$ curl -XGET "http://10.219.27.00:7116/_cluster/health?pretty"
{
cluster name":"cluster"
"status": "yellow",   #集群状态
"timed out" : false,
"number of nodes": 3,  #集群的节点数
"number_of data nodes": 3, #数据节点数
"active_primary_shards" : 8036,  #集群中所有活跃的主分片数
"active shards": 16082, #集群中所有活跃的分片数
"relocating shards": 0, #当前节点迁往其他节点的分片数量，通常为0，当有节点加入或者退出时该值会增加。
"initializing shards": 0, #正在初始化的分片
"unassigned shards": 10,  #未分配的分片数，通常为0，当有某个节点的副本分片丢失该值就会增加。
"delayed unassigned shards": 0,
"number of pending tasks": 0, 是指主节点创建索引并分配shards等任务，如果该指标数值一直未减小代表集群存在不稳定因素
"number of in flight fetch" :0,
"task max waiting in queue millis": 0,
"active shards percent as number" :99.93785732040766  #集群分片健康度，活跃分片数占总分片数比例。
}说明：pending task只能由主节点来进行处理，这些任务包括创建索引并将shards分配给节点。

#2.集群状态信息

[wlsadmin@elastic-01~]$ curl -XGET "http://10.219.27.00:7116/_cluster/stats?pretty"
{"_nodes":{"total":3，"successful":3，"failed":0}，"cluster name":"cluster""timestamp": 1650958054278，"status": "yellow","indices":{"count”:1612，  #索引总数"shards":{"total”:16082,  #分片总数"primaries”:8036， #主分片数量"replication”: 1.001244400199104"index":{"shards":{"min": 2，"max”:15，"avg”: 9.97642679900744}，"docs”:{"count”: 6917866009,  #文档总数"deleted": 16940}，"store":{"size in bytes”:7722541162072  #数据总存储容量"throttle time in millis": 0}，"fielddata”:{"memory_size_in_bytes": 2400,"evictions”:0}，"segments”:{"count”:182641， #段总数"memory in bytes”: 22809369464,"terms memory in bytes": 20058152621"stored fields memory in bytes”:2091992312"term vectors memory in bytes”: 0,"norms memory in bytes":197683328,"points memory in bytes”: 170072327,"doc values memory in bytes”: 291468876,"index writer memory in bytes”:87483620"version map memory in bytes":346399，"fixed_bit_set memory_in_bytes”: 5536,"max unsafe auto id timestamp”:1650945037930"file_sizes”:{}}}，"nodes":{"count”:{"total”:3，  #总节点数"data”:3，  #数据节点数"coordinating_only”: 0,"master”: 3,"ingest”:3}，"versions”:["5.6.16"]， "fs":{"total in bytes”: 11249073020928,  #文件系统使用总容量"free in bytes”: 2432532422656,  #文件系统剩余总容量"available in bytes”: 1942384254976,"spins":"true"}...

#3.查看索引信息

[wlsadmin@elastic-01~]$ curl -XGET "http://10.219.27.00:7116/_cat/indices"
green open .kibana-event-log-7.8.0-000001 93qZ6-tUT1GJa9w-beZtqQ 1 1      5 0  51.5kb  25.7kb
green open .kibana-event-log-7.8.0-000002 aVeWX45vRqK5bi5ANvz3EA 1 1      0 0    416b    208b
green open .apm-custom-link               qMdSK3MAQxa4Ip37SPkaaw 1 1      0 0    416b    208b#4.查看节点信息
[wlsadmin@elastic-01~]$ curl -XGET "http://10.219.27.00:7116/_cat/nodes?pretty"
XX.XX.XX.XX 16 64 0 0.06 0.04 0.05 dilmrt * node-1   #主节点
XX.XX.XX.XX 11 64 0 0.00 0.01 0.05 dilmrt - node-2
XX.XX.XX.XX  9 67 0 0.00 0.01 0.05 dilmrt - node-3

#5.查看索引级别，找到红色的索引

[root@ES-node1]# curl -X GET /_cluster/health?level=shards
"apache-logs8xxxx”:{
"status" : "green",
"number_of_shards": 1,
"nusber_of_replicas":1.
"active_primary_shards":1,
"active_shards":2，
"relocating_shards”:0，
"initializing.shards”: 0
"unassignedshards”:0}，
"mytest”:{
"status" : "red",   #状态为红色的索引
"number_of_shards" :3.
"number_of_replicas":0.
"active_primary_shards": 0,
"active_shards" : 0,
"relocating shards": 0.
"initializing shards": 0.
"unassigned_shards”:3}，#6.查看变红原因(explanation变红原因)
GET /_cluster/allocation/explain
"node_decision" : "no",
"weight_ranking":3,"deciders”:[
{"decider":"filter","decision":"NO"，"explanation”:"""node does not match index setting Lindex.routing.allocation.require] filters [box type: "hott"]""

二、案例分析

2.1集群变红

症状：集群变红
分析：通过Allocation Explain API 发现创建索引失败，因为无法找到标记了相应box type的节点
解决：删除索引，集群变绿，重新创建索引，并且指定正确的routing box type，索引创建成功集群保持绿色状态

1.查看索引级别，找到红色的索引
GET /_cluster/health?level=shards
"apache-logs8xxxx”:{
"status" : "green",
"number_of_shards": 1,
"nusber_of_replicas":1.
"active_primary_shards":1,
"active_shards":2，
"relocating_shards”:0，
"initializing.shards”: 0
"unassignedshards”:0}，
"mytest”:{
"status" : "red",   #状态为红色的索引
"number_of_shards" :3.
"number_of_replicas":0.
"active_primary_shards": 0,
"active_shards" : 0,
"relocating shards": 0.
"initializing shards": 0.
"unassigned_shards”:3}，2.查看变红原因(explanation变红原因)
GET /_cluster/allocation/explain
"node_decision" : "no",
"weight_ranking":3,"deciders”:[
{"decider":"filter","decision":"NO"，   #因为box-type不符合规则，删除不正确的索引重新创建"explanation”:"""node does not match index setting Lindex.routing.allocation.require] filters [box type: "hott"]""3.删除错误的索引
curl -XDELETE localhost:9200/index_name #索引名字
DELETE  mytest4.重新创建新索引
PUT mytest
{
"settings":{
"number_of_shards":3,
"number_of_replicas":0
"index.routing.allocation.require.box_type":"hot"}

2.2集群变黄

症状：集群变黄
分析：通过Allocation Explain API 发现无法在相同的节点上创建副本（副本分片无法正常分配）
解决：将索引的副本数设置为0，或者通过增加节点解决

1.创建索引使集群变黄
PUT mytest
{"settings":{"nameber_of_shards":2, #分片2"namber_of_replicas":1, #副本1"index.routing.allocation.requice.box_type":'hot' #指定hot节点创建}
}2.查看集群健康状态为黄色
GET _cluster/health3.查看集群黄色原因(因为集群只有一个hot节点，不能再相同的节点上创建副本)
GET /_cluster/allocation/explain
"explanation": "the shard cannot be allocated to the same node on which a copy of the shard already exists[[mytest][1]，node[1-wAVO-FT0GLAdRk8-N-GQ]，[P]， s[STARTED]，a[id=_PLt4SS1SyGvxncvU3HN-w]]"4.解决方法
方法1：增加数据节点，使得有副本分配空间；
方法2：修改索引的setting使replicos为0
PUT mytest/_settings
{"namber_of_replicas":0
}
创建后集群恢复绿色状态

2.3集群磁盘空间达到阈值

问题：es节点磁盘占用较高，达到阈值，集群状态成red
此时直接删除索引磁盘空间是不会释放的，可以通过调整阈值，将集群状态变为yellow

通过api动态修改:transient 临时更改，persistent是永久更改临时修改：重启es后失效curl -H "Content-Type: application/json" -XPUT 10.203.118.32:9200/_cluster/settings -d '{"transient": { "cluster.routing.allocation.disk.watermark.low": "92%", "cluster.routing.allocation.disk.watermark.high": "95%", "cluster.info.update.interval": "1m"}}'永久修改：curl -H "Content-Type: application/json" -XPUT 10.203.118.32:9200/_cluster/settings -d '{"persistent": { "cluster.routing.allocation.disk.watermark.low": "90%", "cluster.routing.allocation.disk.watermark.high": "95%", "cluster.info.update.interval": "1m" } }’在删除索引可达到空间释放的作用
修改es配置文件，需要重启es

2.3.2 更改es配置文件，需要重启es

cluster.routing.allocation.disk.watermark.lowControls the low watermark for disk usage. It defaults to 85%, meaning that Elasticsearch will not allocate shards to nodes that have more than 85% disk used. It can also be set to an absolute byte value (like 500mb) to prevent Elasticsearch from allocating shards if less than the specified amount of space is available. This setting has no effect on the primary shards of newly-created indices or, specifically, any shards that have never previously been allocated.cluster.routing.allocation.disk.watermark.highControls the high watermark. It defaults to 90%, meaning that Elasticsearch will attempt to relocate shards away from a node whose disk usage is above 90%. It can also be set to an absolute byte value (similarly to the low watermark) to relocate shards away from a node if it has less than the specified amount of free space. This setting affects the allocation of all shards, whether previously allocated or not.cluster.routing.allocation.disk.watermark.flood_stageControls the flood stage watermark. It defaults to 95%, meaning that Elasticsearch enforces a read-only index block (index.blocks.read_only_allow_delete) on every index that has one or more shards allocated on the node that has at least one disk exceeding the flood stage. This is a last resort to prevent nodes from running out of disk space. The index block must be released manually once there is enough disk space available to allow indexing operations to continue.es 集群的默认配置是当集群中的某个节点磁盘达到使用率为 85% 的时候，就不会在该节点进行创建副本，当磁盘使用率达到 90% 的时候，尝试将该节点的副本重分配到其他节点。当磁盘使用率达到95% 的时候，当前节点的所有索引将被设置为只读索引。

ES 集群常用排查命令

说明：集群使用非默认端口9200，使用的是7116端口举例一、常用命令 #1.集群健康状态 [wlsadminelastic-01~]$ curl -XGET "http://10.219.27.00:7116/_cluster/health?pretty" { cluster name":"cluster" "status"…...

编程日记 2023/9/10 10:01:27

Nougat 深度剖析

Nougat 深度剖析项目地址：https://github.com/facebookresearch/nougat 论文地址：Nougat: Neural Optical Understanding for Academic Documents 0 背景近日，MetaAI又放了大招，他们提出了一种全新的端到端的OCR模型&#x…...

编程日记 2023/9/10 10:00:24

ffmpeg的使用

本文章记录ffmpeg 源码下载，编译，及使用。一、FFMPEG 源码下载解压源码官网地址：http://ffmpeg.org/download.html#releases 下载最新版本ffmpeg6.0。使用命令tar xvJf ffmpeg-6.0.tar.xz 解压。二、了解FFMPEG源码 （一&am…...

编程日记 2023/9/10 9:59:22

深度强化学习算法的参数更新时机

深度强化学习算法的参数更新时机深度强化学习中往往涉及到多个神经网络来拟合策略函数、值函数等，什么时候更新参数因算法而异，与具体算法架构/算法思想紧密相关。算法参数更新时机架构DQN先收集一定经验，然后每步更新Off Policy Value-B…...

编程日记 2023/9/10 9:58:21

【进阶篇】MySQL的MVCC实现机制详解

文章目录 0.前言1.基础介绍1.1. 什么是MVCC?1.1. 什么是当前读和快照读？1.1. 当前读，快照读和MVCC的关系1.1. MVCC能解决什么问题，好处是？1.1.1. 提高并发性能1.1.2. 避免死锁1.1.3. 解决脏读、不可重复读和幻读等问题1.1.4. 实现…...

编程日记 2023/9/10 9:57:20

Git 命令行查看仓库信息

目录查看系统config 编辑查看当前用户（global）配置查看当前仓库配置信息查看系统config git config --system --list 1 查看当前用户（global）配置 git config --global --list 1 查到的是email , name 等ssl签名信息&a…...

编程日记 2023/9/10 9:56:18

【爬虫】8.1. 深度使用tesseract-OCR技术识别图形验证码

深度使用tesseract-OCR技术识别图形验证码文章目录深度使用tesseract-OCR技术识别图形验证码1. OCR技术2. 准备工作3. 简单作用了解3.1. 验证码图片爬取-screenshot_as_png3.2. 识别测试-image_to_string3.2.1. 正确识别3.2.2. 错误识别3.2.3. 灰度调节 3.3. 识别实战-使用im…...

编程日记 2023/9/10 9:55:17

【PythonRS】基于GDAL修改栅格数据的DN值

遥感工作者离不开栅格数据，有时候我们可能需要修改栅格数据的值，但ENVI和ArcGIS中并没有直接修改DN值的工具，只有栅格计算器、Band math这些工具去计算整个波段的值，或者Edit Classification Image工具可以修改ENVI分类后的像元值…...

编程日记 2023/9/10 9:54:15

mysql课堂笔记 mac

目录启动mac上的mysql 进入mysql mac windows 创建数据库创建表修改字段数据类型修改字段名增加字段删除字段启动mac上的mysql sudo /usr/local/mysql/support-files/mysql.server start 直接输入你的开机密码即可。编辑进入mysql mac sudo /usr/local…...

编程日记 2023/9/10 9:53:14

2023年数学建模国赛A 定日镜场的优化设计思路分析

构建以新能源为主体的新型电力系统，是我国实现“碳达峰”“碳中和”目标的一项重要措施。塔式太阳能光热发电是一种低碳环保的新型清洁能源技术[1]。定日镜是塔式太阳能光热发电站（以下简称塔式电站）收集太阳能的基本组件，其底座由…...

编程日记 2023/9/10 9:52:13

【QT】QMessageBox消息框的使用（16）

在实际项目中，弹出消息框是一个很常见的操作，包含错误信息提示、警告信息提示、关于信息提示、还包括判断信息选择等操作，那么今天通过这一节来好好了解下消息框的使用方法。一.环境配置 1.python 3.7.8 可直接进入官网下载安装&#xf…...

编程日记 2023/9/10 9:51:12

XL-LightHouse 与 Flink 和 ClickHouse 流式大数据统计系统

一个Flink任务只能并行处理一个或少数几个数据流，而XL-LightHouse一个任务可以并行处理数万个、几十万个数据流； 一个Flink任务只能实现一个或少数几个数据指标，而XL-LightHouse单个任务就能支撑大批量、数以万计的数据指标。 1、XL-LightHo…...

编程日记 2023/9/10 9:50:10

【postgresql 基础入门】创建数据库的方法，存储位置，决定自己的数据的访问用户和范围

创建数据库专栏内容： postgresql内核源码分析手写数据库toadb并发编程开源贡献： toadb开源库个人主页：我的主页管理社区：开源数据库座右铭：天行健，君子以自强不息；地势坤，君…...

编程日记 2023/9/10 9:49:10

科技云报道：AI时代，对构建云安全提出了哪些新要求？

科技云报道原创。随着企业上云的提速，一系列云安全问题也逐渐暴露出来，云安全问题得到重视，市场不断扩大。 Gartner 发布“2022 年中国 ICT 技术成熟度曲线”显示，云安全已处于技术萌芽期高点，预期在2-5年内有望达到…...

编程日记 2023/9/10 9:48:07

如何让 Llama2、通义千问开源大语言模型快速跑在函数计算上？

:::info 本文是“在Serverless平台上构建AIGC应用”系列文章的第一篇文章。 ::: 前言随着ChatGPT 以及 Stable Diffusion,Midjourney 这些新生代 AIGC 应用的兴起，围绕AIGC应用的相关开发变得越来越广泛，有呈井喷之势，从长远看这波应用的爆…...

编程日记 2023/9/10 9:47:05

Linux内核源码分析 (B.2)虚拟地址空间布局架构

Linux内核源码分析 (B.2)虚拟地址空间布局架构文章目录 Linux内核源码分析 (B.2)虚拟地址空间布局架构一、Linux内核整体架构及子系统二、Linux内核内存管理架构一、Linux内核整体架构及子系统 Linux内核只是操作系统当中的一部分，对下管理系统所有硬件设备&…...

编程日记 2023/9/10 9:46:04

Spring系列文章：Spring使用JdbcTemplate

一、简介 JdbcTemplate是Spring提供的⼀个JDBC模板类，是对JDBC的封装，简化JDBC代码。当然，你也可以不⽤，可以让Spring集成其它的ORM框架，例如：MyBatis、Hibernate等。第一步：引入依赖 <d…...

编程日记 2023/9/10 9:45:03

测试环境： windows10 x64 matlab2023a 代码来自官方网站：CVX: Matlab Software for Disciplined Convex Programming | CVX Research, Inc. m 20; n 10; p 4; A randn(m,n); b randn(m,1); C randn(p,n); d randn(p,1); e rand; cvx_beginva…...

编程日记 2023/9/10 9:44:02

【css】margin：auot什么情况下失效

margin：auto只对块级元素有效果，并且在正常文档流margin：automargin：0 auto，css默认在正常文档流里面margin-top和margin-bottom是0 为什么margin: auto能实现水平居中，而垂直居中不行？ 一般子…...

编程日记 2023/9/10 9:43:01

linux的dirty page回写磁盘过程中是否允许并发写入更新page？

概述众所周知Linux内核write系统调用采用pagecache机制加速写入过程，避免write系统调用长时间block应用进程，用户态进程执行write调用的时候，内核只是将用户态buffer copy到内核的pagecache当中，write系统调用就返回了，完全不需要等待数据完全写入存储设备，因为存储设备…...

编程日记 2023/9/10 9:42:00

国防科技大学计算机基础课程笔记02信息编码

1.机内码和国标码国标码就是我们非常熟悉的这个GB2312,但是因为都是16进制，因此这个了16进制的数据既可以翻译成为这个机器码，也可以翻译成为这个国标码，所以这个时候很容易会出现这个歧义的情况； 因此，我们的这个国…...

编程新知 2026/2/8 4:37:15

React 第五十五节 Router 中 useAsyncError的使用详解

前言 useAsyncError 是 React Router v6.4 引入的一个钩子，用于处理异步操作（如数据加载）中的错误。下面我将详细解释其用途并提供代码示例。一、useAsyncError 用途处理异步错误：捕获在 loader 或 action 中发生的异步错误替…...

编程新知 2025/11/25 10:36:53

iOS 26 携众系统重磅更新，但“苹果智能”仍与国行无缘

美国西海岸的夏天，再次被苹果点燃。一年一度的全球开发者大会 WWDC25 如期而至，这不仅是开发者的盛宴，更是全球数亿苹果用户翘首以盼的科技春晚。今年，苹果依旧为我们带来了全家桶式的系统更新，包括 iOS 26、iPadOS 26…...

编程新知 2026/2/8 20:41:56

应用升级/灾备测试时使用guarantee 闪回点迅速回退

1.场景应用要升级,当升级失败时,数据库回退到升级前. 要测试系统,测试完成后,数据库要回退到测试前。相对于RMAN恢复需要很长时间， 数据库闪回只需要几分钟。 2.技术实现数据库设置 2个db_recovery参数创建guarantee闪回点，不需要开启数据库闪回。…...

编程新知 2026/1/14 22:12:47

CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型

CVPR 2025 | MIMO：支持视觉指代和像素对齐的医学视觉语言模型论文信息标题：MIMO: A medical vision language model with visual referring multimodal input and pixel grounding multimodal output作者：Yanyuan Chen, Dexuan Xu, Yu Hu…...

编程新知 2025/10/6 14:17:21

Java - Mysql数据类型对应

Mysql数据类型java数据类型备注整型INT/INTEGERint / java.lang.Integer–BIGINTlong/java.lang.Long–––浮点型FLOATfloat/java.lang.FloatDOUBLEdouble/java.lang.Double–DECIMAL/NUMERICjava.math.BigDecimal字符串型CHARjava.lang.String固定长度字符串VARCHARjava.lang…...

编程新知 2025/12/14 11:45:25

令牌桶滑动窗口-＞限流分布式信号量-＞限并发的原理 lua脚本分析介绍

文章目录前言限流限制并发的实际理解限流令牌桶代码实现结果分析令牌桶lua的模拟实现原理总结： 滑动窗口代码实现结果分析lua脚本原理解析限并发分布式信号量代码实现结果分析lua脚本实现原理双注解去实现限流并发结果分析： 实际业务去理解体会统一注…...

编程新知 2026/1/29 16:36:27

BCS 2025｜百度副总裁陈洋：智能体在安全领域的应用实践

6月5日，2025全球数字经济大会数字安全主论坛暨北京网络安全大会在国家会议中心隆重开幕。百度副总裁陈洋受邀出席，并作《智能体在安全领域的应用实践》主题演讲，分享了在智能体在安全领域的突破性实践。他指出，百度通过将安全能力…...

编程新知 2026/2/1 11:33:19

均衡后的SNRSINR

本文主要摘自参考文献中的前两篇，相关文献中经常会出现MIMO检测后的SINR不过一直没有找到相关数学推到过程，其中文献[1]中给出了相关原理在此仅做记录。 1. 系统模型复信道模型 n t n_t nt 根发送天线， n r n_r nr 根接收天线的 MIMO 系…...

编程新知 2026/1/30 4:47:24

从 GreenPlum 到镜舟数据库：杭银消费金融湖仓一体转型实践

作者：吴岐诗，杭银消费金融大数据应用开发工程师本文整理自杭银消费金融大数据应用开发工程师在StarRocks Summit Asia 2024的分享引言：融合数据湖与数仓的创新之路在数字金融时代，数据已成为金融机构的核心竞争力。杭银消费金…...

编程新知 2026/1/31 12:30:32

ES 集群常用排查命令

一、常用命令

二、案例分析

2.1集群变红

2.2集群变黄

2.3集群磁盘空间达到阈值

相关文章：

ES 集群常用排查命令

Nougat 深度剖析

ffmpeg的使用

深度强化学习算法的参数更新时机

【进阶篇】MySQL的MVCC实现机制详解

Git 命令行查看仓库信息

【爬虫】8.1. 深度使用tesseract-OCR技术识别图形验证码

【PythonRS】基于GDAL修改栅格数据的DN值

mysql课堂笔记 mac

2023年数学建模国赛A 定日镜场的优化设计思路分析

【QT】QMessageBox消息框的使用（16）

XL-LightHouse 与 Flink 和 ClickHouse 流式大数据统计系统

【postgresql 基础入门】创建数据库的方法，存储位置，决定自己的数据的访问用户和范围

科技云报道：AI时代，对构建云安全提出了哪些新要求？

如何让 Llama2、通义千问开源大语言模型快速跑在函数计算上？

Linux内核源码分析 (B.2)虚拟地址空间布局架构

Spring系列文章：Spring使用JdbcTemplate

[matlab]cvx安装后测试代码

【css】margin：auot什么情况下失效

linux的dirty page回写磁盘过程中是否允许并发写入更新page？

国防科技大学计算机基础课程笔记02信息编码

React 第五十五节 Router 中 useAsyncError的使用详解

iOS 26 携众系统重磅更新，但“苹果智能”仍与国行无缘

应用升级/灾备测试时使用guarantee 闪回点迅速回退

CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型

Java - Mysql数据类型对应

令牌桶滑动窗口-＞限流分布式信号量-＞限并发的原理 lua脚本分析介绍

BCS 2025｜百度副总裁陈洋：智能体在安全领域的应用实践

均衡后的SNRSINR

从 GreenPlum 到镜舟数据库：杭银消费金融湖仓一体转型实践