Elasticsearch 写入优化探索:是什么影响了refresh 耗时?
1、问题背景:
数据写入后,refresh耗时过长,能达到1s-5s。
想通过测试,探索确认影响refresh的因素,比如:写入操作是新增还是更新,deleted文档占比是否有影响,是否有其他索引配置,等等。

2、测试过程全记录
旧索引:24主分片,1副本,经过长期forcemerge,最大segmeng 33gb,镜像后deleted占比 8%左右。
noforcemerge 索引:24主分片,1副本,reindex后最大segmeng 5gb,deleted占比0%。
nosoftedelete 索引:关闭softdelete策略,24主分片,0副本,reindex后最大segmeng 5gb,deleted占比0%。
| 旧索引更新 | 旧索引新增 | 旧索引forcemerge后新增(带少量更新) | noforcemerge索引更新 | 旧索引低更新 | noforcemerge索引低更新 | nosoftedelete索引更新 | |
|---|---|---|---|---|---|---|---|
| 时间段 | 2023-10-12 21:30:00至2023-10-13 15:00:00 | 2023-10-13 15:55:00至2023-10-13 16:10:00 | 2023-10-13 20:40:00至2023-10-13 22:00:00 | 2023-10-16 10:40:00至2023-10-17 11:00:00 | 2023-10-17 16:20:00至2023-10-17 17:15:00 | 2023-10-17 17:20:00至2023-10-17 18:30:00 | 2023-10-19 11:00:00至今 |
| 写入速度 | 2k/s | 2k/s | 2k/s | 2k/s | 2k/s | 2k/s | 2k/s |
| deleted占比增长 | 最大 32%,最小 8% | 22%左右 | 0%-2% | 0%-9% | 1.5%-2% | 7%-6% | 0%-8% |
| refresh耗时 | 最大12s,最低3s | 200ms-400ms | 300ms-800ms | 1s-3s | 50ms-250ms | 500ms-1.5s | 200ms-300ms |
| refresh_external耗时 | 最大12s,最低3s | 200ms-400ms | 300ms-800ms | 1s-3s | 50ms-250ms | 500ms-1.5s | 基本无 |
| cpu使用 | 50%-100% | 50%-100% | 50%-100% | 50%-100% | 30%-60% | 30%-60% | 10%-40%(查询条件优化) |
3、查询测试
| 旧索引查询 | noforcemerge索引查询 |
|---|---|
| 时间段 | 10-17 15:06:00 - 10-17 15:42:00 |
| 查询qps | 100/s |
| 查询耗时 | 平均45ms左右 |
| cpu使用 | 10%-30% |
4、观测到的现象
1. 纯更新操作会导致明显的 refresh 高耗时。
2. 降低索引中 deleted文档的占比也能降低refresh的高耗时。
3. noforcemerge 索引的更新测试中,通过es热线程的抓取,refresh 的出现降低了(但依旧是100%),merge线程出现增多了不少。
4. soft delete 关闭的索引,refresh 耗时明显下降了,并且与 deleted 文档占比明显无关联。
5、测试初步结论
5.1 结论1. large segment 策略对索引日常使用无明显变化。
large segment 策略的修改对索引日常的查询和写入没有额外的资源占用。
同时也达到了预期自动清理deleted文档的效果。
5.2 结论2. refresh 影响因素。
1.soft delete:soft delete模式是否开始直接影响refresh的耗时。关闭soft delete可降低refresh耗时,但不推荐。
2.写入操作类型:开启 soft delete后,数据更新操作会明显增加 refresh耗时,而单纯的新增数据则没有太多的refresh耗时。
3.deleted 占比:deleted 文档占比越高,refresh耗时越大。
6、扩展:关于soft delete
6.1 soft delete 用途
用于分片间数据同步和恢复,属于 ES 分布式基础实现。
具体内容详见:
https://www.elastic.co/guide/en/elasticsearch/reference/7.10/index-modules-history-retention.html
soft delete详解:默认为开启,只能在索引创建时设定,不可通过开关索引操作修改。官方后期准备把这个参数去掉,这也是不建议修改soft_delete参数的一个原因。
6.2 soft delete对 refresh 的影响
在测试过程以及社区文档中,均发现了soft_delete索引下 update 操作增加了refresh耗时的现象。
https://mp.weixin.qq.com/s/_l8JAtqK_NOSP8b7OqSVDg
作者介绍
金多安,Elastic 认证专家,Elastic资深运维工程师,死磕Elasticsearch知识星球嘉宾,星球Top活跃技术专家,搜索客社区日报责任编辑
铭毅天下审稿并做了部分微调。
推荐阅读
全网首发!从 0 到 1 Elasticsearch 8.X 通关视频
重磅 | 死磕 Elasticsearch 8.X 方法论认知清单
如何系统的学习 Elasticsearch ?
2023,做点事

更短时间更快习得更多干货!
和全球 近2000+ Elastic 爱好者一起精进!

比同事抢先一步学习进阶干货!
相关文章:
Elasticsearch 写入优化探索:是什么影响了refresh 耗时?
1、问题背景: 数据写入后,refresh耗时过长,能达到1s-5s。 想通过测试,探索确认影响refresh的因素,比如:写入操作是新增还是更新,deleted文档占比是否有影响,是否有其他索引配置&…...
Java8新特性——函数式接口
目录 一、介绍 二、示例 (一)Consumer 源码解析 测试示例 (二)Comparator (三)Predicate 三、应用 四、总结 一、介绍 FunctionalInterface是一种信息注解类型,用于指明接口类型声明…...
Epson打印机连接wifi
环境 Epson L3153 打印机联通无线光猫 背景 最近家里的联通宽带不太稳定,经常断网。今天打了联通客服电话,师傅上门来,说可能是光猫用的时间太长了,换了一个新的联通光猫,问题解决。 wifi的名称是 CU_Y3ft 和 CU_Y3…...
Chapter 7 - 6. Congestion Management in Ethernet Storage Networks以太网存储网络的拥塞管理
Dedicated and Converged Ethernet Network专用和融合以太网网络 Just because a network is configured as a converged Ethernet network (lossy and lossless traffic), doesn’t necessarily mean that lossy and lossless traffic runs on it simultaneously. For exampl…...
【论文笔记】NeuRAD: Neural Rendering for Autonomous Driving
原文链接:https://arxiv.org/abs/2311.15260 1. 引言 神经辐射场(NeRF)应用在自动驾驶中,可以创建可编辑的场景数字克隆(可自由编辑视角和场景物体),以进行仿真。但目前的方法或者需要大量的训…...
通信原理 | 分贝dB、功率、功率谱、功率谱密度、信噪比
文章目录 分贝功率和分贝的关系能量谱功率谱功率谱和功率谱密度是不同的功率谱密度随机信号和确知信号信噪比基本定义分贝表示应用分贝 分贝:(用dB表示)是量度两个相同单位之间数量比例的计量单位,主要用于度量声音强度。 1贝尔(B)=10分布(dB),即1B = 10dB 分贝是以美国…...
Go中的Context是什么?
在 Go 编程语言(通常称为 Golang)中,术语 "上下文 "指的是上下文包及其定义的上下文类型。上下文包用于跨 API 边界和进程间传输截止日期、取消信号和其他请求范围值。 上下文包的主要目的是管理并发或分布式系统中操作的生命周期…...
碳排放预测 | 基于ARIMA和GM(1,1)的碳排放预测(Matlab)
目录 预测效果基本介绍模型描述ARIMA模型GM(1,1)模型 程序设计参考资料 预测效果 基本介绍 基于ARIMA和GM(1,1)的碳排放预测(Matlab) 基于ARIMA(自回归移动平均模型)和GM(1,1)(灰色预测模型)的碳排放预测是…...
FPFA.一种二倍频电路代码描述以及测量详情
一、前言 1、因为需要倍频电路所以找了个二倍频的电路,通过fpga实际测量发现经过倍频后的电路峰值降低。不过这个也正常,因为该电路只要过触发点就会开始发生波形变化,而电路的触发值不是峰值。 2、继续对电路做倍频后信号做二…...
dotnet命令创建C#项目,VSCode打开
在命令行中创建项目并运行 1.首先安装.net 下载地址:.NET | 构建。测试。部署。 2.在 cmd 控制台输入 dotnet --vesion 检查版本号是否正常 3.我用git bash环境输入命令创建项目 // 创建文件夹 mkdir MyVSCode // 进入该文件夹 cd MyVSCode/ // 创建控制台项目 dotnet …...
在GitHub找开源项目
在 GitHub 的搜索框里: 使用搜索关键词可以在 GitHub 上快速的找你需要的开源项目: 限制搜索范围 通过 in 关键词 (大小写不敏感) 限制搜索范围: 公式搜索范围in:name xxx项目名包含xxxin:description xxx项目描述包含xxxin:readme xxx项目…...
GAMES101-LAB1
文章目录 一、问题简述二、框架准备三、作业参考3.1 模型矩阵3.1 参考代码 3.2 投影矩阵3.2.1 压扁操作(透视投影)3.2.2 正交投影3.2.3 参考代码 四、附件 一、问题简述 接下来的三次作业,将模拟一个基于CPU的光栅化渲染器的简化版本本次作业的任务是实现一个旋转矩…...
Docker 编译OpenHarmony 4.0 release
一、背景介绍 1.1、环境配置 编译环境:Ubuntu 20.04OpenHarmony版本:4.0 release平台设备:RK3568 OpenHarmony 3.2更新至OpenHarmony 4.0后,公司服务器无法编译通过,总是在最后几十个文件时报错,错误码4000…...
Vue 3 表单处理精讲:打造响应式注册表单的艺术
🧙♂️ 诸位好,吾乃诸葛妙计,编程界之翘楚,代码之大师。算法如流水,逻辑如棋局。 📜 吾之笔记,内含诸般技术之秘诀。吾欲以此笔记,传授编程之道,助汝解技术难题。 &…...
浅谈Guava Cache的参数使用
CacheLoader 用于数据加载方式比较固定且统一的场景,在缓存容器创建的时候就需要指定此具体的加载逻辑。通常开发中使用时我们需要继承CacheLoader类或写一个匿名实现类实现其load方法和reload方法 load方法 当执行get操作没有命中缓存或者判断缓存已经超出expir…...
交通流预测 | Matlab基于KNN-BiLSTM的交通流预测(对比SVR、LSTM、GRU、KNN-LSTM)
目录 预测效果基本介绍程序设计参考资料 预测效果 基本介绍 交通流预测 | Matlab基于KNN-BiLSTM的交通流预测(对比SVR、LSTM、GRU、KNN-LSTM) 程序设计 完整程序和数据获取方式:私信博主回复Matlab基于KNN-BiLSTM的交通流预测(对…...
云卷云舒:面向业务的智能运维(上)
1、BAIOPS-业务智能运维 智能运维(AIOps-Algorithmic IT Operations基于算法的IT运维)是人工智能技术在IT运维领域的运用,引用Gartner 的报告的一段话“到2020年,将近50%的企业将会在他们的业务和IT运维方面采用AIOps,…...
centos 7.4 docker
centos 7.4 docker 1.查看系统版本 cat /etc/redhat-release CentOS Linux release 7.4.1708 (Core)哈1 cat /etc/redhat-release CentOS Linux release 7.9.2009 (Core) 哈1-02 cat /etc/redhat-release CentOS Linux release 7.6.1810 (Core) 哈1-22 cat /etc/redhat…...
零基础学人工智能:TensorFlow 入门例子
识别手写图片 因为这个例子是 TensorFlow 官方的例子,不会说的太详细,会加入了一点个人的理解,因为TensorFlow提供了各种工具和库,帮助开发人员构建和训练基于神经网络的模型。TensorFlow 中最重要的概念是张量(Tenso…...
go从0到1项目实战体系二一:gin框架安装
(1). 设置公用的代理服务地址: 如果设置了全局可忽略. $ export GOPROXYhttps://goproxy.io // linux > go env可以查看 $ export GOPROXYhttps://goproxy.cn // linux国内镜像 $ set GOPROXYhttps://goproxy.io // windows(2). 创建以下目录: 请忘记GOPATH目录…...
U盘频繁提示“驱动器存在问题”?三步教你彻底修复并避免数据丢失
1. 为什么U盘会频繁提示“驱动器存在问题”? 每次插入U盘都弹出那个烦人的提示框,就像有个唠叨的管家在耳边不停提醒"您的U盘有问题啦!"。这种情况我遇到过太多次了,特别是在使用时间较久的U盘上。其实这个提示背后隐藏…...
Python智能内存管理策略深度拆解(CPython内存池机制全图谱曝光)
第一章:Python智能内存管理策略全景导览Python 的内存管理并非由开发者手动控制,而是通过一套高度集成的自动化机制协同运作,涵盖引用计数、循环垃圾回收(GC)、内存池分配(pymalloc)三大核心支柱…...
Kafka Connect集群管理可视化界面:高效实现多环境连接器配置实战指南
Kafka Connect集群管理可视化界面:高效实现多环境连接器配置实战指南 【免费下载链接】kafka-connect-ui Web tool for Kafka Connect | 项目地址: https://gitcode.com/gh_mirrors/ka/kafka-connect-ui 在Kafka生态系统中,连接器管理一直是数据…...
人工智能应用- 走向未来:02.人工智能研究方向
随着技术的发展,以深度神经网络为代表的人工智能技术在取得突破的同时,也逐渐暴露出一些基础性问题。这些问题促使科学家们思考人工智能的下一步发展。本节将从几个关键方面,探讨当前人工智能的重要研究方向。可解释性与可控性首先࿰…...
给硬件工程师的PCIe协议栈拆解:从FPGA IP核视角看三层协议如何协同工作
给硬件工程师的PCIe协议栈拆解:从FPGA IP核视角看三层协议如何协同工作 当你在Xilinx UltraScale或Intel Stratix 10 FPGA中集成PCIe硬核IP时,是否曾好奇过那个配置向导里勾选的"Enable Advanced Mode"究竟在底层做了什么?物理层的…...
在对话中处理数学方程时,OpenClaw 的 LaTeX 渲染引擎支持哪些宏包?
在讨论OpenClaw的LaTeX渲染能力时,很多人会直接去翻官方文档或者技术手册。但如果你真的在项目里用过它,尤其是处理过那些复杂的数学对话场景,就会发现文档里写的东西和实际能用的东西,中间往往隔着一层实践的距离。 OpenClaw在设…...
comsol仿真建模 由于结构本身的复杂性,很难对实际多孔结构中的流动进行建模。 在实际应用中...
comsol仿真建模 由于结构本身的复杂性,很难对实际多孔结构中的流动进行建模。 在实际应用中,详细求解流场不可行。 因此,使用了利用多孔结构平均物理量 (如孔隙率和渗透率)的宏观方法。 本例详细分析孔隙尺度的流场&am…...
Vivado进阶指南:网表物理约束实战解析
1. 网表物理约束的核心价值 第一次接触Vivado的网表物理约束时,我和很多初学者一样困惑:明明RTL代码已经定义了所有功能,为什么还要多此一举?直到在某次高速ADC数据采集项目中,系统频繁出现时序违例,我才真…...
最强AI剪辑工具盘点:免费直接用,小白秒变剪辑大师!
一、AI视频剪辑新时代:为什么选择这些工具? 2025年的AI视频工具已经不再是简单的滤镜和特效叠加,而是真正能够理解内容、自动完成剪辑全流程的智能助手。根据权威评测,真正优秀的AI剪辑工具应该具备以下特点: 真正免费…...
OBS Studio架构深度解析:如何构建专业级直播系统的核心技术栈
OBS Studio架构深度解析:如何构建专业级直播系统的核心技术栈 【免费下载链接】obs-studio OBS Studio - 用于直播和屏幕录制的免费开源软件。 项目地址: https://gitcode.com/GitHub_Trending/ob/obs-studio OBS Studio作为开源直播录制软件的标杆ÿ…...
