ES的Refresh、Flush、Merge操作对性能的影响? ES如何实现近实时(NRT)搜索? ES聚合查询的Terms和Cardinality区别?
一、Refresh/Flush/Merge机制与性能影响
- Refresh(刷新)
- 作用:将内存缓冲区(In-memory buffer)数据写入文件系统缓存生成新段(Segment),使文档可被搜索
- 性能影响:
- 默认每秒自动执行,保证近实时搜索(NRT)
- 频繁手动刷新会降低索引吞吐量
- 配置建议:
index.refresh_interval = 30s
(写入密集型场景)
- Flush(刷盘)
- 作用:
1. 将文件系统缓存数据持久化到磁盘 2. 清空事务日志(Translog)
- 性能影响:
- 触发条件:Translog大小阈值(默认512MB)或时间阈值(30分钟)
- 涉及磁盘IO,高频率刷盘会显著影响集群性能
- Merge(段合并)
- 作用:合并多个小段为更大段,提升查询性能
- 性能影响:
// 合并策略配置示例 PUT /index/_settings {"index.merge.policy": {"max_merged_segment": "5gb", // 最大合并段大小"segments_per_tier": 10 // 每层段数量} }
- 后台线程自动执行,消耗大量IO/CPU资源
- 强制合并(_forcemerge)建议在业务低峰期执行
开发建议 :
- 优先使用默认配置,确有性能瓶颈时再调整
- 高负载场景可增大Refresh间隔减少IO压力
- 避免频繁执行_flush和_forcemerge等手动操作
- 监控 indices.refresh.time 和 merges 相关指标辅助调优
二、近实时(NRT)搜索原理
一、全称与核心原理
-
全称
Near Real-Time(近实时) -
实现原理
数据写入流程:
1. 文档写入内存缓冲区(1ms内完成)
2. 通过refresh操作将数据刷到文件系统缓存(默认1秒)
3. 新生成的段(Segment)对搜索可见
4. Translog保障数据持久化(崩溃恢复)
二、开发者实践指南
- 配置优化
// 调整refresh间隔(trade-off实时性与吞吐量)
PUT /your_index/_settings {"index.refresh_interval": "30s" // 默认1s,写入密集型场景建议调大
}
- 强制刷新API
# 立即刷新使新文档可搜索(生产环境慎用)
POST /your_index/_refresh?pretty
- 近实时写入模式
// Java客户端写入时指定刷新策略
IndexRequest request = new IndexRequest("your_index");
request.source(jsonMap, XContentType.JSON);
request.setRefreshPolicy(WriteRequest.RefreshPolicy.WAIT_UNTIL); // 可选值:IMMEDIATE, WAIT_UNTIL, NONE
- 可靠性保障
通过Translog机制实现:
- 每个分片维护自己的事务日志
- 默认配置下每隔5s刷盘(index.translog.sync_interval)
- 超过512MB自动刷盘(index.translog.flush_threshold_size)
三、性能优化建议
- 写入场景
高吞吐场景:- refresh_interval调至30s-1min- 关闭副本(index.number_of_replicas: 0)初始化时- 使用bulk API批量写入
- 查询场景
实时性要求高时:
PUT /your_index/_settings {"index.search.idle.after": "0s" // 禁用查询缓存自动过期
}
- 监控指标
# 查看refresh统计
GET /_stats/refresh?pretty# 查看segment状态
GET /_cat/segments?v&h=index,segment,size,committed,search
三、Terms vs Cardinality聚合
特性 | Terms聚合 | Cardinality聚合 |
---|---|---|
用途 | 统计每个唯一值的出现次数 | 估算字段唯一值数量(基数) |
精度 | 精确统计 | 基于HyperLogLog++算法(误差率0.5%) |
内存消耗 | 高(存储所有唯一值) | 低(固定大小寄存器) |
适用场景 | 分类统计(如热门商品TOP10) | UV统计(如独立访客数) |
示例场景:
// Terms聚合 - 统计热门商品
{"aggs": {"popular_items": {"terms": { "field": "product_id","size": 10}}}
}// Cardinality聚合 - 统计独立用户数
{"aggs": {"unique_users": {"cardinality": {"field": "user_id","precision_threshold": 1000}}}
}
相关文章:
ES的Refresh、Flush、Merge操作对性能的影响? ES如何实现近实时(NRT)搜索? ES聚合查询的Terms和Cardinality区别?
一、Refresh/Flush/Merge机制与性能影响 Refresh(刷新) 作用:将内存缓冲区(In-memory buffer)数据写入文件系统缓存生成新段(Segment),使文档可被搜索性能影响: 默认每…...
WebXR 虚拟现实开发
WebXR(Web Extended Reality)是用于在浏览器中构建**虚拟现实(VR)和增强现实(AR)**应用的 Web 标准。它允许开发者通过 JavaScript 和 WebGL 创建沉浸式体验,无需安装原生应用。以下是 WebXR 开发的基本知识点和开发指南: 一、WebXR 的核心概念 1. XR 设备分类 VR(Vi…...

COMPUTEX 2025 | 广和通创新解决方案共筑AI交互新纪元
5月20日至23日,广和通携多领域创新解决方案亮相2025年台北国际电脑展(COMPUTEX 2025),台北南港展览馆#K0727a展位。此次展会,广和通围绕“Advancing Connectivity Intelligent Future”为主题,设置四大核心…...

了解Android studio 初学者零基础推荐(3)
kotlin中的数据类及对象 使用泛型创建可重复使用的类 我们将常在线答题考试,有的考试题型包括判断,或者填空,以及数学题,此外试题内容还包括难易程度:"easy”,"medium","hard",…...

Spring 定时器和异步线程池 实践指南
前言:Spring:异步线程池和定时器 原理篇 一、Spring Scheduler 1. 创建一个 SpringBoot项目,在启动类上添加 EnableScheduling 注解,表示开启定时任务。 2. 创建SchedulerService,在方法上面启用Scheduled 注解 在方…...

零基础设计模式——创建型模式 - 生成器模式
第二部分:创建型模式 - 生成器模式 (Builder Pattern) 前面我们学习了单例、工厂方法和抽象工厂模式,它们都关注如何创建对象。生成器模式(也常被称为建造者模式)是另一种创建型模式,它专注于将一个复杂对象的构建过程…...

MD编辑器推荐【Obsidian】含下载安装和实用教程
为什么推荐 Obsidian ? 免费 (Typora 开始收费了)Typora 实现的功能,它都有!代码块可一键复制 文件目录支持文件夹 大纲支持折叠、搜索 特色功能 – 白板 特色功能 – 关系图谱 下载 https://pan.baidu.com/s/1I1fSly…...
LLama-Factory 遇到的问题
目录 一、LLama-Factory安装 二、LLama-Factory 遇到的问题 (一)包不兼容问题 (二)使用文件路径,加载模型 一、LLama-Factory安装 参考官网介绍:https://github.com/hiyouga/LLaMA-Factory 二、LLama…...
I-CON: A UNIFYING FRAMEWORK FOR REPRESENTATION LEARNING
I-con:表示学习的统一框架 基本信息 ICLR 2025 博客贡献人 田心 作者 Shaden Alshammari, John Hershey, Axel Feldmann, William T. Freeman, Mark Hamilton 关键词 I-Con框架,表征学习,损失函数统一框架 摘要 随着表征学习领域的快速发展,各类…...

Missashe线代题型总结
Missashe线性代数考研题型总结 说明:这篇笔记用于博主对"线代"常考题型进行总结,99%为真题,大概可能应该会逐步更新解题思路。有目录可直接检索。 第一章 行列式 1 具体行列式计算 1)么字型 2015 数一 2016 数一三…...
蓝桥杯13届 卡牌
问题描述 这天, 小明在整理他的卡牌。 他一共有 n 种卡牌, 第 i 种卡牌上印有正整数数 i(i∈[1,n]), 且第 i 种卡牌 现有 ai 张。 而如果有 n 张卡牌, 其中每种卡牌各一张, 那么这 n 张卡牌可以被称为一 套牌。小明为了凑出尽可能多套牌, 拿出了 m 张空白牌, 他可以在上面…...

安卓开发用到的设计模式(1)创建型模式
安卓开发用到的设计模式(1)创建型模式 文章目录 安卓开发用到的设计模式(1)创建型模式1. 单例模式(Singleton Pattern)2. 工厂模式(Factory Pattern)3. 抽象工厂模式(Abs…...
【PalladiumZ2 使用专栏 3 -- 信号值的获取与设置 及 memory dump 与 memory load】
文章目录 Overviewforce 命令语法value 命令语法memory loadmemory dump Overview 在调试问题的时,有时需要将某些信号强制设置为某个值,或者某几个信号强制设置为某个值,这里就要用到 force 命令。 force 命令语法 force -h force <na…...
flutter dart 函数语法
以下是 Dart 语言中函数语法的 详细实例说明,涵盖了所有常用写法 基本语法参数类型(必选、可选、命名、默认值)匿名函数、箭头函数高阶函数(函数作为参数/返回值)异步函数(async / await) 1. …...
课外活动:大语言模型Claude的技术解析 与 自动化测试框架领域应用实践
大语言模型Claude的技术解析与测试领域应用实践 一、Claude模型的核心优势解析 1.1 关键技术特性对比 维度Claude 3 OpusGPT-4 Turbo核心优势上下文窗口200K tokens128K tokens长文档处理能力提升56%逻辑推理准确率92.3% (GSM8K数据集)89.7%复杂场景稳定性更强代码生成速度7…...

线程的一些基本知识
前言 最近在学习线程,线程与进程是面试中可能常考的问题,我总结了线程的一些知识。分享给大家,希望可以帮组到大家。 线程知识总结(包含与进程的区别) 结语 希望可以帮助到有需要的人,bye~~...

【Python打卡Day30】模块与包的导入@浙大疏锦行
#一、导入官方库 我们复盘下学习python的逻辑,所谓学习python就是学习python常见的基础语法学习你所处理任务需要用到的第三方库 所以你用到什么学什么库即可。学习python本身就是个伪命题,就像你说学习科目一样,你没说清晰你学习的具体科目…...

26考研|高等代数:λ-矩阵
前言 本章知识点较为简单,是作为工具性的一章,在学习过程中,要注意区分行列式因子、不变因子以及初等因子,同时还要对若尔当标准型的计算应该足够熟悉,尤其是复矩阵的若尔当标准型计算是十分重要的。 课本重点回顾 …...

我店模式系统开发打造本地生活生态商圈
在当今快节奏的商业环境中,商家们面临着越来越多的挑战,包括市场竞争加剧、消费者需求多样化以及运营效率的提高等。为了应对这些挑战,越来越多的商家开始寻求信息化解决方案,以提升运营效率和客户体验。我的店模式系统平台应运而…...

数据库练习(3)
简单选择题要点: 1.锁协议: 数据库原理及应用(高级篇)01——封锁协议(图文并解,超详细,一看就会)_数据库锁协议-CSDN博客https://blog.csdn.net/qq_44236958/article/details/105790970 2.tablespace和datafile 一个tablespace可以有一个或多…...

OpenGL ES 基本基本使用、绘制基本2D图形
OpenGL ES 绘制基础图形 OpenGL ES基本概念 OpenGL ES (Embedded-System) 是专为嵌入式设备(如手机、平板、VR 设备)设计的图形 API,是 OpenGL 的轻量级版本。 |下面是一个Android使用 OpenGL ES的基本框架 MainActivity 设置一…...
spark调度系统核心组件SparkContext、DAGSchedul、TaskScheduler、Taskset介绍
目录 1. SparkContext2.DAGScheduler3. TaskScheduler4. 协作关系5 TaskSet的定义6. 组件关系说明Spark调度系统的核心组件主要有SparkContext、DAGScheduler和TaskScheduler SparkContext介绍 1. SparkContext 1、资源申请: SparkContext是Spark应用程序与集群管理器(如St…...

BU9792驱动段式LCD
1、C文件,需要自己添加软件iic或硬件iic驱动,该驱动在我的别的文章内有。亲测bu9792是正常驱动的(只用到了前14个SEG),说实话有点懵了。后面的ICSET有个P2根据不同的SEG地址要置1或0,读的时候最高位也是0?读命令寄存器…...
Springboot通过SSE实现实时消息返回
Server-Sent Events(SSE)是一种从服务器向客户端推送实时消息的技术。相较于WebSocket,SSE更为简单,适用于大多数实时消息场景。本文将深入探讨如何使用Spring Boot通过SSE实现实时消息返回。 一、什么是SSE SSE是一种允许服务器…...
SD-WAN技术详解:如何优化网络性能与QoS实现?(附QoS策略、链路聚合、网络架构对比)
随着企业数字化转型的快速推进,传统WAN架构逐渐难以满足企业在性能、成本和服务质量(QoS)方面的要求。尤其是企业关键业务应用(例如语音通话、高清视频会议、企业核心业务系统)对网络性能的要求越来越高。SD-WAN&#…...

力扣-将x减到0的最小操作数
1.题目描述 2.题目链接 1658. 将 x 减到 0 的最小操作数 - 力扣(LeetCode) 3.题目分析 1)正面求解困难 题目要求我们每次都从最左边或者最右边取一个数,使x-元素的值,并在数组中移除该元素。最后返回的最小操作数…...
Web前端开发: 什么是JavaScript?
什么是JavaScript? JavaScript 是一种广泛应用于网页开发的脚本语言,主要用于为网站添加交互性和动态功能。 1. 核心作用 前端开发:控制网页行为,例如点击按钮弹出提示、表单验证、动态加载内容等。 后端开发:通过 No…...

三、【数据建模篇】:用 Django Models 构建测试平台核心数据
【数据建模篇】:用 Django Models 构建测试平台核心数据 前言我们要设计哪些核心数据?准备工作:创建 Django App开始设计数据模型 (Models)1. 通用基础模型 (可选但推荐)2. 项目模型 (Project)3. 模块模型 (Module)4. 测试用例模型 (TestCase…...
【JAVA】比较器Comparator与自然排序(28)
JAVA 核心知识点详细解释 Java中比较器Comparator的概念和使用方法 概念 Comparator 是 Java 中的一个函数式接口,位于 java.util 包下。它用于定义对象之间的比较规则,允许我们根据自定义的逻辑对对象进行排序。与对象的自然排序(实现 Comparable 接口)不同,Comparat…...

shp2pgsql 导入 Shp 到 PostGIS 空间数据库
前言 ❝ shp2pgsql是PostGIS自带的命令行工具,用于将Shapefile文件声称SQL脚本导入到PostGIS空间数据库。 1. 安装 PostGIS 通过Application Stack Builder或者下载单独的PostGIS包进行安装。而shp2pgsql则是与PostGIS工具集成在一起,无需单独下载。该命…...