当前位置: 首页 > article >正文

ES的Refresh、Flush、Merge操作对性能的影响? ES如何实现近实时(NRT)搜索? ES聚合查询的Terms和Cardinality区别?

一、Refresh/Flush/Merge机制与性能影响
  1. Refresh(刷新)
  • 作用:将内存缓冲区(In-memory buffer)数据写入文件系统缓存生成新段(Segment),使文档可被搜索
  • 性能影响:
    • 默认每秒自动执行,保证近实时搜索(NRT)
    • 频繁手动刷新会降低索引吞吐量
    • 配置建议:index.refresh_interval = 30s(写入密集型场景)
  1. Flush(刷盘)
  • 作用:
    1. 将文件系统缓存数据持久化到磁盘
    2. 清空事务日志(Translog)
    
  • 性能影响:
    • 触发条件:Translog大小阈值(默认512MB)或时间阈值(30分钟)
    • 涉及磁盘IO,高频率刷盘会显著影响集群性能
  1. Merge(段合并)
  • 作用:合并多个小段为更大段,提升查询性能
  • 性能影响:
    // 合并策略配置示例
    PUT /index/_settings {"index.merge.policy": {"max_merged_segment": "5gb",    // 最大合并段大小"segments_per_tier": 10         // 每层段数量}
    }
    
    • 后台线程自动执行,消耗大量IO/CPU资源
    • 强制合并(_forcemerge)建议在业务低峰期执行

开发建议 :

  1. 优先使用默认配置,确有性能瓶颈时再调整
  2. 高负载场景可增大Refresh间隔减少IO压力
  3. 避免频繁执行_flush和_forcemerge等手动操作
  4. 监控 indices.refresh.time 和 merges 相关指标辅助调优
二、近实时(NRT)搜索原理
一、全称与核心原理
  1. 全称
    Near Real-Time(近实时)

  2. 实现原理

数据写入流程:
1. 文档写入内存缓冲区(1ms内完成)
2. 通过refresh操作将数据刷到文件系统缓存(默认1秒)
3. 新生成的段(Segment)对搜索可见
4. Translog保障数据持久化(崩溃恢复)
二、开发者实践指南
  1. 配置优化
// 调整refresh间隔(trade-off实时性与吞吐量)
PUT /your_index/_settings {"index.refresh_interval": "30s"  // 默认1s,写入密集型场景建议调大
}
  1. 强制刷新API
# 立即刷新使新文档可搜索(生产环境慎用)
POST /your_index/_refresh?pretty
  1. 近实时写入模式
// Java客户端写入时指定刷新策略
IndexRequest request = new IndexRequest("your_index");
request.source(jsonMap, XContentType.JSON);
request.setRefreshPolicy(WriteRequest.RefreshPolicy.WAIT_UNTIL);  // 可选值:IMMEDIATE, WAIT_UNTIL, NONE
  1. 可靠性保障
通过Translog机制实现:
- 每个分片维护自己的事务日志
- 默认配置下每隔5s刷盘(index.translog.sync_interval)
- 超过512MB自动刷盘(index.translog.flush_threshold_size)
三、性能优化建议
  1. 写入场景
高吞吐场景:- refresh_interval调至30s-1min- 关闭副本(index.number_of_replicas: 0)初始化时- 使用bulk API批量写入
  1. 查询场景
实时性要求高时:
PUT /your_index/_settings {"index.search.idle.after": "0s"  // 禁用查询缓存自动过期
}
  1. 监控指标
# 查看refresh统计
GET /_stats/refresh?pretty# 查看segment状态
GET /_cat/segments?v&h=index,segment,size,committed,search
三、Terms vs Cardinality聚合
特性Terms聚合Cardinality聚合
用途统计每个唯一值的出现次数估算字段唯一值数量(基数)
精度精确统计基于HyperLogLog++算法(误差率0.5%)
内存消耗高(存储所有唯一值)低(固定大小寄存器)
适用场景分类统计(如热门商品TOP10)UV统计(如独立访客数)

示例场景:

// Terms聚合 - 统计热门商品
{"aggs": {"popular_items": {"terms": { "field": "product_id","size": 10}}}
}// Cardinality聚合 - 统计独立用户数 
{"aggs": {"unique_users": {"cardinality": {"field": "user_id","precision_threshold": 1000}}}
}

相关文章:

ES的Refresh、Flush、Merge操作对性能的影响? ES如何实现近实时(NRT)搜索? ES聚合查询的Terms和Cardinality区别?

一、Refresh/Flush/Merge机制与性能影响 Refresh(刷新) 作用:将内存缓冲区(In-memory buffer)数据写入文件系统缓存生成新段(Segment),使文档可被搜索性能影响: 默认每…...

WebXR 虚拟现实开发

WebXR(Web Extended Reality)是用于在浏览器中构建**虚拟现实(VR)和增强现实(AR)**应用的 Web 标准。它允许开发者通过 JavaScript 和 WebGL 创建沉浸式体验,无需安装原生应用。以下是 WebXR 开发的基本知识点和开发指南: 一、WebXR 的核心概念 1. XR 设备分类 VR(Vi…...

COMPUTEX 2025 | 广和通创新解决方案共筑AI交互新纪元

5月20日至23日,广和通携多领域创新解决方案亮相2025年台北国际电脑展(COMPUTEX 2025),台北南港展览馆#K0727a展位。此次展会,广和通围绕“Advancing Connectivity Intelligent Future”为主题,设置四大核心…...

了解Android studio 初学者零基础推荐(3)

kotlin中的数据类及对象 使用泛型创建可重复使用的类 我们将常在线答题考试,有的考试题型包括判断,或者填空,以及数学题,此外试题内容还包括难易程度:"easy”,"medium","hard",…...

Spring 定时器和异步线程池 实践指南

前言:Spring:异步线程池和定时器 原理篇 一、Spring Scheduler 1. 创建一个 SpringBoot项目,在启动类上添加 EnableScheduling 注解,表示开启定时任务。 2. 创建SchedulerService,在方法上面启用Scheduled 注解 在方…...

零基础设计模式——创建型模式 - 生成器模式

第二部分:创建型模式 - 生成器模式 (Builder Pattern) 前面我们学习了单例、工厂方法和抽象工厂模式,它们都关注如何创建对象。生成器模式(也常被称为建造者模式)是另一种创建型模式,它专注于将一个复杂对象的构建过程…...

MD编辑器推荐【Obsidian】含下载安装和实用教程

为什么推荐 Obsidian ? 免费 (Typora 开始收费了)Typora 实现的功能,它都有!代码块可一键复制 文件目录支持文件夹 大纲支持折叠、搜索 特色功能 – 白板 特色功能 – 关系图谱 下载 https://pan.baidu.com/s/1I1fSly…...

LLama-Factory 遇到的问题

目录 一、LLama-Factory安装 二、LLama-Factory 遇到的问题 (一)包不兼容问题 (二)使用文件路径,加载模型 一、LLama-Factory安装 参考官网介绍:https://github.com/hiyouga/LLaMA-Factory 二、LLama…...

I-CON: A UNIFYING FRAMEWORK FOR REPRESENTATION LEARNING

I-con:表示学习的统一框架 基本信息 ICLR 2025 博客贡献人 田心 作者 Shaden Alshammari, John Hershey, Axel Feldmann, William T. Freeman, Mark Hamilton 关键词 I-Con框架,表征学习,损失函数统一框架 摘要 随着表征学习领域的快速发展,各类…...

Missashe线代题型总结

Missashe线性代数考研题型总结 说明:这篇笔记用于博主对"线代"常考题型进行总结,99%为真题,大概可能应该会逐步更新解题思路。有目录可直接检索。 第一章 行列式 1 具体行列式计算 1)么字型 2015 数一 2016 数一三…...

蓝桥杯13届 卡牌

问题描述 这天, 小明在整理他的卡牌。 他一共有 n 种卡牌, 第 i 种卡牌上印有正整数数 i(i∈[1,n]), 且第 i 种卡牌 现有 ai​ 张。 而如果有 n 张卡牌, 其中每种卡牌各一张, 那么这 n 张卡牌可以被称为一 套牌。小明为了凑出尽可能多套牌, 拿出了 m 张空白牌, 他可以在上面…...

安卓开发用到的设计模式(1)创建型模式

安卓开发用到的设计模式(1)创建型模式 文章目录 安卓开发用到的设计模式(1)创建型模式1. 单例模式(Singleton Pattern)2. 工厂模式(Factory Pattern)3. 抽象工厂模式(Abs…...

【PalladiumZ2 使用专栏 3 -- 信号值的获取与设置 及 memory dump 与 memory load】

文章目录 Overviewforce 命令语法value 命令语法memory loadmemory dump Overview 在调试问题的时&#xff0c;有时需要将某些信号强制设置为某个值&#xff0c;或者某几个信号强制设置为某个值&#xff0c;这里就要用到 force 命令。 force 命令语法 force -h force <na…...

flutter dart 函数语法

以下是 Dart 语言中函数语法的 详细实例说明&#xff0c;涵盖了所有常用写法 基本语法参数类型&#xff08;必选、可选、命名、默认值&#xff09;匿名函数、箭头函数高阶函数&#xff08;函数作为参数/返回值&#xff09;异步函数&#xff08;async / await&#xff09; 1. …...

课外活动:大语言模型Claude的技术解析 与 自动化测试框架领域应用实践

大语言模型Claude的技术解析与测试领域应用实践 一、Claude模型的核心优势解析 1.1 关键技术特性对比 维度Claude 3 OpusGPT-4 Turbo核心优势上下文窗口200K tokens128K tokens长文档处理能力提升56%逻辑推理准确率92.3% (GSM8K数据集)89.7%复杂场景稳定性更强代码生成速度7…...

线程的一些基本知识

前言 最近在学习线程&#xff0c;线程与进程是面试中可能常考的问题&#xff0c;我总结了线程的一些知识。分享给大家&#xff0c;希望可以帮组到大家。 线程知识总结(包含与进程的区别) 结语 希望可以帮助到有需要的人&#xff0c;bye~~...

【Python打卡Day30】模块与包的导入@浙大疏锦行

#一、导入官方库 我们复盘下学习python的逻辑&#xff0c;所谓学习python就是学习python常见的基础语法学习你所处理任务需要用到的第三方库 所以你用到什么学什么库即可。学习python本身就是个伪命题&#xff0c;就像你说学习科目一样&#xff0c;你没说清晰你学习的具体科目…...

26考研|高等代数:λ-矩阵

前言 本章知识点较为简单&#xff0c;是作为工具性的一章&#xff0c;在学习过程中&#xff0c;要注意区分行列式因子、不变因子以及初等因子&#xff0c;同时还要对若尔当标准型的计算应该足够熟悉&#xff0c;尤其是复矩阵的若尔当标准型计算是十分重要的。 课本重点回顾 …...

我店模式系统开发打造本地生活生态商圈

在当今快节奏的商业环境中&#xff0c;商家们面临着越来越多的挑战&#xff0c;包括市场竞争加剧、消费者需求多样化以及运营效率的提高等。为了应对这些挑战&#xff0c;越来越多的商家开始寻求信息化解决方案&#xff0c;以提升运营效率和客户体验。我的店模式系统平台应运而…...

数据库练习(3)

简单选择题要点: 1.锁协议: 数据库原理及应用&#xff08;高级篇)01——封锁协议(图文并解&#xff0c;超详细&#xff0c;一看就会)_数据库锁协议-CSDN博客https://blog.csdn.net/qq_44236958/article/details/105790970 2.tablespace和datafile 一个tablespace可以有一个或多…...

OpenGL ES 基本基本使用、绘制基本2D图形

OpenGL ES 绘制基础图形 OpenGL ES基本概念 OpenGL ES (Embedded-System) 是专为嵌入式设备&#xff08;如手机、平板、VR 设备&#xff09;设计的图形 API&#xff0c;是 OpenGL 的轻量级版本。 &#xff5c;下面是一个Android使用 OpenGL ES的基本框架 MainActivity 设置一…...

spark调度系统核心组件SparkContext、DAGSchedul、TaskScheduler、Taskset介绍

目录 1. SparkContext2.DAGScheduler3. TaskScheduler4. 协作关系5 TaskSet的定义6. 组件关系说明Spark调度系统的核心组件主要有SparkContext、DAGScheduler和TaskScheduler SparkContext介绍 1. SparkContext 1、资源申请: SparkContext是Spark应用程序与集群管理器(如St…...

BU9792驱动段式LCD

1、C文件,需要自己添加软件iic或硬件iic驱动&#xff0c;该驱动在我的别的文章内有。亲测bu9792是正常驱动的&#xff08;只用到了前14个SEG&#xff09;&#xff0c;说实话有点懵了。后面的ICSET有个P2根据不同的SEG地址要置1或0&#xff0c;读的时候最高位也是0?读命令寄存器…...

Springboot通过SSE实现实时消息返回

Server-Sent Events&#xff08;SSE&#xff09;是一种从服务器向客户端推送实时消息的技术。相较于WebSocket&#xff0c;SSE更为简单&#xff0c;适用于大多数实时消息场景。本文将深入探讨如何使用Spring Boot通过SSE实现实时消息返回。 一、什么是SSE SSE是一种允许服务器…...

SD-WAN技术详解:如何优化网络性能与QoS实现?(附QoS策略、链路聚合、网络架构对比)

随着企业数字化转型的快速推进&#xff0c;传统WAN架构逐渐难以满足企业在性能、成本和服务质量&#xff08;QoS&#xff09;方面的要求。尤其是企业关键业务应用&#xff08;例如语音通话、高清视频会议、企业核心业务系统&#xff09;对网络性能的要求越来越高。SD-WAN&#…...

力扣-将x减到0的最小操作数

1.题目描述 2.题目链接 1658. 将 x 减到 0 的最小操作数 - 力扣&#xff08;LeetCode&#xff09; 3.题目分析 1&#xff09;正面求解困难 题目要求我们每次都从最左边或者最右边取一个数&#xff0c;使x-元素的值&#xff0c;并在数组中移除该元素。最后返回的最小操作数…...

Web前端开发: 什么是JavaScript?

什么是JavaScript&#xff1f; JavaScript 是一种广泛应用于网页开发的脚本语言&#xff0c;主要用于为网站添加交互性和动态功能。 1. 核心作用 前端开发&#xff1a;控制网页行为&#xff0c;例如点击按钮弹出提示、表单验证、动态加载内容等。 后端开发&#xff1a;通过 No…...

三、【数据建模篇】:用 Django Models 构建测试平台核心数据

【数据建模篇】&#xff1a;用 Django Models 构建测试平台核心数据 前言我们要设计哪些核心数据&#xff1f;准备工作&#xff1a;创建 Django App开始设计数据模型 (Models)1. 通用基础模型 (可选但推荐)2. 项目模型 (Project)3. 模块模型 (Module)4. 测试用例模型 (TestCase…...

【JAVA】比较器Comparator与自然排序(28)

JAVA 核心知识点详细解释 Java中比较器Comparator的概念和使用方法 概念 Comparator 是 Java 中的一个函数式接口,位于 java.util 包下。它用于定义对象之间的比较规则,允许我们根据自定义的逻辑对对象进行排序。与对象的自然排序(实现 Comparable 接口)不同,Comparat…...

shp2pgsql 导入 Shp 到 PostGIS 空间数据库

前言 ❝ shp2pgsql是PostGIS自带的命令行工具&#xff0c;用于将Shapefile文件声称SQL脚本导入到PostGIS空间数据库。 1. 安装 PostGIS 通过Application Stack Builder或者下载单独的PostGIS包进行安装。而shp2pgsql则是与PostGIS工具集成在一起&#xff0c;无需单独下载。该命…...