近实时”(NRT)搜索、倒排索引
近实时(Near Real-Time, NRT)搜索
近实时(NRT)搜索是 Elasticsearch 的核心特性之一,指的是数据在被写入到系统后,可以几乎立即被搜索和查询到。虽然它不像传统数据库那样完全实时,但它的延迟通常只在几百毫秒到一秒之间。
工作原理:
- 写入数据:
- 文档写入时被存储在内存缓冲区(translog)。
- 刷新(Refresh):
- Elasticsearch 定期将内存中的数据刷新(默认每秒一次),将新数据写入一个称为“段”(segment)的文件中。
- 刷新后,新数据对搜索可见。
- 延迟原因:
- 数据写入并非直接可搜索,而是需要等刷新完成,这导致搜索是“近实时”。

适用场景:
- 日志搜索: 需要快速查询最新日志数据。
- 实时分析: 对流式数据进行快速分析,例如异常检测。
优化方法:
- 调整
refresh_interval:- 默认值为 1 秒。
- 如果不需要实时性,可以延长刷新时间以提高写入性能。
- 示例:将索引的刷新间隔设置为 5 秒:
PUT /my_index/_settings {"index": {"refresh_interval": "5s"} }
倒排索引(Inverted Index)
倒排索引是 Elasticsearch 用来实现快速全文搜索的核心数据结构。
什么是倒排索引?
倒排索引是一种映射结构,它记录了词项(Term)与包含这些词项的文档 ID之间的关系。
与传统的正排索引(如关系型数据库的 B-Tree)不同,倒排索引更加适合快速查找包含特定关键词的文档。
倒排索引的结构:
以“倒排”表示其映射方向:
示例文档集:
Doc1: Elasticsearch is a search engine.
Doc2: Elasticsearch is fast and scalable.
Doc3: Full-text search uses inverted index.
倒排索引:
| 词项 (Term) | 文档 (Document IDs) |
|---|---|
| a | Doc1, Doc2 |
| Elasticsearch | Doc1, Doc2 |
| engine | Doc1 |
| fast | Doc2 |
| full-text | Doc3 |
| inverted | Doc3 |
| scalable | Doc2 |
| search | Doc1, Doc3 |
| uses | Doc3 |
构建倒排索引的步骤:
- 分词(Tokenization):
- 文本被分解为词项。例如
Elasticsearch is a search engine被分成:[Elasticsearch, is, a, search, engine]。
- 文本被分解为词项。例如
- 去停用词(Stop Words):
- 移除无意义的词汇(如 “is”, “a” 等)。
- 词项映射:
- 记录每个词项出现在哪些文档中。
优点:
- 快速全文检索: 可以高效找到包含某个或某些关键词的文档。
- 灵活性: 支持复杂查询,比如布尔查询、短语匹配、模糊搜索等。
在 Elasticsearch 中的实现:
- 每个字段都会创建一个倒排索引。
- 支持分词器(Analyzer)对文本进行预处理,例如小写化、同义词扩展。
适用场景:
- 文本内容检索,如日志分析、电子商务搜索、知识库搜索。
NRT 搜索与倒排索引的结合:
- 倒排索引提供了快速查询的核心能力。
- NRT 搜索通过频繁刷新倒排索引,使得新数据能够快速加入搜索结果,从而实现“近实时”的体验。
这种结合使得 Elasticsearch 在海量数据的场景下既能高效写入,又能快速检索。
相关文章:
近实时”(NRT)搜索、倒排索引
近实时(Near Real-Time, NRT)搜索 近实时(NRT)搜索是 Elasticsearch 的核心特性之一,指的是数据在被写入到系统后,可以几乎立即被搜索和查询到。虽然它不像传统数据库那样完全实时,但它的延迟通…...
Ubuntu20.04安装openMVS<成功>.colmap<成功>和openMVG<失败(已成功)>
一、安装openMVS 参考官方文档 sudo apt-get -y install git mercurial cmake libpng-dev libjpeg-dev libtiff-dev libglu1-mesa-dev eigen git clone https://gitlab.com/libeigen/eigen --branch 3.4 mkdir eigen_build cd eigen_build &&\cmake . ../eigen -…...
从测试服务器手动热部署到生产环境的实现
为了实现从测试服务器(192.168.0.255)手动热部署到生产环境(172.168.20.100),可以采用多种方法。以下是详细的步骤和最佳实践,帮助你实现这一目标。 1. 准备生产环境 确保生产环境上的 Docker 和 Docker …...
【c++高阶DS】图
🔥个人主页:Quitecoder 🔥专栏:c笔记仓 目录 01.并查集02.图的介绍03.图的存储结构03.1.邻接矩阵03.2.邻接表03.3.矩阵版本代码实现03.4.邻接表版本代码实现 完整代码: 01.并查集 在一些应用问题中,需要将…...
React第十八节 useEffect 用法使用技巧注意事项详解
1、概述 useEffect 是React中一个用于 将组件与外部系统同步的 Hook;在函数式组件中处理副作用函数的 Hook,用于替代类式组件中的生命周期函数; 可以在副作用函数中 实现以下操作: a、请求接口,获取后台提供数据 b、操…...
C++ 指针基础:开启内存操控之门
1. 指针为何如此重要 在 C 编程领域,指针堪称一项极为关键的特性。它赋予了程序员直接访问和操控内存的能力,这使得程序在处理复杂数据结构与优化性能时具有更高的灵活性。想象一下,在编写大型程序时,高效地管理内存资源是多么重要…...
Nginx的stream模块代理四层协议TCP的流量转发
Nginx的stream模块是一个功能强大的工具,专门用于处理四层协议(即网络层和传输层,如TCP和UDP)的流量。以下是对Nginx stream模块的详细解析: 一、基本功能 Nginx的stream模块主要用于实现TCP和UDP数据流的代理、转发…...
UE5 渲染管线 学习笔记
兰伯特 SSS为散射的意思 带Bias的可以根据距离自动切换mip的卷积值 而带Level的值mipmaps的定值 #define A8_SAMPLE_MASK .a 这样应该就很好理解了 这个只采样a通道 带Level的参考上面的 朝左上和右下进行模糊 带Bias参考上面 随机数 4D 3D 2D 1D...
Echarts连接数据库,实时绘制图表详解
文章目录 Echarts连接数据库,实时绘制图表详解一、引言二、步骤一:环境准备与数据库连接1、环境搭建2、数据库连接 三、步骤二:数据获取与处理1、查询数据库2、数据处理 四、步骤三:ECharts图表配置与渲染1、配置ECharts选项2、动…...
Electron 学习笔记
目录 一、安装和启动electron 1. 官网链接 2. 根据文档在控制台输入 3. 打包必填 4. 安装electron开发依赖 5. 在开发的情况下打开应用 6. 修改main为main.js,然后创建main.js 7.启动 二、启动一个窗口 1. main.js 2. index.html 3. 隐藏菜单栏 三、其他…...
Debian 12 安装配置 fail2ban 保护 SSH 访问
背景介绍 双十一的时候薅羊毛租了台腾讯云的虚机, 是真便宜, 只是没想到才跑了一个月, 系统里面就收集到了巨多的 SSH 恶意登录失败记录. 只能说, 互联网真的是太不安全了. 之前有用过 fail2ban 在 CentOS 7 上面做过防护, 不过那已经是好久好久之前的故事了, 好多方法已经不…...
http反向代理
通过反向代理实现访问biying,目前访问一些网站需要绕过cloudfare还没有解决,代码如下: from fastapi import FastAPI, Request from fastapi.responses import StreamingResponse import httpx import uvicorn import logging# 设置日志 logging.basicConfig(level=logging.…...
java12.24日记
运算符: 算术运算符: 顾名思义进行算数运算的 多为:四则运算,加一个取余 ,-,*,/以及 %(取余) 而外的:自增 以及自减--,对原数进行1或者-1 i…...
vue中proxy代理配置(测试一)
接口地址:http://jsonplaceholder.typicode.com/posts 1、配置一(代理没起作用) (1)设置baseURL为http://jsonplaceholder.typicode.com (2)proxy为 ‘/api’:’ ’ (3&a…...
[OpenGL]使用TransformFeedback实现粒子效果
一、简介 本文介绍了如何使用 OpenGL 中的 Transform Feedback 实现粒子效果,最终可以实现下图的效果: 本文的粒子系统实现参考了modern-opengl-tutorial, ogldev-tutorial28 和 粒子系统–喷泉 [OpenGL-Transformfeedback]。 二、使用 TransformFeed…...
GitCode 光引计划投稿 | GoIoT:开源分布式物联网开发平台
GoIoT 是基于Gin 的开源分布式物联网(IoT)开发平台,用于快速开发,部署物联设备接入项目,是一套涵盖数据生产、数据使用和数据展示的解决方案。 GoIoT 开发平台,它是一个企业级物联网平台解决方案ÿ…...
用 gdbserver 调试 arm-linux 上的 AWTK 应用程序
很多嵌入式 linux 开发者都能熟练的使用 gdb/lldb 调试应用程序,但是还有不少朋友在调试开发板上的程序时,仍然在使用原始的 printf。本文介绍一下使用 gdbserver 通过网络调试开发板上的 AWTK 应用程序的方法,供有需要的朋友参考。 1. 下载 …...
攻防世界web第一题
最近开始学习网络安全的相关知识,开启刷题,当前第一题 题目为攻防世界web新手题 这是题目 翻译:在这个训练挑战中,您将了解 Robots_exclusion_standard。网络爬虫使用 robots.txt 文件来检查是否允许它们对您的网站或仅网站的一部…...
轮播图带详情插件,插件
超级好用的轮播图 介绍访问地址参数介绍使用方法(简单使用,参数结构点击链接查看详情)图片展示 介绍 video(15) 带有底部物品介绍以及价格的轮播图组件,持续维护,uniApp插件,直接下载填充数据就可以在项目里…...
gesp(三级)(14)洛谷:B4039:[GESP202409 三级] 回文拼接
gesp(三级)(14)洛谷:B4039:[GESP202409 三级] 回文拼接 题目描述 一个字符串是回文串,当且仅当该字符串从前往后读和从后往前读是一样的,例如, aabaa \texttt{aabaa} aabaa 和...
PHP异步I/O迁移紧急预案(含同步代码自动转换工具链+CI/CD熔断检测脚本)
第一章:PHP异步I/O迁移紧急预案概览当传统阻塞式 PHP 应用遭遇高并发 I/O 瓶颈(如大量 HTTP 请求、数据库查询或文件读写),服务响应延迟激增、连接池耗尽、CPU 利用率反常偏低——此时,异步 I/O 迁移已非优化选项&…...
HH-Lol-Prophet:基于数据智能分析的英雄联盟对局先知系统
HH-Lol-Prophet:基于数据智能分析的英雄联盟对局先知系统 【免费下载链接】hh-lol-prophet lol 对局先知 上等马 牛马分析程序 选人阶段判断己方大爹 大坑, 明确对局目标 基于lol client api 合法不封号 项目地址: https://gitcode.com/gh_mirrors/hh/hh-lol-prop…...
基于LDA主题模型的微博舆情分析实战指南
1. 微博舆情分析为什么需要LDA主题模型 每天微博上产生的海量内容就像一座未经开采的金矿,但如何从这些杂乱无章的文本中发现有价值的信息?这就是LDA主题模型大显身手的地方。我在实际舆情分析项目中,经常遇到这样的场景:客户给过…...
Adobe-GenP:创意工具普惠化的技术破局实践
Adobe-GenP:创意工具普惠化的技术破局实践 【免费下载链接】Adobe-GenP Adobe CC 2019/2020/2021/2022/2023 GenP Universal Patch 3.0 项目地址: https://gitcode.com/gh_mirrors/ad/Adobe-GenP 一、问题象限:创意产业的授权困境与技术挑战 1.1…...
Gemini api网络超时问题求助
用codex连接的gemini api,没想到一用就超时,是梯子问题吗?以及上面这些models哪个更能全面解决coding问题,也很少出错...
wvp-GB28181-pro企业级视频监控平台架构设计与高可用部署指南
wvp-GB28181-pro企业级视频监控平台架构设计与高可用部署指南 【免费下载链接】wvp-GB28181-pro 基于GB28181-2016、部标808、部标1078标准实现的开箱即用的网络视频平台。自带管理页面,支持NAT穿透,支持海康、大华、宇视等品牌的IPC、NVR接入。支持国标…...
OpenClaw低代码实践:Kimi-VL-A3B-Thinking多模态任务可视化编排
OpenClaw低代码实践:Kimi-VL-A3B-Thinking多模态任务可视化编排 1. 为什么需要低代码多模态任务编排 去年我接手了一个数据分析项目,需要每天从几十个网页截图并提取关键信息。最初尝试用Python脚本OpenCV硬编码处理,但每当网页改版就得重写…...
3步构建企业级认证系统实战指南:从0到1搭建安全认证中心
3步构建企业级认证系统实战指南:从0到1搭建安全认证中心 【免费下载链接】oauth2-server spring boot (springboot 3) oauth2 server sso 单点登录 认证中心 JWT,独立部署,用户管理 客户端管理 项目地址: https://gitcode.com/gh_mirrors/oau/oauth2-server …...
Cadence Sigrity 模块深度解析:从电源完整性到信号优化的全流程应用
1. Cadence Sigrity工具套件概览 在高速PCB设计领域,电源完整性和信号完整性分析已经成为确保电子设备可靠性的关键环节。Cadence Sigrity作为业界领先的EDA工具套件,提供了从直流分析到高频仿真的完整解决方案。我第一次接触这套工具是在2013年设计一块…...
图像矢量化新纪元:Vectorizer从技术原理到实战应用
图像矢量化新纪元:Vectorizer从技术原理到实战应用 【免费下载链接】vectorizer Potrace based multi-colored raster to vector tracer. Inputs PNG/JPG returns SVG 项目地址: https://gitcode.com/gh_mirrors/ve/vectorizer 一、重新定义图像的数字形态&a…...
