当前位置: 首页 > news >正文

掌握 ElasticSearch 四种match查询的原理与应用

文章目录

    • 一、引言 (Introduction)
    • 二、准备工作:创建索引和添加示例数据
    • 三、`match` 查询
    • 四、`match_all` 查询
    • 五、`multi_match` 查询
    • 六、`match_phrase` 查询
    • 七、总结 (Conclusion)

一、引言 (Introduction)

在信息爆炸的时代,快速准确地找到所需信息至关重要。全文检索技术应运而生,它允许我们对文本内容进行深入搜索,而不仅仅是简单的关键词匹配。Elasticsearch 作为一个强大的分布式搜索和分析引擎,提供了丰富的全文检索功能。

本文将重点介绍 Elasticsearch 7.10 版本中四种核心的全文检索查询:matchmatch_allmulti_matchmatch_phrase。通过本文,你将掌握这些查询的基本概念、语法和使用场景,并通过丰富的示例学会如何在实践中应用它们。

版本说明: 本文所有示例均基于 Elasticsearch 7.10 版本。

二、准备工作:创建索引和添加示例数据

在开始学习查询之前,我们需要先创建一个索引并添加一些示例数据。请确保你已经安装并启动了 Elasticsearch 7.10。推荐使用 Kibana 的 Dev Tools 来执行以下操作。

  1. 创建索引 movies:

    我们创建一个名为 movies 的索引,其中包含两个字段:title (电影标题) 和 description (电影描述)。这两个字段都使用 text 类型,以便进行全文检索。

PUT movies
{"mappings": {"properties": {"title": {"type": "text"},"description": {"type": "text"}}}
}
  1. 添加示例数据:

    我们添加几条电影数据,以便后续进行查询演示。

    POST movies/_bulk
    {"index":{"_index": "movies"}}
    {"title": "The Dark Knight", "description": "A dark and gritty superhero film."}
    {"index":{"_index": "movies"}}
    {"title": "The Dark Knight Rises", "description": "The epic conclusion to the Dark Knight trilogy."}
    {"index":{"_index": "movies"}}
    {"title": "Batman Begins", "description": "The origin story of the Dark Knight."}
    {"index":{"_index": "movies"}}
    {"title": "Inception", "description": "A mind-bending science fiction thriller about dream sharing."}
    {"index":{"_index": "movies"}}
    {"title": "Interstellar", "description": "A visually stunning science fiction film about space travel."}
    

三、match 查询

match 查询是 Elasticsearch 中执行全文搜索的标准查询。它的工作原理是:

  1. 分析 (Analysis): match 查询首先会对你提供的查询字符串进行 分析。分析过程会将文本分解成一系列的 词项 (terms)。这个过程通常包括:

    • 字符过滤 (Character Filtering): 去除 HTML 标签等。
    • 分词 (Tokenization): 将文本分割成单词。
    • 词项过滤 (Token Filtering): 将单词转换为小写、移除停用词(如 “a”, “the”, “is” 等)、进行词干提取(stemming)等。
  2. 匹配 (Matching): 然后,match 查询会在指定的字段中查找包含 至少一个 分词结果的文档。

基本概念:

  • match 查询执行全文搜索,会对查询字符串进行分词。
  • 默认情况下,只要文档中包含 任意一个 分词结果,就会被认为是匹配的(or 逻辑)。
  • 可以通过 operator 参数将匹配逻辑改为 and,要求文档包含 所有 分词结果。

语法:

GET index/_search
{"query": {"match": {"field_name": {"query": "your search text","operator": "or"}}}
}

参数说明:

  • field_name: 要搜索的字段名。
  • query: 要搜索的文本。
  • operator (可选): 默认为 or,可以设置为 and

示例:

  • 示例 1:搜索包含 “dark” 或 “knight” 的电影

    GET movies/_search
    {"query": {"match": {"title": {"query": "Knight Rises"}}}
    }
    

    结果解释: 这个查询会返回所有标题中包含 “Rises” 或 “knight” 或两者都包含的电影(因为默认 operatoror)。根据我们之前添加的数据,会返回以下两条结果:

    • “The Dark Knight”
    • “The Dark Knight Rises” 。
  • 示例 2:搜索同时包含 “dark” 和 “knight” 的电影

    GET movies/_search
    {"query": {"match": {"title": {"query": "Knight Rises","operator": "and"}}}
    }
    

    结果解释: 通过设置 "operator": "and",这个查询要求标题中 同时 包含 “Knight” 和 “Rises” 分词后的结果根据我们之前添加的数据,“The Dark Knight Rises” 会被匹配,因为它的标题分词后包含 “Knight” 和 “Rises”。

四、match_all 查询

match_all 查询非常简单,它会返回索引中的 所有 文档。这相当于没有任何查询条件,就像 SQL 中的 SELECT * FROM table

基本概念:

  • match_all 匹配所有文档。
  • 通常用于与其他查询或过滤器结合使用。

语法:

GET index/_search
{"query": {"match_all": {}}
}

示例:

GET movies/_search
{"query": {"match_all": {}}
}

这个查询会返回 movies 索引中的所有文档,也就是我们之前添加的五条电影数据。

五、multi_match 查询

multi_match 查询允许你在 多个 字段中搜索相同的文本。这对于需要在多个字段中查找关键词的场景非常有用。

基本概念:

  • multi_match 在多个字段中搜索相同的查询字符串。
  • 默认情况下,它使用 best_fields 策略,即找到匹配度最高的字段。

语法:

GET index/_search
{"query": {"multi_match": {"query": "your search text","fields": ["field1", "field2"]}}
}

参数说明:

  • query: 要搜索的文本。
  • fields: 一个数组,包含要搜索的字段名。
  • type (可选): 确定如何组合多个字段的匹配结果。默认为 best_fields。其他选项包括 most_fieldscross_fields 等(这里不深入展开)。

示例:

GET movies/_search
{"query": {"multi_match": {"query": "dark knight","fields": ["title", "description"]}}
}

结果解释: 这个查询会在 titledescription 两个字段中搜索 “dark knight”。它会返回在这两个字段的任意一个中匹配到该文本(分词后的词项)的电影。根据示例数据和match的分析,它应该会返回以下结果:

  • “The Dark Knight”
  • “The Dark Knight Rises”
  • “Batman Begins” (因为其 description 包含 “the Dark Knight”)
// 部分json
{
"hits" : [{"_index" : "movies","_type" : "_doc","_id" : "mmjpI5UBFTEr5wdTXFgU","_score" : 1.5241971,"_source" : {"title" : "The Dark Knight","description" : "A dark and gritty superhero film."}},{"_index" : "movies","_type" : "_doc","_id" : "nGjpI5UBFTEr5wdTXFgU","_score" : 1.4764125,"_source" : {"title" : "Batman Begins","description" : "The origin story of the Dark Knight."}},{"_index" : "movies","_type" : "_doc","_id" : "m2jpI5UBFTEr5wdTXFgU","_score" : 1.3997822,"_source" : {"title" : "The Dark Knight Rises","description" : "The epic conclusion to the Dark Knight trilogy."}}]
}

六、match_phrase 查询

match_phrase 查询用于执行 短语匹配。它要求:

  1. 所有 查询词项都必须出现在文档中。
  2. 查询词项的 顺序 必须与文档中的顺序完全一致。
  3. 查询词项在文档中必须是 相邻 的(默认情况下)。

基本概念:

  • match_phrase 用于精确的短语匹配。
  • 它要求词项的顺序和邻近度与查询字符串完全一致。
  • slop 参数允许短语中的词项之间存在一定间隔。

语法:

GET index/_search
{"query": {"match_phrase": {"field_name": {"query": "your exact phrase"}}}
}
  • 参数说明:
    • field_name:字段名称
    • query:短语内容

示例:

GET movies/_search
{"query": {"match_phrase": {"title": {"query": "Dark Knight Rises"}}}
}

结果解释: 根据数据,只有 title 为"The Dark Knight Rises"的数据会被搜索到。如果一部电影的标题是 “The Dark Knight”,则不会被匹配到,因为词项不完全一致。

七、总结 (Conclusion)

下表总结了本文介绍的四种全文检索查询:

查询类型描述适用场景
match标准的全文搜索查询,对查询字符串进行分词,匹配包含任意一个或多个分词的文档。最常用的查询类型,适用于大多数全文搜索场景。
match_all返回索引中的所有文档。通常与其他查询或过滤器结合使用。
multi_match在多个字段中搜索相同的文本。当需要在多个字段中查找关键词时非常有用。
match_phrase精确短语匹配,要求词项的顺序和邻近度与查询字符串完全一致。当需要精确匹配一个短语,并且对词项的顺序和邻近度有严格要求时使用。

相关文章:

掌握 ElasticSearch 四种match查询的原理与应用

文章目录 一、引言 (Introduction)二、准备工作:创建索引和添加示例数据三、match 查询四、match_all 查询五、multi_match 查询六、match_phrase 查询七、总结 (Conclusion) 一、引言 (Introduction) 在信息爆炸的时代,快速准确地找到所需信息至关重要…...

解决:Conda虚拟环境中未设置CUDA_HOME的问题

背景:我是Ubuntu22.04系统,最近在复现FoundationPose算法,按照README构建部署环境时,有一步一直卡住,看了下是未找到CUDA_HOME这个环境变量。 网上搜了下这个错误,需要设置CUDA_HOME的环境变量路径&#x…...

easyexcel和poi同时存在版本问题,使用easyexcel导出excel设置日期格式

这两天在使用easyexcel导出excel的时候日期格式全都是字符串导致导出的excel列无法筛选 后来调整了一下终于弄好了,看一下最终效果 这里涉及到easyexcel和poi版本冲突的问题,一直没搞定,最后狠下心来把所有的都升级到了最新版,然…...

HarmonyOS 开发套件 介绍——下篇

HarmonyOS 开发套件 介绍——下篇 在HarmonyOS的生态中,开发套件作为支撑整个系统发展的基石,为开发者提供了丰富而强大的工具和服务。本文将深入继续介绍HarmonyOS SDK、ArkCompiler、DevEco Testing、AppGallery等核心组件,帮助开发者全面掌…...

关于order by的sql注入实验

实验描述 本实验基于sqli-lab的第46关进行测试 本关的sql 语句为$sql "SELECT * FROM users ORDER BY $id" 利用sort进行sql注入,我们可以利用报错注入,延时注入来爆出数据 1.报错注入 1.手工测试 爆出数据库 ?sort(extractvalue(1, c…...

Transformers快速入门-学习笔记

一、自然语言处理 NLP 是借助计算机技术研究人类语言的科学自然语言处理发展史 一、不懂语法怎么理解语言 依靠语言学家人工总结文法规则 Chomsky Formal Languages 难点:上下文有关文法 规则增多,存在矛盾 二、只要看得足够多,就能处理语言…...

luci界面开发中的MVC架构——LuCI介绍(二)

想要给openwrt开发应用,虽然直接可执行程序也可以运行,但是没有UI会很不方便,想要开发UI就要用openwrt的那一套,自然就是LuCI,LuCI又用了一套MVC框架,今天就讲讲这是个什么东西。 OpenWrt LuCI 界面开发中…...

第1章大型互联网公司的基础架构——1.10 其他NoSQL数据库

这里我们简单介绍一下其他常见的NoSQL数据库及其适用的场景,其中部分数据库会在后续服务设计章节中正式使用时再做详细介绍。 1.10.1 文档数据库 文档数据库的典型代表是MongoDB和CouchDB。**文档数据库普遍采用JSON格式来存储数据,而不是采用僵硬的行…...

DeepSeek+Kimi生成高质量PPT

DeepSeek与Kimi生成PPT全流程解析 一、工具分工原理 DeepSeek核心作用:生成结构化PPT大纲(擅长逻辑构建与内容优化)Kimi核心作用:将文本转换为视觉化PPT(提供模板库与排版引擎) 二、操作步骤详解 1. 通…...

web网络安全:跨站脚本攻击(XSS)

跨站脚本攻击(XSS)概述 跨站脚本攻击(XSS,Cross-Site Scripting) 是一种常见的 Web 安全漏洞,攻击者通过向受信任的网站注入恶意脚本(通常是 JavaScript),诱使其他用户在…...

【Python爬虫(44)】分布式爬虫:筑牢安全防线,守护数据之旅

【Python爬虫】专栏简介:本专栏是 Python 爬虫领域的集大成之作,共 100 章节。从 Python 基础语法、爬虫入门知识讲起,深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑,覆盖网页、图片、音频等各类数据爬取&#xff…...

微信小程序:多菜单栏设计效果

一、实现效果 二、代码 wxml 编辑前端界面,步骤 菜单逻辑: 逐步取出数组中的项,首先取出顶部菜单项,然后选中后取出选中的底部数据(左侧菜单+右侧内容),然后点击左侧菜单取出选中的左侧菜单对应的右侧内容 ①这里我的数据是全部封装到一个数组对象的,首先我的循环…...

海康威视摄像头ISUP(原EHOME协议) 摄像头实时预览springboot 版本java实现,并可以在浏览器vue前端播放(附带源码)

1.首先说了一下为什么要用ISUP协议来取流 ISUP主要就是用来解决摄像头没有公网ip的情况,如果摄像头或者所在局域网的路由器有公网ip的话,其实采用rtsp直接取流是最方便也是性能最好的,但是项目的摄像头没有公网IP所以被迫使用ISUP,ISUP是海康…...

蓝桥杯之阶段考核

📖 Day 7:阶段考核 - 蓝桥杯官方模拟赛(限时 4 小时) 📖 一、如何高效完成模拟赛? 模拟赛是一种接近真实竞赛的训练方式。要高效完成模拟赛,需要掌握以下策略: 1. 赛前准备 ✅ 环…...

Python爬虫基础重要数据类型

重要数据类型 列表数据类型 在实际开发中,经常需要将一组(不只一个)数据存储起来,以便后边的代码使用。列表就是这样的一个数据结构。且列表是Python中最基本也是最常用的数据结构之一。什么是数据结构呢?通俗来讲&a…...

乐享数科:供应链金融—三个不同阶段的融资模式

供应链金融是与产业链紧密结合的融资模式,它主要体现在订单采购、存货保管、销售回款这三个不同的业务阶段,并针对这些阶段提供了相应的金融服务。以下是这三个阶段中主要的融资模式及其特点: 供应链金融融资模式主要分为以下几种&#xff1…...

【AI】openEuler 22.03 LTS SP4安装 docker NVIDIA Container Toolkit

NVIDIA Container Toolkit 打开网址 Unsupported distribution or misconfigured repository settings | NVIDIA Container Toolkit 为方便离线安装,先下载过来 wget https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo mk…...

【2025全网首发B站教程】YOLOv12训练数据集构建:标签格式转换-划分-YAML 配置 避坑指南 | 小白也能轻松玩转目标检测!

【2025全站首发】YOLOv12训练数据集构建:标签格式转换-划分-YAML 配置 避坑指南 | 小白也能轻松玩转目标检测! 文章目录 1. 数据集准备1.1 标签格式转换1.2 数据集划分1.3 yaml配置文件创建 2. 训练验证 1. 数据集准备 示例数据集下载链接:P…...

设计模式教程:中介者模式(Mediator Pattern)

中介者模式是一种行为型设计模式,它用于减少对象之间的直接依赖关系。通过引入一个中介者对象,所有对象的交互都通过中介者进行,而不是直接相互通信。这种模式的主要目的是减少对象之间的耦合,提升系统的灵活性和可维护性。 1. 定…...

编写dockercompose脚本,管理redis,activemq,mysql5.7

编写dockercompose脚本,管理redis,activemq,mysql5.7,mysql的root密码设置Duke2007,redis密码设置duke0591 Docker Compose 多服务编排脚本(安全增强版) yaml 复制 services: # # MySQL 5.7 服务配置 #…...

江苏艾立泰跨国资源接力:废料变黄金的绿色供应链革命

在华东塑料包装行业面临限塑令深度调整的背景下,江苏艾立泰以一场跨国资源接力的创新实践,重新定义了绿色供应链的边界。 跨国回收网络:废料变黄金的全球棋局 艾立泰在欧洲、东南亚建立再生塑料回收点,将海外废弃包装箱通过标准…...

BCS 2025|百度副总裁陈洋:智能体在安全领域的应用实践

6月5日,2025全球数字经济大会数字安全主论坛暨北京网络安全大会在国家会议中心隆重开幕。百度副总裁陈洋受邀出席,并作《智能体在安全领域的应用实践》主题演讲,分享了在智能体在安全领域的突破性实践。他指出,百度通过将安全能力…...

【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分

一、项目背景回顾 前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。 本弹重点聚焦于服务端的模块划分与架构设计,提升代码结构的可维护性与扩展性。 二、服务端模块设计目标 高内聚低耦合:各模块职责清晰,便于独立开发…...

Android 之 kotlin 语言学习笔记三(Kotlin-Java 互操作)

参考官方文档:https://developer.android.google.cn/kotlin/interop?hlzh-cn 一、Java(供 Kotlin 使用) 1、不得使用硬关键字 不要使用 Kotlin 的任何硬关键字作为方法的名称 或字段。允许使用 Kotlin 的软关键字、修饰符关键字和特殊标识…...

IP如何挑?2025年海外专线IP如何购买?

你花了时间和预算买了IP,结果IP质量不佳,项目效率低下不说,还可能带来莫名的网络问题,是不是太闹心了?尤其是在面对海外专线IP时,到底怎么才能买到适合自己的呢?所以,挑IP绝对是个技…...

vulnyx Blogger writeup

信息收集 arp-scan nmap 获取userFlag 上web看看 一个默认的页面,gobuster扫一下目录 可以看到扫出的目录中得到了一个有价值的目录/wordpress,说明目标所使用的cms是wordpress,访问http://192.168.43.213/wordpress/然后查看源码能看到 这…...

探索Selenium:自动化测试的神奇钥匙

目录 一、Selenium 是什么1.1 定义与概念1.2 发展历程1.3 功能概述 二、Selenium 工作原理剖析2.1 架构组成2.2 工作流程2.3 通信机制 三、Selenium 的优势3.1 跨浏览器与平台支持3.2 丰富的语言支持3.3 强大的社区支持 四、Selenium 的应用场景4.1 Web 应用自动化测试4.2 数据…...

水泥厂自动化升级利器:Devicenet转Modbus rtu协议转换网关

在水泥厂的生产流程中,工业自动化网关起着至关重要的作用,尤其是JH-DVN-RTU疆鸿智能Devicenet转Modbus rtu协议转换网关,为水泥厂实现高效生产与精准控制提供了有力支持。 水泥厂设备众多,其中不少设备采用Devicenet协议。Devicen…...

高防服务器价格高原因分析

高防服务器的价格较高,主要是由于其特殊的防御机制、硬件配置、运营维护等多方面的综合成本。以下从技术、资源和服务三个维度详细解析高防服务器昂贵的原因: 一、硬件与技术投入 大带宽需求 DDoS攻击通过占用大量带宽资源瘫痪目标服务器,因此…...

【把数组变成一棵树】有序数组秒变平衡BST,原来可以这么优雅!

【把数组变成一棵树】有序数组秒变平衡BST,原来可以这么优雅! 🌱 前言:一棵树的浪漫,从数组开始说起 程序员的世界里,数组是最常见的基本结构之一,几乎每种语言、每种算法都少不了它。可你有没有想过,一组看似“线性排列”的有序数组,竟然可以**“长”成一棵平衡的二…...