当前位置: 首页 > article >正文

掌握 ElasticSearch 四种match查询的原理与应用

文章目录

    • 一、引言 (Introduction)
    • 二、准备工作:创建索引和添加示例数据
    • 三、`match` 查询
    • 四、`match_all` 查询
    • 五、`multi_match` 查询
    • 六、`match_phrase` 查询
    • 七、总结 (Conclusion)

一、引言 (Introduction)

在信息爆炸的时代,快速准确地找到所需信息至关重要。全文检索技术应运而生,它允许我们对文本内容进行深入搜索,而不仅仅是简单的关键词匹配。Elasticsearch 作为一个强大的分布式搜索和分析引擎,提供了丰富的全文检索功能。

本文将重点介绍 Elasticsearch 7.10 版本中四种核心的全文检索查询:matchmatch_allmulti_matchmatch_phrase。通过本文,你将掌握这些查询的基本概念、语法和使用场景,并通过丰富的示例学会如何在实践中应用它们。

版本说明: 本文所有示例均基于 Elasticsearch 7.10 版本。

二、准备工作:创建索引和添加示例数据

在开始学习查询之前,我们需要先创建一个索引并添加一些示例数据。请确保你已经安装并启动了 Elasticsearch 7.10。推荐使用 Kibana 的 Dev Tools 来执行以下操作。

  1. 创建索引 movies:

    我们创建一个名为 movies 的索引,其中包含两个字段:title (电影标题) 和 description (电影描述)。这两个字段都使用 text 类型,以便进行全文检索。

PUT movies
{"mappings": {"properties": {"title": {"type": "text"},"description": {"type": "text"}}}
}
  1. 添加示例数据:

    我们添加几条电影数据,以便后续进行查询演示。

    POST movies/_bulk
    {"index":{"_index": "movies"}}
    {"title": "The Dark Knight", "description": "A dark and gritty superhero film."}
    {"index":{"_index": "movies"}}
    {"title": "The Dark Knight Rises", "description": "The epic conclusion to the Dark Knight trilogy."}
    {"index":{"_index": "movies"}}
    {"title": "Batman Begins", "description": "The origin story of the Dark Knight."}
    {"index":{"_index": "movies"}}
    {"title": "Inception", "description": "A mind-bending science fiction thriller about dream sharing."}
    {"index":{"_index": "movies"}}
    {"title": "Interstellar", "description": "A visually stunning science fiction film about space travel."}
    

三、match 查询

match 查询是 Elasticsearch 中执行全文搜索的标准查询。它的工作原理是:

  1. 分析 (Analysis): match 查询首先会对你提供的查询字符串进行 分析。分析过程会将文本分解成一系列的 词项 (terms)。这个过程通常包括:

    • 字符过滤 (Character Filtering): 去除 HTML 标签等。
    • 分词 (Tokenization): 将文本分割成单词。
    • 词项过滤 (Token Filtering): 将单词转换为小写、移除停用词(如 “a”, “the”, “is” 等)、进行词干提取(stemming)等。
  2. 匹配 (Matching): 然后,match 查询会在指定的字段中查找包含 至少一个 分词结果的文档。

基本概念:

  • match 查询执行全文搜索,会对查询字符串进行分词。
  • 默认情况下,只要文档中包含 任意一个 分词结果,就会被认为是匹配的(or 逻辑)。
  • 可以通过 operator 参数将匹配逻辑改为 and,要求文档包含 所有 分词结果。

语法:

GET index/_search
{"query": {"match": {"field_name": {"query": "your search text","operator": "or"}}}
}

参数说明:

  • field_name: 要搜索的字段名。
  • query: 要搜索的文本。
  • operator (可选): 默认为 or,可以设置为 and

示例:

  • 示例 1:搜索包含 “dark” 或 “knight” 的电影

    GET movies/_search
    {"query": {"match": {"title": {"query": "Knight Rises"}}}
    }
    

    结果解释: 这个查询会返回所有标题中包含 “Rises” 或 “knight” 或两者都包含的电影(因为默认 operatoror)。根据我们之前添加的数据,会返回以下两条结果:

    • “The Dark Knight”
    • “The Dark Knight Rises” 。
  • 示例 2:搜索同时包含 “dark” 和 “knight” 的电影

    GET movies/_search
    {"query": {"match": {"title": {"query": "Knight Rises","operator": "and"}}}
    }
    

    结果解释: 通过设置 "operator": "and",这个查询要求标题中 同时 包含 “Knight” 和 “Rises” 分词后的结果根据我们之前添加的数据,“The Dark Knight Rises” 会被匹配,因为它的标题分词后包含 “Knight” 和 “Rises”。

四、match_all 查询

match_all 查询非常简单,它会返回索引中的 所有 文档。这相当于没有任何查询条件,就像 SQL 中的 SELECT * FROM table

基本概念:

  • match_all 匹配所有文档。
  • 通常用于与其他查询或过滤器结合使用。

语法:

GET index/_search
{"query": {"match_all": {}}
}

示例:

GET movies/_search
{"query": {"match_all": {}}
}

这个查询会返回 movies 索引中的所有文档,也就是我们之前添加的五条电影数据。

五、multi_match 查询

multi_match 查询允许你在 多个 字段中搜索相同的文本。这对于需要在多个字段中查找关键词的场景非常有用。

基本概念:

  • multi_match 在多个字段中搜索相同的查询字符串。
  • 默认情况下,它使用 best_fields 策略,即找到匹配度最高的字段。

语法:

GET index/_search
{"query": {"multi_match": {"query": "your search text","fields": ["field1", "field2"]}}
}

参数说明:

  • query: 要搜索的文本。
  • fields: 一个数组,包含要搜索的字段名。
  • type (可选): 确定如何组合多个字段的匹配结果。默认为 best_fields。其他选项包括 most_fieldscross_fields 等(这里不深入展开)。

示例:

GET movies/_search
{"query": {"multi_match": {"query": "dark knight","fields": ["title", "description"]}}
}

结果解释: 这个查询会在 titledescription 两个字段中搜索 “dark knight”。它会返回在这两个字段的任意一个中匹配到该文本(分词后的词项)的电影。根据示例数据和match的分析,它应该会返回以下结果:

  • “The Dark Knight”
  • “The Dark Knight Rises”
  • “Batman Begins” (因为其 description 包含 “the Dark Knight”)
// 部分json
{
"hits" : [{"_index" : "movies","_type" : "_doc","_id" : "mmjpI5UBFTEr5wdTXFgU","_score" : 1.5241971,"_source" : {"title" : "The Dark Knight","description" : "A dark and gritty superhero film."}},{"_index" : "movies","_type" : "_doc","_id" : "nGjpI5UBFTEr5wdTXFgU","_score" : 1.4764125,"_source" : {"title" : "Batman Begins","description" : "The origin story of the Dark Knight."}},{"_index" : "movies","_type" : "_doc","_id" : "m2jpI5UBFTEr5wdTXFgU","_score" : 1.3997822,"_source" : {"title" : "The Dark Knight Rises","description" : "The epic conclusion to the Dark Knight trilogy."}}]
}

六、match_phrase 查询

match_phrase 查询用于执行 短语匹配。它要求:

  1. 所有 查询词项都必须出现在文档中。
  2. 查询词项的 顺序 必须与文档中的顺序完全一致。
  3. 查询词项在文档中必须是 相邻 的(默认情况下)。

基本概念:

  • match_phrase 用于精确的短语匹配。
  • 它要求词项的顺序和邻近度与查询字符串完全一致。
  • slop 参数允许短语中的词项之间存在一定间隔。

语法:

GET index/_search
{"query": {"match_phrase": {"field_name": {"query": "your exact phrase"}}}
}
  • 参数说明:
    • field_name:字段名称
    • query:短语内容

示例:

GET movies/_search
{"query": {"match_phrase": {"title": {"query": "Dark Knight Rises"}}}
}

结果解释: 根据数据,只有 title 为"The Dark Knight Rises"的数据会被搜索到。如果一部电影的标题是 “The Dark Knight”,则不会被匹配到,因为词项不完全一致。

七、总结 (Conclusion)

下表总结了本文介绍的四种全文检索查询:

查询类型描述适用场景
match标准的全文搜索查询,对查询字符串进行分词,匹配包含任意一个或多个分词的文档。最常用的查询类型,适用于大多数全文搜索场景。
match_all返回索引中的所有文档。通常与其他查询或过滤器结合使用。
multi_match在多个字段中搜索相同的文本。当需要在多个字段中查找关键词时非常有用。
match_phrase精确短语匹配,要求词项的顺序和邻近度与查询字符串完全一致。当需要精确匹配一个短语,并且对词项的顺序和邻近度有严格要求时使用。

相关文章:

掌握 ElasticSearch 四种match查询的原理与应用

文章目录 一、引言 (Introduction)二、准备工作:创建索引和添加示例数据三、match 查询四、match_all 查询五、multi_match 查询六、match_phrase 查询七、总结 (Conclusion) 一、引言 (Introduction) 在信息爆炸的时代,快速准确地找到所需信息至关重要…...

Vue 中组件通信的方式有哪些,如何实现父子组件和非父子组件之间的通信?

一、父子组件通信&#xff08;垂直通信&#xff09; 1. Props 传值&#xff08;父 → 子&#xff09; 实现方案&#xff1a; <!-- Parent.vue --> <template><Child :user"userData" /> </template><script setup> import { ref } …...

微信小程序(uni)+蓝牙连接+Xprint打印机实现打印功能

1.蓝牙列表实现&#xff0c;蓝牙设备展示&#xff0c;蓝牙连接 <template><view class"container"><view class"container_top"><view class"l">设备名称</view><view class"r">{{state.phoneNam…...

QT 建立一片区域某种颜色

绘制一个位于(50, 50)的200x200的红色矩形 #include "widget.h" #include "ui_widget.h" #include <QPainter>Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this);update(); }Widget::~Widget() {delete…...

Go Web 项目实战:构建 RESTful API、命令行工具及应用部署

Go Web 项目实战&#xff1a;构建 RESTful API、命令行工具及应用部署 Go 语言因其简洁高效、并发支持强大等特点&#xff0c;已经成为了后端开发的热门选择之一。本篇文章将通过实战案例带领你学习如何使用 Go 构建一个简单的 RESTful API&#xff0c;开发命令行工具&#xf…...

Eclipse自动排版快捷键“按了没有用”的解决办法

快捷键按了没有用&#xff0c;通常是因为该快捷键方式被其他软件占用了&#xff0c;即别的软件也设置了这个快捷键&#xff0c;导致你按了之后电脑不知道该响应哪个软件。 解决办法&#xff1a;1.将当前软件的这个快捷键改了&#xff1b;2.找到占用的那个软件&#xff0c;把那…...

springboot404-基于Java的校园礼服租赁系统(源码+数据库+纯前后端分离+部署讲解等)

&#x1f495;&#x1f495;作者&#xff1a; 爱笑学姐 &#x1f495;&#x1f495;个人简介&#xff1a;十年Java&#xff0c;Python美女程序员一枚&#xff0c;精通计算机专业前后端各类框架。 &#x1f495;&#x1f495;各类成品Java毕设 。javaweb&#xff0c;ssm&#xf…...

PHP支付宝--转账到支付宝账户

官方参考文档&#xff1a; ​https://opendocs.alipay.com/open/62987723_alipay.fund.trans.uni.transfer?sceneca56bca529e64125a2786703c6192d41&pathHash66064890​ 可以使用默认应用&#xff0c;也可以自建新应用&#xff0c;此处以默认应用来讲解【默认应用默认支持…...

推荐一款AI大模型托管平台-OpenWebUI

推荐一款AI大模型托管平台-OpenWebUI 1. OpenWebUI 1. OpenWebUI什么? 官网地址&#xff1a;https://openwebui.com/ GitHub地址&#xff1a; https://github.com/open-webui/open-webui Open WebUI 是一个可扩展、功能丰富且用户友好的自托管 AI 平台&#xff0c;旨在完全离…...

PHP Composer:高效项目依赖管理工具详解

PHP Composer:高效项目依赖管理工具详解 引言 随着Web开发领域的不断扩展,项目的复杂性也在逐渐增加。为了提高开发效率,减少重复劳动,依赖管理工具应运而生。其中,PHP的Composer成为了开发者们的首选。本文将详细介绍PHP Composer的功能、使用方法以及在实际开发中的应…...

代码随想录D50-51 图论 Python

理论基础 理论基础部分依然沿用代码随想录教程中的介绍&#xff1a; 图的种类 度 连通性 连通性用于表示图中节点的连通情况。 如果有节点不能到达其他节点&#xff0c;则为非连通图&#xff0c;想象将多个水分子表示为图&#xff0c;不考虑非键作用&#xff0c;这张图就不是…...

【八股】计算机网络

HTTP 应用层网络层传输层接口层数据链路层 HTTP基本概念 HTTP是什么&#xff1f; HTTP是超文本传输协议 HTTP 常见的状态码有哪些&#xff1f; 200、204、206 成功 301、302、304 重定向 400、403、404 客户端错误 500、501、502、503 服务端错误...

在 Spring Boot 中使用 `@Autowired` 和 `@Bean` 注解

文章目录 在 Spring Boot 中使用 Autowired 和 Bean 注解示例背景 1. 定义 Student 类2. 配置类&#xff1a;初始化 Bean3. 测试类&#xff1a;使用 Autowired 注解自动注入 Bean4. Spring Boot 的自动装配5. 总结 在 Spring Boot 中使用 Autowired 和 Bean 注解 在 Spring Bo…...

Qt 保留小数点 固定长度 QString 格式化

QString的arg()函数格式化输出double类型数值&#xff0c;包括fieldWidth、fmt、prec和fillChar参数的作用。示例代码展示了如何设置精度和填充字符&#xff0c;以及字段宽度的影响。文中提到&#xff0c;当fieldWidth小于实际长度时&#xff0c;前面的填充不会被截断。此外&am…...

Mac M3/M4 本地部署Deepseek并集成vscode

Mac 部署 使用傻瓜集成平台ollama&#xff0c;ollama平台依赖于docker&#xff0c;Mac的M3/M4 因doesn’t have VT-X/AMD-v enabled 所以VB,VM无法使用&#xff0c;导致docker无法启动&#xff0c;需要使用docker的替代品podman&#xff0c; 它完全兼容docker brew install p…...

TikTok账户安全指南:如何取消两步验证?

TikTok账户安全指南&#xff1a;如何取消两步验证&#xff1f; 在这个数字化的时代&#xff0c;保护我们的在线账户安全变得尤为重要。TikTok&#xff0c;作为全球流行的社交媒体平台&#xff0c;其账户安全更是不容忽视。两步验证作为一种增强账户安全性的措施&#xff0c;虽…...

【C++复习专题】—— 类和对象,包含类的引入、访问限定符、类的6个默认成员函数等

1.类的定义 class classname {//类体&#xff1a;由成员函数和成员变量组成 }; class为定义类的关键字&#xff0c;classname为类的名字&#xff0c;{}中为类的主体。 类体中的内容称为类的成员&#xff1a;类中的变量称为类的属性或成员变量&#xff1b;类中的函数称为类的方…...

Spring--BeanDefinition的用法

原文网址&#xff1a;Spring--BeanDefinition的用法_IT利刃出鞘的博客-CSDN博客 简介 本文介绍BeanDefinition的用法。 BeanDefinition是Bean的信息&#xff0c;用于生成Bean。 示例&#xff1a;手动注册Bean 待填充 BeanDefinition的作用 get 下图是通过beanDefinitio…...

关于C#的一些基础知识点汇总

1.C#结构体可以继承接口吗&#xff1f;会不会产生GC&#xff1f; 在 C# 中&#xff0c;结构体不能继承类&#xff0c;但可以实现接口。 代码&#xff1a; interface IMyInterface {void MyMethod(); }struct MyStruct : IMyInterface {public void MyMethod(){Console.Write…...

一文讲解Redis为什么读写性能高以及I/O复用相关知识点

Redis为什么读写性能高呢&#xff1f; Redis 的速度⾮常快&#xff0c;单机的 Redis 就可以⽀撑每秒十几万的并发&#xff0c;性能是 MySQL 的⼏⼗倍。原因主要有⼏点&#xff1a; ①、基于内存的数据存储&#xff0c;Redis 将数据存储在内存当中&#xff0c;使得数据的读写操…...

Hadoop-HA(高可用)机制

首先&#xff1a;在每个NAMENODE上都会有一个zkfc&#xff08;zookeeper failover colltroller&#xff09; &#xff0c;负责这两个的状态管理。哪个是&#xff08;active和standby&#xff09;然后写入zk集群里面。同时监控自己所在的机器是否正常。一旦active上zkfc的发现异…...

51单片机-按键

1、独立按键 1.1、按键介绍 轻触开关是一种电子开关&#xff0c;使用时&#xff0c;轻轻按开关按钮就可使开关接通&#xff0c;当松开手时&#xff0c;开关断开。 1.2、独立按键原理 按键在闭合和断开时&#xff0c;触点会存在抖动现象。P2\P3\P1都是准双向IO口&#xff0c;…...

深度学习的力量:精准肿瘤检测从此不再遥远

目录 引言 一、医学图像分析的挑战与深度学习的优势 1.1 医学图像分析的挑战 1.2 深度学习的优势 二、肿瘤检测的深度学习模型设计 2.1 卷积神经网络&#xff08;CNN&#xff09;的基本原理 2.2 网络架构设计 2.3 模型训练 三、肿瘤检测中的挑战与解决方案 3.1 数据不…...

初尝git自结命令大全与需要理解的地方记录

常用命令 git init–初始化工作区touch 文件全称–在工作区创建文档rm 文件全称 --删除文档notepad 文件全称–在工作区打开文档cat 文件全称–在显示框显示文档的东西git status --显示工作区的文件冲突的文件 &#xff08;git add 文件全称或者.&#xff09; —将工作区文件…...

LangChain 技术入门指南:探索语言模型的无限可能

在当今的技术领域&#xff0c;LangChain 正逐渐崭露头角&#xff0c;成为开发语言模型应用的强大工具。如果你渴望深入了解并掌握这一技术&#xff0c;那么就跟随本文一起开启 LangChain 的入门之旅吧&#xff01; (后续将持续输出关于LangChain的技术文章,有兴趣的同学可以关注…...

Nginx WebSocket 长连接及数据容量配置

WebSocket 协议是实现实时通信的关键技术。相比于传统的 HTTP 请求-响应模式&#xff0c;WebSocket 提供了双向、持久化的通信方式。Nginx 作为一个高性能的反向代理服务器&#xff0c;可以非常有效地处理 WebSocket 连接&#xff0c;但要正确处理 WebSocket 长连接和传输大数据…...

Pycharm+CodeGPT+Ollama+Deepseek

首先&#xff0c;体验截图&#xff1a; 接着&#xff1a; 1、下载Ollama&#xff1a; Download Ollama on macOS 2、下载模型 以1.5b为例&#xff0c;打开命令行&#xff0c;输入: ollama run deepseek-r1:1.5b 3、Pycharm安装Code GPT插件 打开PyCharm&#xff0c;找到文…...

k8s Container runtime network not ready

问题 k8s 3 控制节点,docker 运行时,后期踢掉其中一个节点,使用了 containerd 运行时,但是在加入集群的时候,node 状态 notready。查看 kubelet 的日志发现如下报错 Feb 20 11:28:14 bjm3 kubelet[144781]: E0220 11:28:14.506374 144781 kubelet.go:2475] "Conta…...

阿里云k8s服务部署操作一指禅

文章目录 DockerFile镜像操作阿里云k8s服务部署 DockerFile # 使用 JDK 17 官方镜像 # linux架构&#xff1a;FROM --platformlinux/amd64 openjdk:17-jdk-slim # arm架构&#xff1a;openjdk:17-jdk-slim FROM --platformlinux/amd64 openjdk:17-jdk-slim# 设置工作目录 WORK…...

pdf-extract-kit paddle paddleocr pdf2markdown.py(效果不佳)

GitHub - opendatalab/PDF-Extract-Kit: A Comprehensive Toolkit for High-Quality PDF Content Extraction https://github.com/opendatalab/PDF-Extract-Kit pdf2markdown.py 运行遇到的问题&#xff1a; 错误&#xff1a; -------------------------------------- C Tra…...