当前位置：首页 > news >正文

SpringCloud 微服务全栈体系（十六）

news 2026/4/20 4:50:17

第十一章分布式搜索引擎 elasticsearch

六、DSL 查询文档

elasticsearch 的查询依然是基于 JSON 风格的 DSL 来实现的。

1. DSL 查询分类

Elasticsearch 提供了基于 JSON 的 DSL（Domain Specific Language）来定义查询。常见的查询类型包括：
- 查询所有：查询出所有数据，一般测试用。例如：match_all
- 全文检索（full text）查询：利用分词器对用户输入内容分词，然后去倒排索引库中匹配。例如：
  - match_query
  - multi_match_query
- 精确查询：根据精确词条值查找数据，一般是查找 keyword、数值、日期、boolean 等类型字段。例如：
  - ids
  - range
  - term
- 地理（geo）查询：根据经纬度查询。例如：
  - geo_distance
  - geo_bounding_box
- 复合（compound）查询：复合查询可以将上述各种查询条件组合起来，合并查询条件。例如：
  - bool
  - function_score
查询的语法基本一致：

GET /indexName/_search
{"query": {"查询类型": {"查询条件": "条件值"}}
}

以查询所有为例，其中：
- 查询类型为 match_all
- 没有查询条件

// 查询所有
GET /indexName/_search
{"query": {"match_all": {}}
}

其它查询无非就是查询类型、查询条件的变化。

2. 全文检索查询

2.1 使用场景

全文检索查询的基本流程如下：
- 对用户搜索的内容做分词，得到词条
- 根据词条去倒排索引库中匹配，得到文档 id
- 根据文档 id 找到文档，返回给用户
比较常用的场景包括：
- 商城的输入框搜索
- 百度输入框搜索
例如京东：

在这里插入图片描述

因为是拿着词条去匹配，因此参与搜索的字段也必须是可分词的 text 类型的字段。

2.2 基本语法

常见的全文检索查询包括：
- match 查询：单字段查询
- multi_match 查询：多字段查询，任意一个字段符合条件就算符合查询条件
match 查询语法如下：

GET /indexName/_search
{"query": {"match": {"FIELD": "TEXT"}}
}

mulit_match 语法如下：

GET /indexName/_search
{"query": {"multi_match": {"query": "TEXT","fields": ["FIELD1", " FIELD12"]}}
}

2.3 示例

match 查询示例：

在这里插入图片描述

multi_match 查询和 match 查询结果是一样的。
因为我们将 brand、name、business 值都利用 copy_to 复制到了 all 字段中。因此你根据三个字段搜索，和根据 all 字段搜索效果当然一样了。
但是，搜索字段越多，对查询性能影响越大，因此建议采用 copy_to，然后单字段查询的方式。

2.4.总结

match 和 multi_match 的区别是什么？
- match：根据一个字段查询
- multi_match：根据多个字段查询，参与查询字段越多，查询性能越差

3. 精准查询

精确查询一般是查找 keyword、数值、日期、boolean 等类型字段。所以不会对搜索条件分词。常见的有：
- term：根据词条精确值查询
- range：根据值的范围查询

3.1 term 查询

因为精确查询的字段是搜不分词的字段，因此查询的条件也必须是不分词的词条。查询时，用户输入的内容跟自动值完全匹配时才认为符合条件。如果用户输入的内容过多，反而搜索不到数据。
语法说明：

// term查询
GET /indexName/_search
{"query": {"term": {"FIELD": {"value": "VALUE"}}}
}

3.2 range 查询

范围查询，一般应用在对数值类型做范围过滤的时候。比如做价格范围过滤。
基本语法：

// range查询
GET /indexName/_search
{"query": {"range": {"FIELD": {"gte": 10, // 这里的gte代表大于等于，gt则代表大于"lte": 20 // lte代表小于等于，lt则代表小于}}}
}

示例：

在这里插入图片描述

3.3 总结

精确查询常见的有哪些？
- term 查询：根据词条精确匹配，一般搜索 keyword 类型、数值类型、布尔类型、日期类型字段
- range 查询：根据数值范围查询，可以是数值、日期的范围

4. 地理坐标查询

所谓的地理坐标查询，其实就是根据经纬度查询，官方文档：https://www.elastic.co/guide/en/elasticsearch/reference/current/geo-queries.html
常见的使用场景包括：
- 携程：搜索我附近的酒店
- 滴滴：搜索我附近的出租车
- 微信：搜索我附近的人

4.1 矩形范围查询

矩形范围查询，也就是 geo_bounding_box 查询，查询坐标落在某个矩形范围的所有文档
查询时，需要指定矩形的左上、右下两个点的坐标，然后画出一个矩形，落在该矩形内的都是符合条件的点。
语法如下：

// geo_bounding_box查询
GET /indexName/_search
{"query": {"geo_bounding_box": {"FIELD": {"top_left": { // 左上点"lat": 31.1,"lon": 121.5},"bottom_right": { // 右下点"lat": 30.9,"lon": 121.7}}}}
}

4.2 附近查询

附近查询，也叫做距离查询（geo_distance）：查询到指定中心点小于某个距离值的所有文档。
换句话来说，在地图上找一个点作为圆心，以指定距离为半径，画一个圆，落在圆内的坐标都算符合条件
语法说明：

// geo_distance 查询
GET /indexName/_search
{"query": {"geo_distance": {"distance": "15km", // 半径"FIELD": "31.21,121.5" // 圆心}}
}

5. 复合查询

复合（compound）查询：复合查询可以将其它简单查询组合起来，实现更复杂的搜索逻辑。常见的有两种：
- fuction score：算分函数查询，可以控制文档相关性算分，控制文档排名
- bool query：布尔查询，利用逻辑关系组合多个其它的查询，实现复杂搜索

5.1 相关性算分

当我们利用 match 查询时，文档结果会根据与搜索词条的关联度打分（_score），返回结果时按照分值降序排列。
例如，我们搜索 “虹桥如家”，结果如下：

[{"_score" : 17.850193,"_source" : {"name" : "虹桥如家酒店真不错",}},{"_score" : 12.259849,"_source" : {"name" : "外滩如家酒店真不错",}},{"_score" : 11.91091,"_source" : {"name" : "迪士尼如家酒店真不错",}}
]

在 elasticsearch 中，早期使用的打分算法是 TF-IDF 算法，公式如下：

在这里插入图片描述

在后来的 5.1 版本升级中，elasticsearch 将算法改进为 BM25 算法，公式如下：

在这里插入图片描述

TF-IDF 算法有一个缺陷，就是词条频率越高，文档得分也会越高，单个词条对文档影响较大。而 BM25 则会让单个词条的算分有一个上限，曲线更加平滑：

在这里插入图片描述

小结：elasticsearch 会根据词条和文档的相关度做打分，算法由两种：
- TF-IDF 算法
- BM25 算法，elasticsearch5.1 版本后采用的算法

5.2 算分函数查询

根据相关度打分是比较合理的需求，但合理的不一定是产品经理需要的。
以百度为例，你搜索的结果中，并不是相关度越高排名越靠前，而是谁掏的钱多排名就越靠前。如图：

在这里插入图片描述

要想人为控制相关性算分，就需要利用 elasticsearch 中的 function score 查询了。

5.2.1 语法说明

在这里插入图片描述

function score 查询中包含四部分内容：
- 原始查询条件：query 部分，基于这个条件搜索文档，并且基于 BM25 算法给文档打分，原始算分（query score)
- 过滤条件：filter 部分，符合该条件的文档才会重新算分
- 算分函数：符合 filter 条件的文档要根据这个函数做运算，得到的函数算分（function score），有四种函数
  - weight：函数结果是常量
  - field_value_factor：以文档中的某个字段值作为函数结果
  - random_score：以随机数作为函数结果
  - script_score：自定义算分函数算法
- 运算模式：算分函数的结果、原始查询的相关性算分，两者之间的运算方式，包括：
  - multiply：相乘
  - replace：用 function score 替换 query score
  - 其它，例如：sum、avg、max、min
function score 的运行流程如下：
- 根据原始条件查询搜索文档，并且计算相关性算分，称为原始算分（query score）
- 根据过滤条件，过滤文档
- 符合过滤条件的文档，基于算分函数运算，得到函数算分（function score）
- 将原始算分（query score）和函数算分（function score）基于运算模式做运算，得到最终结果，作为相关性算分。
因此，其中的关键点是：
- 过滤条件：决定哪些文档的算分被修改
- 算分函数：决定函数算分的算法
- 运算模式：决定最终算分结果

5.2.2 示例

需求：给“如家”这个品牌的酒店排名靠前一些
翻译一下这个需求，转换为之前说的四个要点：
- 原始条件：不确定，可以任意变化
- 过滤条件：brand = “如家”
- 算分函数：可以简单粗暴，直接给固定的算分结果，weight
- 运算模式：比如求和
因此最终的 DSL 语句如下：

GET /hotel/_search
{"query": {"function_score": {"query": {  .... }, // 原始查询，可以是任意条件"functions": [ // 算分函数{"filter": { // 满足的条件，品牌必须是如家"term": {"brand": "如家"}},"weight": 2 // 算分权重为2}],"boost_mode": "sum" // 加权模式，求和}}
}

测试，在未添加算分函数时，如家得分如下：

在这里插入图片描述

添加了算分函数后，如家得分就提升了：

在这里插入图片描述

5.2.3 小结

function score query 定义的三要素是什么？
- 过滤条件：哪些文档要加分
- 算分函数：如何计算 function score
- 加权方式：function score 与 query score 如何运算

5.3 布尔查询

布尔查询是一个或多个查询子句的组合，每一个子句就是一个子查询。子查询的组合方式有：
- must：必须匹配每个子查询，类似“与”
- should：选择性匹配子查询，类似“或”
- must_not：必须不匹配，不参与算分，类似“非”
- filter：必须匹配，不参与算分
比如在搜索酒店时，除了关键字搜索外，我们还可能根据品牌、价格、城市等字段做过滤。

请添加图片描述

每一个不同的字段，其查询的条件、方式都不一样，必须是多个不同的查询，而要组合这些查询，就必须用 bool 查询了。
需要注意的是，搜索时，参与打分的字段越多，查询的性能也越差。因此这种多条件查询时，建议这样做：
- 搜索框的关键字搜索，是全文检索查询，使用 must 查询，参与算分
- 其它过滤条件，采用 filter 查询。不参与算分

5.3.1 语法示例

GET /hotel/_search
{"query": {"bool": {"must": [{"term": {"city": "上海" }}],"should": [{"term": {"brand": "皇冠假日" }},{"term": {"brand": "华美达" }}],"must_not": [{ "range": { "price": { "lte": 500 } }}],"filter": [{ "range": {"score": { "gte": 45 } }}]}}
}

5.3.2 示例

需求：搜索名字包含“如家”，价格不高于 400，在坐标 31.21,121.5 周围 10km 范围内的酒店。
分析：
- 名称搜索，属于全文检索查询，应该参与算分。放到 must 中
- 价格不高于 400，用 range 查询，属于过滤条件，不参与算分。放到 must_not 中
- 周围 10km 范围内，用 geo_distance 查询，属于过滤条件，不参与算分。放到 filter 中

在这里插入图片描述

5.3.3 小结

bool 查询有几种逻辑关系？
- must：必须匹配的条件，可以理解为“与”
- should：选择性匹配的条件，可以理解为“或”
- must_not：必须不匹配的条件，不参与打分
- filter：必须匹配的条件，不参与打分

SpringCloud 微服务全栈体系（十六）

第十一章分布式搜索引擎 elasticsearch 六、DSL 查询文档 elasticsearch 的查询依然是基于 JSON 风格的 DSL 来实现的。 1. DSL 查询分类 Elasticsearch 提供了基于 JSON 的 DSL（Domain Specific Language）来定义查询。常见的查询类型包括&#xff1…...

编程日记 2023/11/25 21:37:04

「快学Docker」监控和日志记录容器的健康和性能

「快学Docker」监控和日志记录容器的健康和性能 1. 容器健康状态监控2. 性能监控3. 日志记录几种采集架构图 4. 监控工具和平台cAdvisor（Container Advisor）PrometheusGrafana 5. 自动化运维 1. 容器健康状态监控方法1：需要实时监测容器的运…...

编程日记 2023/11/25 21:36:03

midjourney过时了？如何使用基于LCM的绘图技术画出你心中的画卷。

生成 AI 艺术在近年来迅速发展，吸引了数百万用户。然而，传统的生成 AI 艺术需要等待几秒钟或几分钟才能生成，这对于快节奏的现代社会来说并不理想。近日，中国清华大学和 AI 代码共享平台 HuggingFace 联合开发了一项新的机器学习…...

编程日记 2023/11/25 21:35:01

【代码随想录】算法训练计划28

回溯 1、子集题目： 给你一个整数数组 nums ，数组中的元素互不相同。返回该数组所有可能的子集（幂集）。解集不能包含重复的子集。你可以按任意顺序返回解集。输入：nums [1,2,3] 输出：[[],[1],[2…...

编程日记 2023/11/25 21:34:00

量化交易：筹码理论的探索-筹码分布计算的实现

前言很多朋友习惯了同花顺、大智慧等看盘软件，经常问到筹码分布如何计算。说起来筹码分布的理论在庄股时代堪称是一个划时代产品，虽然历经level2数据、资金流统计、拆单算法与反拆单算法等新型技术的变革，庄股时代也逐渐淡出市场&#xf…...

编程日记 2023/11/25 21:32:59

常用Redis的键命令参考

一、DEL DEL key [key …] 删除给定的一个或多个 key 。不存在的 key 会被忽略。 #删除单个键127.0.0.1:6379> set name zhangsan OK 127.0.0.1:6379> del name (integer) 1# 删除一个不存在的 key， 失败，没有 key 被删除127.0.0.1:6379> E…...

编程日记 2023/11/25 21:31:59

Lombok @With 的纯弊端及如何避免

由于是第一篇写关于 Lombok 的日志，所以有些不情愿去开门见山直接触及 With, 而要先提一提本人对 Lombok 的接触过程。两三年之前写 Java 代码一直都是全手工打造。一个数据类，所有必须的 setter/getter, toString, hashcode() 等全体现在源代码中&…...

编程日记 2023/11/25 21:30:58

C语言每日一题（38）无重复字符的最长字串

力扣 3 无重复字符的最长字串题目描述给定一个字符串 s ，请你找出其中不含有重复字符的最长子串的长度。示例 1: 输入: s "abcabcbb" 输出: 3 解释: 因为无重复字符的最长子串是 "abc"，所以其长度为 3。示例 2: 输入: s…...

编程日记 2023/11/25 21:29:57

Azure Machine Learning - Azure可视化图像分类操作实战

目录一、数据准备二、创建自定义视觉资源三、创建新项目四、选择训练图像五、上传和标记图像六、训练分类器七、评估分类器概率阈值八、管理训练迭代在本文中，你将了解如何使用Azure可视化页面创建图像分类模型。生成模型后，可以使用新图像测试该模型…...

编程日记 2023/11/25 21:27:55

Paddle 功能特性 PP-OCR系列模型列表 https://github.com/PaddlePaddle/PaddleOCR#%EF%B8%8F-pp-ocr%E7%B3%BB%E5%88%97%E6%A8%A1%E5%9E%8B%E5%88%97%E8%A1%A8%E6%9B%B4%E6%96%B0%E4%B8%AD PP-OCR系列模型列表（V4，2023年8月1日更新） 配置文…...

编程日记 2023/11/25 21:26:54

安卓用SQLite数据库存储数据

什么是SQLite？ SQLite是安卓中的轻量级内置数据库，不需要设置用户名和密码就可以使用。资源占用较少，运算速度也比较快。 SQLite支持：null（空）、integer（整形）、real（小…...

编程日记 2023/11/25 21:25:53

MMFN-AL

MMFN means ‘multi-modal fusion network’ 辅助信息作者未提供代码...

编程日记 2023/11/25 21:24:52

7、独立按键控制LED状态

按键的抖动对于机械开关，当机械触点断开、闭合时，由于机械触点的弹性作用，一个开关在闭合时不回马上稳定地接通，在断开时也不会一下子断开，所以在开关闭合及断开的瞬间会伴随一连串的抖动 #include <REGX52.H…...

编程日记 2023/11/25 21:23:51

香蕉派BPI-M4 Zero单板计算机采用全志H618,板载2GRAM内存

Banana Pi BPI-M4 Zero 香蕉派 BPI-M4 Zero是BPI-M2 Zero的最新升级版本。它在性能上有很大的提高。主控芯片升级为全志科技H618 四核A53, CPU主频提升25%。内存升级为2G LPDDR4，板载8G eMMC存储。它支持5G WiFi 和蓝牙, USB接口也升级为type-C。它具有与树莓派 …...

编程日记 2023/11/25 21:22:47

微信小程序内部跳到外部小程序

要在微信小程序中跳转到外部小程序，可以使用wx.navigateToMiniProgram函数。以下是一个示例： wx.navigateToMiniProgram({appId: 外部小程序的appId,path: 外部小程序的路径,extraData: {id: xxx},success(res) {// 跳转成功} })在这个示例中&#xff0…...

编程日记 2023/11/25 21:21:46

Spring Boot中设置文件上传大小限制

在Spring Boot中，可以通过以下步骤来设置上传文件的大小： 在application.properties或application.yml文件中，添加以下配置： 对于application.properties： spring.servlet.multipart.max-file-size128MB spring.se…...

编程日记 2023/11/25 21:20:45

8、独立按键控制LED显示二进制

独立按键控制LED显示二进制 #include <REGX52.H>void Delay(unsigned int xms) //12.000MHz {unsigned char i, j;while(xms--){i 2;j 239;do{while (--j);} while (--i);} }void main() {//数据类型刚好是8位与51单片机IO口寄存器位数相同（默认高电平&am…...

编程日记 2023/11/25 21:19:45

命名空间、字符串、布尔类型、nullptr、类型推导

面向过程语言：C ——> 重视求解过程面向对象语言：C ——> 重视求解的方法面向对象的三大特征：封装、继承和多态 C 和 C 在语法上的区别 1、命名空间（用于解决命名冲突问题） 2、函数重载和运算符重载&#xf…...

编程日记 2023/11/25 21:18:43

力控软件与多台PLC之间ModbusTCP/IP无线通信

Modbus TCP/IP 是对成熟的 Modbus 协议的改编， 因其开放性、简单性和广泛接受性而在工业自动化系统中发挥着举足轻重的作用。它作为连接各种工业设备的通用通信协议，包括可编程逻辑控制器 (PLC)、远程终端单元 (RTU) 和传感器。它提供标准化的 TCP 接口&…...

编程日记 2023/11/25 21:17:42

第96步深度学习图像目标检测：FCOS建模

基于WIN10的64位系统演示一、写在前面本期开始，我们继续学习深度学习图像目标检测系列，FCOS（Fully Convolutional One-Stage Object Detection）模型。二、FCOS简介 FCOS（Fully Convolutional One-Stage Object D…...

编程日记 2023/11/25 21:16:42

解密Claude Code工具链：从Bash到WebSearch的18种武器使用指南

Claude Code工具链深度解析：从基础操作到智能协同的18种核心能力在当今快速发展的AI辅助编程领域，Claude Code以其独特的工具链设计和安全优先的理念脱颖而出。这套工具系统不仅仅是简单的命令集合，而是一个经过精心设计的智能协作框架&…...

编程新知 2026/4/20 4:20:01

neobundle.vim多版本控制系统支持：Git、SVN、Mercurial完全攻略

neobundle.vim多版本控制系统支持：Git、SVN、Mercurial完全攻略【免费下载链接】neobundle.vim Next generation Vim package manager 项目地址: https://gitcode.com/gh_mirrors/ne/neobundle.vim neobundle.vim作为下一代Vim包管理器，提供了对…...

编程新知 2026/4/20 3:24:58

突破限制，自由掌控：WindowResizer让每个窗口都按你的想法调整

突破限制，自由掌控：WindowResizer让每个窗口都按你的想法调整【免费下载链接】WindowResizer 一个可以强制调整应用程序窗口大小的工具项目地址: https://gitcode.com/gh_mirrors/wi/WindowResizer 你是否遇到过这样的情况：某些应用…...

编程新知 2026/4/20 3:12:29

OmenSuperHub终极指南：三步解锁惠普OMEN游戏本隐藏性能

OmenSuperHub终极指南：三步解锁惠普OMEN游戏本隐藏性能【免费下载链接】OmenSuperHub 使用 WMI BIOS控制性能和风扇速度，自动解除DB功耗限制。项目地址: https://gitcode.com/gh_mirrors/om/OmenSuperHub 你是否在为惠普OMEN游戏本的性能瓶颈而…...

编程新知 2026/4/20 3:04:26

CREO实战宝典：从阵列到骨架模型，解锁十大经典零件设计全流程（曲柱、风扇叶、齿轮参数化、油缸等）

1. CREO零件设计实战入门：从零到精通的必经之路刚开始接触CREO时，我总被那些复杂的参数和命令搞得晕头转向。直到后来才发现，掌握几个核心功能就能解决80%的日常设计需求。阵列、参数化设计和骨架模型这三个功能，就像设计界的&qu…...

编程新知 2026/4/20 2:21:11

2026年，泉州创业者资源对接会哪个好用？

创业这条道路，就像是在茫茫大海中航行，充满了未知和挑战。对于泉州的创业者们来说，找到靠谱的资源对接会，就如同找到了一座明亮的灯塔，能指引我们少走弯路。最近就有不少朋友问我，2026年泉州创业者资源对接…...

编程新知 2026/4/20 2:15:07

第三章 10.11.12上机实践

import math 输入三条边 a float(input("请输入三角形的边A: ")) b float(input("请输入三角形的边B: ")) c float(input("请输入三角形的边C: ")) 判断是否能构成三角形 if a > 0 and b > 0 and c > 0 and a b > c and a c &g…...

编程新知 2026/4/20 2:06:57

从kHz到EHz：揭秘频率单位阶梯的换算逻辑与工程应用场景

1. 频率单位的基础认知：从赫兹到艾赫兹第一次接触频率单位时，我也被这一连串的"赫兹"搞晕了。kHz、MHz、GHz...这些看起来相似的缩写，实际上代表着完全不同的数量级。就像我们用米、千米来衡量距离一样，频率单位也是用…...

编程新知 2026/4/20 1:42:05

如何在 macOS 上为 PHP 8.0 正确集成 XML-RPC 支持.txt

...

编程新知 2026/4/19 23:59:51

别再死磕公式了！用MATLAB手把手复现DIC中的FA-GN与IC-GN算法（附完整代码）

MATLAB实战：从零实现DIC中的FA-GN与IC-GN算法在材料力学、生物医学等领域的变形测量中，数字图像相关技术（Digital Image Correlation, DIC）已成为不可或缺的工具。但对于初学者而言，如何将复杂的数学公式转化为可运行…...

编程新知 2026/4/19 23:21:08

第十一章 分布式搜索引擎 elasticsearch

六、DSL 查询文档

1. DSL 查询分类

2. 全文检索查询

2.1 使用场景

2.2 基本语法

2.3 示例

2.4.总结

3. 精准查询

3.1 term 查询

3.2 range 查询

3.3 总结

4. 地理坐标查询

4.1 矩形范围查询

4.2 附近查询

5. 复合查询

5.1 相关性算分

5.2 算分函数查询

5.2.1 语法说明

5.2.2 示例

5.2.3 小结

5.3 布尔查询

5.3.1 语法示例

5.3.2 示例

5.3.3 小结

相关文章：

第十一章分布式搜索引擎 elasticsearch