Elasticsearch:Serarch tutorial - 使用 Python 进行搜索 (一)

本实践教程将教你如何使用 Elasticsearch 构建完整的搜索解决方案。 在本教程中你将学习:
- 如何对数据集执行全文关键字搜索(可选使用过滤器)
- 如何使用机器学习模型生成、存储和搜索密集向量嵌入
- 如何使用 ELSER 模型生成和搜索稀疏向量
- 如何使用 Elastic 的倒数排名融合 (RRF) 算法组合上述方法的搜索结果
本教程最重要的方面是,它将向你展示如何在你将在自己的计算机上运行的项目上实现所有这些功能,所有这些功能都通过小的增量步骤完成。
你将学习的示例是用 Python 编写的,但概念是通用的,可以应用于你最喜欢的语言或技术堆栈。
为了充分利用本教程,我们建议你遵循并运行所有示例。在如下的展示中,我将使用最新的 Elastic Stack 8.11 来进行展示。
安装
安装 Elasticsearch 及 Kibana
如果你还没有安装好自己的 Elasticsearch 及 Kibana,那么请参考一下的文章来进行安装:
-
如何在 Linux,MacOS 及 Windows 上进行安装 Elasticsearch
-
Kibana:如何在 Linux,MacOS 及 Windows 上安装 Elastic 栈中的 Kibana
在安装的时候,请选择 Elastic Stack 8.x 进行安装。在安装的时候,我们可以看到如下的安装信息:
Python
你可以安装自己喜欢的 Python 版本。版本在 3.8 及以上。本教程假设你之前没有 Elasticsearch 或一般搜索主题的知识,但它希望你对以下技术有基本的熟悉,至少在初学者水平:
- Python开发
- Python 的 Flask Web 框架
- 操作系统中的命令提示符或终端应用程序
项目设置
在本教程中,你将使用一个基于 Flask Web 框架的小型 Python 应用程序。 以下部分提供了帮助你在计算机上设置和运行此应用程序的说明。 要完成本部分,你需要在操作系统的终端或命令提示符窗口上工作。
下载入门应用程序
单击下面的链接下载入门搜索应用程序。
- 下载教程入门应用程序
为你的项目找到合适的父目录,例如 Documents 目录,然后在其中提取 zip 文件的内容。 这应该添加一个搜索教程目录,其中包含多个子目录和文件。
安装 Python 依赖包
从你的终端,切换到上一节中创建的 search-tutorial 目录。遵循 Python 最佳实践,你现在将创建一个虚拟环境,一个专用于该项目的私有 Python 环境。 使用以下命令执行此操作:
python3 -m venv .venv
$ pwd
/Users/liuxg/python/search-tutorial
$ python3 -m venv .venv
$ ls -al
total 144
drwx------ 11 liuxg staff 352 Jan 4 09:38 .
drwxr-xr-x 115 liuxg staff 3680 Jan 2 20:09 ..
-rw-r--r-- 1 liuxg staff 34 Oct 31 19:34 .flaskenv
drwxr-xr-x 6 liuxg staff 192 Jan 4 09:38 .venv
-rw-r--r--@ 1 liuxg staff 1085 Nov 1 15:23 LICENSE
-rw-r--r-- 1 liuxg staff 110 Nov 7 20:21 README.md
-rw-r--r-- 1 liuxg staff 409 Nov 7 19:46 app.py
-rw-r--r-- 1 liuxg staff 51647 Oct 31 15:54 data.json
-rw-r--r--@ 1 liuxg staff 745 Oct 31 19:05 requirements.txt
drwx------ 3 liuxg staff 96 Jan 2 20:09 static
drwx------ 5 liuxg staff 160 Jan 2 20:09 templates
此命令在 .venv (dot-venv) 目录中创建 Python 虚拟环境。 你可以将此命令中的 .venv 替换为你喜欢的任何名称。 请注意,在某些 Python 安装中,你可能需要使用 python 而不是 python3 来调用 Python 解释器。
下一步是激活虚拟环境,这是使该虚拟环境成为你所在终端会话的活动 Python 环境的一种方法。如果你使用的是基于 UNIX 的操作系统(例如 Linux 或 macOS),请激活 虚拟环境如下:
source .venv/bin/activate
$ source .venv/bin/activate
(.venv) $ pwd
/Users/liuxg/python/search-tutorial
如果你在 Microsoft Windows 计算机上的 WSL 环境中工作,上述激活命令也适用。 但如果你使用的是 Windows 命令提示符或 PowerShell,激活命令会有所不同:
.venv\Scripts\activate
激活虚拟环境后,命令行提示符将更改为显示环境名称:
(.venv) $ _
注意:如果你以前没有使用过虚拟环境,则应记住激活命令不是永久性的,仅适用于输入命令的终端会话。 如果你打开第二个终端窗口,或者在前一天关闭计算机后返回继续学习本教程,则必须重复激活命令。
配置 Python 环境的最后一步是安装入门应用程序所需的一些包。 确保上一步中已激活虚拟环境,然后运行以下命令安装这些依赖项:
pip install -r requirements.txt
拷贝 Elasticsearch 证书
我们把 Elasticsearch 的证书拷贝到当前的目录下:
(.venv) $ pwd
/Users/liuxg/python/search-tutorial
(.venv) $ cp ~/elastic/elasticsearch-8.11.0/config/certs/http_ca.crt .
(.venv) $ ls http_ca.crt
http_ca.crt
运行应用
此时,你应该能够使用以下命令启动应用程序:
flask run
要确认应用程序正在运行,请打开浏览器并导航到 http://localhost:5001。
注意:早期阶段的应用程序只是一个空壳。 如果你愿意,你可以在搜索框中输入内容并请求搜索,但响应始终是没有结果。 在以下部分中,你将了解如何在 Elasticsearch 索引中加载一些内容并执行搜索。
Flask 应用程序配置为在开发模式下运行。 当它检测到源文件已更改时,它将自动重新启动以合并更改。 当你继续学习本教程时,你可以让该终端会话保持应用程序运行,并且当你进行更改时,应用程序将重新启动以进行更新。
全文搜索
在本教程的这一部分中,你将学习如何使用 Elasticsearch 的全文搜索功能。 这将向你介绍几个核心主题,例如使用 Python 客户端库、创建和更新索引、进行查询以及使用搜索结果,所有这些也适用于你稍后将学习的更高级的搜索方法。
设置 Elasticsearch Python 客户端
在本部分中,你将安装适用于 Python 的 Elasticsearch 客户端库并使用它连接到 Elasticsearch 服务。
安装
Elasticsearch 客户端库是一个与 pip 一起安装的 Python 包。 确保之前创建的虚拟环境已激活,然后运行以下命令安装客户端:
pip install elasticsearch
$ pip3 install elasticsearch
Looking in indexes: http://mirrors.aliyun.com/pypi/simple/
Requirement already satisfied: elasticsearch in /Library/Frameworks/Python.framework/Versions/3.11/lib/python3.11/site-packages (8.11.1)
Requirement already satisfied: elastic-transport<9,>=8 in /Library/Frameworks/Python.framework/Versions/3.11/lib/python3.11/site-packages (from elasticsearch) (8.10.0)
Requirement already satisfied: urllib3<3,>=1.26.2 in /Library/Frameworks/Python.framework/Versions/3.11/lib/python3.11/site-packages (from elastic-transport<9,>=8->elasticsearch) (2.1.0)
Requirement already satisfied: certifi in /Library/Frameworks/Python.framework/Versions/3.11/lib/python3.11/site-packages (from elastic-transport<9,>=8->elasticsearch) (2023.11.17)
$ pip3 list | grep elasticsearch
elasticsearch 8.11.1
rag-elasticsearch 0.0.1 /Users/liuxg/python/rag-elasticsearch/my-app/packages/rag-elasticsearch
始终建议使用所有依赖项更新 requirements.txt 文件,因此这是更新此文件以包含新安装的软件包的好时机。 从终端运行以下命令:
pip3 freeze > requirements.txt
我们可以看到最终的 requirements.txt 文件中的 elasticsearch 版本被修正了:
连接到 Elasticsearch
要创建与 Elasticsearch 服务的连接,必须使用适当的连接选项创建 Elasticsearch 对象。
在代码编辑器中创建一个新的 search.py 文件,该文件位于 search-tutorial 目录中。 search.py 文件将定义所有搜索函数。 为搜索功能创建一个单独的文件的想法是,这将使你可以轻松地提取该文件并稍后将其添加到你自己的项目中。
在 search.py中输入以下代码添加 Search 类:
import json
from pprint import pprint
import os
import timefrom dotenv import load_dotenv
from elasticsearch import Elasticsearchload_dotenv()class Search:def __init__(self):self.es = Elasticsearch() # <-- connection options need to be added hereclient_info = self.es.info()print('Connected to Elasticsearch!')pprint(client_info.body)
这里有很多东西需要解释。 导入后立即调用的 load_dotenv() 函数来自 python-dotenv包。 该包知道如何使用 .env 文件,这些文件用于存储配置变量,例如密码和密钥。 load_dotenv() 函数读取存储在 .env 文件中的变量,并将它们作为环境变量导入到 Python 进程中。
Search 类有一个构造函数,用于创建 Elasticsearch 客户端类的实例。 这是与 Elasticsearch 服务通信的所有客户端逻辑所在的位置。 请注意,此行当前不完整,因为需要包含适合你的服务的连接选项。你将在下面了解哪些选项适用于你的案例。 创建后,Elasticsearch 对象将存储在名为 self.es 的实例变量中。
为了确保客户端对象可以与你的 Elasticsearch 部署进行通信,将调用 info() 方法。 此方法调用请求基本信息的服务。 如果此调用成功,则你可以假设你已与该服务建立了有效连接。
然后,该方法打印一条状态消息,指示连接已建立,然后使用 Python 中的 pprint 函数以易于阅读的格式显示服务返回的信息。
注意:你可能已经注意到,Python 标准库中的 json 包已导入到此文件中,但并未使用。 不要删除此导入,因为稍后将使用此包。
为了完成 Search 类的构造函数,需要为 Elasticsearch 对象提供适当的连接选项。 以下小节将告诉你安装方法需要哪些选项。
创建 .env 文件
我们接着在当前项目的根目录下创建如下的一个文件 .env:
.env
ES_USER="elastic"
ES_PASSWORD="yarOjyX5CLqTsKVE3v*d"
ES_ENDPOINT="localhost"
(.venv) $ pwd
/Users/liuxg/python/search-tutorial
(.venv) $ cat .env
ES_USER="elastic"
ES_PASSWORD="yarOjyX5CLqTsKVE3v*d"
ES_ENDPOINT="localhost"
如上所示:
- ES_USER 定义了访问 Elasticsearch 的用户名。在我们的配置中,我们使用超级用户 elastic
- ES_PASSWORD 定义了 ES_USER 用户的密码
- ES_ENDPOINT 定义了访问 Elasticsearch 的地址
你们需要根据自己的配置二进行相应的改变。接下来,我们需要针对 search.py 来进行修改:
search.py
import json
from pprint import pprint
import os
import timefrom dotenv import load_dotenv
from elasticsearch import Elasticsearchload_dotenv()class Search:def __init__(self):url = f"https://{ES_USER}:{ES_PASSWORD}@{ES_ENDPOINT}:9200"self.es = Elasticsearch(url, ca_certs = "./http_ca.crt", verify_certs = True) client_info = self.es.info()print('Connected to Elasticsearch!')pprint(client_info.body)
测试连接
此时,你已准备好连接到 Elasticsearch 服务。 为此,请确保已激活 Python 虚拟环境,然后键入 python 以启动 Python 交互式会话。 你应该看到熟悉的 >>> 提示符,你可以在其中输入 Python 语句。
导入 Search 类如下:
from search import Search
接下来,实例化新类:
es = Search()
你应该看到一条已连接的消息,后面是客户端的 info() 方法返回的信息。 除了标识符和版本号的差异之外,输出应如下所示:
(.venv) $ pwd
/Users/liuxg/python/search-tutorial
(.venv) $ python
Python 3.11.6 (v3.11.6:8b6ee5ba3b, Oct 2 2023, 11:18:21) [Clang 13.0.0 (clang-1300.0.29.30)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> from search import Search
>>> es = Search()
Connected to Elasticsearch!
{'cluster_name': 'elasticsearch','cluster_uuid': 'SXGzrN4dSXW1t0pkWXGfjg','name': 'liuxgm.local','tagline': 'You Know, for Search','version': {'build_date': '2023-11-04T10:04:57.184859352Z','build_flavor': 'default','build_hash': 'd9ec3fa628c7b0ba3d25692e277ba26814820b20','build_snapshot': False,'build_type': 'tar','lucene_version': '9.8.0','minimum_index_compatibility_version': '7.0.0','minimum_wire_compatibility_version': '7.17.0','number': '8.11.0'}}
如果收到错误,请确保在 .env 文件中输入正确的凭据。更多关于如何连接到 Elasticsearch 的知识,请参阅文章 “Elasticsearch:关于在 Python 中使用 Elasticsearch 你需要知道的一切 - 8.x”。
将 Elasticsearch 与 Flask 应用程序集成
本节的最后一步是将迄今为止完成的工作集成到你之前安装的小 Flask 应用程序中。 目标是应用程序在启动时自动创建与 Elasticsearch 的连接。
为此,请在代码编辑器中打开 app.py。 在现有导入下方添加 search.py 模块的导入语句:
from search import Search
然后找到创建 app 变量的行,然后创建新 Search 类的实例:
es = Search()
就是这样! 现在应用程序有一个 es 对象可以在需要时使用。 如果你仍在终端中运行 Flask 应用程序,则保存文件后你应该会看到应用程序重新加载。 重新加载的结果是,由 Search 类构造函数打印的连接信息应该出现,并且从现在起每次应用程序重新启动时都会继续出现。
如果你没有运行 Flask 应用程序,现在是启动它的好时机。 更改到终端窗口中的项目目录,激活 Python 虚拟环境,然后使用以下命令启动应用程序:
flask run
为了帮助你在收到错误时进行故障排除,以下是带有集成 Elasticsearch 客户端的 app.py 的完整代码:
app.py
import re
from flask import Flask, render_template, request
from search import Searchapp = Flask(__name__)
es = Search()@app.get('/')
def index():return render_template('index.html')@app.post('/')
def handle_search():query = request.form.get('query', '')return render_template('index.html', query=query, results=[], from_=0, total=0)@app.get('/document/<id>')
def get_document(id):return 'Document not found'
当我们修改完这个文件后,我们可以在运行 flask 的 terminal 中看到如下的输出:
创建一个 Elasticsearch 索引
Elasticsearch 中两个非常重要的概念是文档和索引。你如果对这个还是很糊涂的话,那么请详细阅读我之前的文章 “Elasticsearch 中的一些重要概念: cluster, node, index, document, shards 及 replica”。
文档是字段及其关联值的集合。 要使用 Elasticsearch,你必须将数据组织到文档中,然后将所有文档添加到索引中。 你可以将索引视为以高度优化的格式存储的文档集合,旨在执行高效的搜索。
如果你使用过其他数据库,你可能知道许多数据库需要模式定义,它本质上是对你要存储的所有字段及其类型的描述。 如果需要,Elasticsearch 索引可以配置模式,但它也可以自动从数据本身派生模式(Elasticsearch 根据数据的类型进行推测)。 在本节中,你将让 Elasticsearch 自行计算模式,这对于文本、数字和日期等简单数据类型非常有效。 稍后,在了解更复杂的数据类型后,你将学习如何提供显式模式定义。
创建索引
这是使用 Python 客户端库创建 Elasticsearch 索引的方法:
self.es.indices.create(index='my_documents')
在此示例中,self.es 是 Elasticsearch 类的实例,在本教程中它存储在 search.py 的 Search 类中。 Elasticsearch 部署可用于存储多个索引,每个索引都由名称标识,例如上例中的 my_documents。
也可以删除索引:
self.es.indices.delete(index='my_documents')
如果你尝试使用已分配给现有索引的名称创建索引,则会收到错误消息。 有时,创建一个索引并自动删除该索引的先前实例(如果存在)会很有用。 这在开发应用程序时特别有用,因为你可能需要多次重新生成索引。
让我们在 search.py 中添加一个 create_index() 辅助方法。 在代码编辑器中打开此文件,然后在底部添加以下代码,保留现有内容不变:
class Search:# ...def create_index(self):self.es.indices.delete(index='my_documents', ignore_unavailable=True)self.es.indices.create(index='my_documents')
create_index() 方法首先删除名为 my_documents 的索引。 ignore_unavailable=True 选项可防止在找不到索引名称时此调用失败。 该方法中的以下行创建一个具有相同名称的全新索引。
提示:本教程中的示例应用程序需要一个 Elasticsearch 索引,因此它将索引名称硬编码为 my_documents。 对于使用多个索引的更复杂的应用程序,你可以考虑接受索引名称作为参数。
将文档添加到索引
在 Python 的 Elasticsearch 客户端库中,文档表示为键/值字段的字典。 具有字符串值的字段会自动建立索引以进行全文和关键字搜索,但除了字符串之外,你还可以使用其他字段类型,例如数字、日期和布尔值,这些字段类型也会建立索引以进行过滤等高效操作。 你还可以构建复杂的数据结构,其中字段设置为列表或带有子项的字典。了解有关 Elasticsearch 类型的更多信息。
要将文档插入索引,请使用 Elasticsearch 客户端的 index() 方法。 例如:
document = {'title': 'Work From Home Policy','contents': 'The purpose of this full-time work-from-home policy is...','created_on': '2023-11-02',
}
response = es.index(index='my_documents', body=document)
print(response['_id'])
index() 方法的返回值是 Elasticsearch 服务返回的响应。 此响应中返回的最重要的信息是一个键名为 _id 的项目,表示在将文档插入索引时分配给该文档的唯一标识符。 该标识符可用于检索、删除或更新文档。
现在你已经知道如何插入文档了,让我们继续在 search.py 中构建一个有用的 helpers 库,并为 Search 类添加一个新的 insert_document() 方法。 在 search.py 底部添加此方法:
class Search:# ...def insert_document(self, document):return self.es.index(index='my_documents', body=document)
该方法接受 Elasticsearch 客户端和来自调用者的文档,并将文档插入到 my_documents 索引中,返回服务的响应。
注意:本教程不涉及这些操作(修改及删除),但 Elasticsearch 客户端也可以修改和删除文档。 请参阅 Python 库文档中的 Elasticsearch 类参考,了解所有可用的操作。更多内容,请阅读文章 “Elasticsearch:关于在 Python 中使用 Elasticsearch 你需要知道的一切 - 8.x”。
从 JSON 文件提取文档
设置新的 Elasticsearch 索引时,你可能需要导入大量文档。 对于本教程,入门项目包括一个 data.json 文件,其中包含一些 JSON 格式的数据。 在本节中,你将学习如何将该文件中包含的所有文档导入到索引中。
data.json 中包含的文档结构如下:
- name:文档标题
- url:外部站点上托管的文档的 URL
- summary:文档内容的简短摘要
- content:文档正文
- created_on:创建日期
- updated_at:更新日期(如果文档从未更新过,则可能会没有这个项)
- category:文档的类别,可以是 github、sharepoint 或 teams
- rolePermissions:角色权限列表
此时,建议你在编辑器中打开 data.json 以熟悉要使用的数据。
本质上,导入大量文档与在 for 循环中导入一个文档没有什么不同。 要导入 data.json 文件的全部内容,你可以执行以下操作:
import json
from search import Search
es = Search()
with open('data.json', 'rt') as f:documents = json.loads(f.read())
for document in documents:es.insert_document(document)
虽然这种方法有效,但扩展性不佳。 如果你必须插入大量文档,则需要对 Elasticsearch 服务进行尽可能多的调用。 遗憾的是,每个 API 调用都会产生性能成本,而且该服务还设有速率限制,无法快速进行大量调用。 由于这些原因,最好使用 Elasticsearch 服务的批量插入功能,该功能允许在单个 API 调用中将多个操作传递给服务。
下面显示的 insert_documents() 方法(你应该将其添加到 search.py 的底部)使用 bulk() 方法在一次调用中插入所有文档:
def insert_documents(self, documents):operations = []for document in documents:operations.append({'index': {'_index': 'my_documents'}})operations.append(document)return self.es.bulk(operations=operations)
该方法接受文档列表。 它不是单独添加每个文档,而是组装一个称为操作的列表,然后将该列表传递给 bulk() 方法。 对于每个文档,两个条目会添加到操作列表中:
- 对要执行的操作的描述,设置为索引,并以索引名称作为参数给出。
- 文档的实际数据
处理批量请求时,Elasticsearch 服务从头开始遍历操作列表并执行请求的操作。
- 在文档中了解有关 bulk() 方法的更多信息
我们在当前的目录下运行如下的脚步来写入文档:
ingest.py
重新生成索引
当你学习本教程时,你将需要重新生成索引几次。 要简化此操作,请向 search.py 添加 reindex() 方法:
class Search:# ...def reindex(self):self.create_index()with open('data.json', 'rt') as f:documents = json.loads(f.read())return self.insert_documents(documents)
此方法结合了之前创建的 create_index() 和 insert_documents() 方法,因此只需一次调用即可销毁旧索引(如果存在)并构建并重新填充新索引。
注意:对大量文档建立索引时,最好将文档列表分成较小的集合,并分别导入每个集合。
为了使这个方法更容易调用,让我们通过 flask 命令公开它。 在代码编辑器中打开 app.py 并在底部添加以下函数:
@app.cli.command()
def reindex():"""Regenerate the Elasticsearch index."""response = es.reindex()print(f'Index with {len(response["items"])} documents created 'f'in {response["took"]} milliseconds.')
@app.cli.command() decorator 告诉 Flask 框架将此函数注册为自定义命令,该命令将作为 Flask reindex 提供。 命令的名称取自函数的名称,并且文档字符串包含在此处,因为 Flask 在 --help 文档中使用它。
reindex() 函数的响应,也就是 Elasticsearch 客户端的 bulk() 方法的响应,包含一些有用的项目,可用于构造良好的状态消息。 特别是,response['took'] 是调用的持续时间(以毫秒为单位),response['items'] 是每个操作的各个结果的列表,实际上并没有直接用处,但列表的长度提供了插入文档的计数。
通过从终端会话运行 Flask --help 来查看效果,确保 Python 虚拟环境已激活(如果您的终端会话仍在运行 Flask 应用程序,则可以打开第二个终端窗口)。 在帮助屏幕的末尾,您应该会看到作为可用命令包含的 reindex 选项以及 Flask 框架提供的其他选项:
flash --help
(.venv) $ pwd
/Users/liuxg/python/search-tutorial
(.venv) $ flask --help
Connected to Elasticsearch!
{'cluster_name': 'elasticsearch','cluster_uuid': 'SXGzrN4dSXW1t0pkWXGfjg','name': 'liuxgm.local','tagline': 'You Know, for Search','version': {'build_date': '2023-11-04T10:04:57.184859352Z','build_flavor': 'default','build_hash': 'd9ec3fa628c7b0ba3d25692e277ba26814820b20','build_snapshot': False,'build_type': 'tar','lucene_version': '9.8.0','minimum_index_compatibility_version': '7.0.0','minimum_wire_compatibility_version': '7.17.0','number': '8.11.0'}}
Usage: flask [OPTIONS] COMMAND [ARGS]...A general utility script for Flask applications.An application to load must be given with the '--app' option, 'FLASK_APP'environment variable, or with a 'wsgi.py' or 'app.py' file in the currentdirectory.Options:-e, --env-file FILE Load environment variables from this file. python-dotenv must be installed.-A, --app IMPORT The Flask application or factory function to load, inthe form 'module:name'. Module can be a dotted importor file path. Name is not required if it is 'app','application', 'create_app', or 'make_app', and can be'name(args)' to pass arguments.--debug / --no-debug Set debug mode.--version Show the Flask version.--help Show this message and exit.Commands:reindex Regenerate the Elasticsearch index.routes Show the routes for the app.run Run a development server.shell Run a shell in the app context.
现在,当你想要生成一个干净的索引时,你所需要做的就是运行 flask reindex。
搜素基础
现在你已经构建了 Elasticsearch 索引并向其中加载了一些文档,你已经准备好实现全文搜索了。
搜索将如何进行
让我们快速回顾一下搜索解决方案在教程应用程序中的工作原理。 Flask 应用程序运行后,你可以访问 http://localhost:5001 访问主页面,如下所示:
呈现此页面的代码在 app.py 文件中实现:
@app.get('/')
def index():return render_template('index.html')
这是一个非常简单的端点,用于呈现 HTML 模板。 在 Flask 应用程序中,模板位于 templates 子目录中,因此你会在其中找到应用程序中包含的此模板和其他模板。
让我们看看文件 templates/index.html 中搜索字段的实现。 这是该模板的相关部分:
<form method="POST" action="{{ url_for('handle_search') }}"><div class="mb-3"><input type="text" class="form-control" name="query" id="query" placeholder="Enter your search query" autofocus></div>
</form>
在这里您可以看到这是一个 HTML 表单,其中包含一个名为 “query” 的文本类型字段。 表单的 method 属性设置为 POST,它告诉浏览器在 POST 请求中提交此表单。 action 属性设置为与 Flask 应用程序的 handle_search 端点对应的 URL。 提交表单后,handle_search() 函数将执行。
当前 handle_search() 的实现如下所示:
@app.post('/')
def handle_search():query = request.form.get('query', '')return render_template('index.html', query=query, results=[], from_=0,total=0)
该函数从 Flask 的 request.form 字典中获取用户在文本字段中输入的文本,并将其存储在查询局部变量中。 然后该函数呈现 index.html 模板,但这种类型它传递一些额外的参数,以便页面可以显示搜索结果。 模板接收的四个参数是:
- query:用户在表单中输入的查询文本。
- results:搜索结果列表
- from_:第一个结果的从零开始的索引
- total:结果总数
由于搜索功能尚未实现,目前传递给 render_template() 函数的参数表明未找到任何结果。
现在的任务是实现一个全文查询并传递实际结果以便 index.html 页面可以显示它们。
Elasticsearch 查询
Elasticsearch 服务使用基于 JSON 格式的查询 DSL(域特定语言)来定义查询。
Python 的 Elasticsearch 客户端有一个 search() 方法,用于提交搜索查询。 让我们在 search.py 中添加一个使用此方法的 search() 辅助方法:
search.py
class Search:# ...def search(self, **query_args):return self.es.search(index='my_documents', **query_args)
此方法使用索引名称调用 Elasticsearch 客户端的 search() 方法。 query_args 参数捕获提供给该方法的所有关键字参数,然后将它们传递给 es.search() 方法。 这些参数将决定调用者如何指定要搜索的内容。
匹配查询
Elasticsearch Query DSL 提供了许多不同的方法来查询索引。 浏览文档中的其中的一个小的章节,你将熟悉可能的不同类型的查询。 全文查询部分介绍了非常常见的文本搜索任务。
对于第一个搜索实现,我们使用匹配查询。 你可以在下面看到使用此查询的示例:
GET /_search
{"query": {"match": {"name": {"query": "search text here"}}}
}
上面的示例以类似于原始 HTTP 请求的格式给出。 熟悉这种格式很有用,因为它在 Elasticsearch 文档和 Elasticsearch API 控制台中广泛使用。 幸运的是,这种格式很容易转换为使用 Python 客户端库的调用。 下面你可以看到上述示例的等效 Python 代码:
es.search(query={'match': {'name': {'query': 'search text here'}}}
)
将 API 控制台示例转换为 Python 时,请记住查询正文中的顶级键必须转换为 Python 调用中的关键字参数。 这些示例也没有指定进行 Python 调用时需要的索引。
通过查看查询结构,你可能可以推断出它请求的搜索类型。 该调用请求对名为 name 的字段进行 match 查询,要搜索的文本是 search text here。
这种查询方式相当容易合并到教程应用程序中。 打开 app.py 并找到 handle_search() 方法。 将当前版本替换为新版本:
@app.post('/')
def handle_search():query = request.form.get('query', '')results = es.search(query={'match': {'name': {'query': query}}})return render_template('index.html', results=results['hits']['hits'],query=query, from_=0,total=results['hits']['total']['value'])
新版本端点第二行中对 es.search() 的调用会调用上面在 search.py 中添加的 search() 方法,该方法又调用 Elasticsearch 客户端的 search() 方法。
你能弄清楚查询要做什么吗? 这是与上面示例类似的 match 查询。 将要搜索的字段是 name,它包含你在上一节中构建的 my_documents 索引中文档的标题。 要搜索的文本是用户在网页搜索字段中键入的内容,该文本存储在 query 局部变量中。
搜索响应中包含结果的部分是 response['hits']。 这是一个具有几个键的对象,其中两个键对此实现感兴趣:
- response['hits']['hits']:搜索结果列表。
- response['hits']['total']:可用结果的总数。 结果数在 value 子键中给出,因此在实践中,获取结果总数的表达式为 results['hits']['total']['value']。 请注意,当结果数量较多时,结果总数可能是近似值。 有关详细信息,请参阅响应正文文档。
在这个新版本的端点中对 render_template() 的调用会传递 results 模板参数中的结果列表以及结果总数。 query 参数像以前一样接收查询字符串,from_ 仍然硬编码为 0,因为稍后添加分页时会实现它。
至此,该应用程序首次实现了全文搜索。 返回 Web 浏览器并导航至 http://localhost:5001 以打开应用程序。 如果由于任何原因你没有运行 Flask 应用程序,请在执行此操作之前重新启动该应用程序。 输入搜索文本(例如 polict 或 work from home),你将看到相关结果。 你可以在下面看到在家搜索工作时的结果:

你随入门应用程序下载的 index.html 模板包含呈现搜索结果的所有逻辑。 如果你对此感到好奇,以下是此模板中呈现结果列表的部分:
{% for result in results %}<p>{{ from_ + loop.index }}. <b><a href="{{ url_for('get_document', id=result._id) }}">{{ result._source.name }}</a></b><br>{{ result._source.summary }}<br><small>Category: {{ result._source.category }}.Last updated: {{ result._source.updated_at | default(result._source.created_on) }}.{% if result._score %}<i>(Score: {{ result._score }})</i>{% endif %}</small></p>
{% endfor %}
从这段代码中值得注意的是,与返回结果关联的数据在 _source 键下可用。 还有一个 _id 字段,其中包含分配给结果的唯一标识符。
与每个结果相关的分数可以从 _score 获得。 分数提供了相关性的分数,分数越高表示与查询文本的匹配越接近。 默认情况下,结果按分数从最高到最低的顺序返回。 Elasticsearch 中的分数是使用 Okapi BM25 算法计算的。
如果你有兴趣更详细地探索本节中涵盖的主题,请使用以下链接:
- Match query
- Search API Request body
- Search API Response Body
- Practical BM25 article series
检索单个结果
你可能已经注意到,index.html 模板将每个搜索结果的标题呈现为链接。 该链接指向在起始 Flask 应用程序中实现的第三个也是最后一个端点,称为 get_document。 提供的实现返回 “Document not found” 硬编码文本,因此如果你在使用应用程序时单击任何结果,你将看到以下内容。
为了正确渲染单个文档,让我们使用 Elasticsearch 客户端的 get() 方法在 search.py 中添加一个 retrieve_document() 辅助方法:
class Search:# ...def retrieve_document(self, id):return self.es.get(index='my_documents', id=id)
在这里,你可以看到分配给每个文档的这些唯一标识符如何有用,因为应用程序可以使用它来引用各个文档。
以下是 get_document() 端点的当前实现:
@app.get('/document/<id>')
def get_document(id):return 'Document not found'
你可以看到与此端点关联的 URL 包含文档 id,并且为每个搜索结果呈现的链接也将 id 合并到各自的 URL 中,因此所缺少的就是将这一简单的实现替换为检索的文档并呈现它。 将端点替换为此更新版本:
@app.get('/document/<id>')
def get_document(id):document = es.retrieve_document(id)title = document['_source']['name']paragraphs = document['_source']['content'].split('\n')return render_template('document.html', title=title, paragraphs=paragraphs)
这里使用 search.py 中的 retrieve_document() 方法来获取所请求的文档。 然后,将呈现 document.html,其中包含来自 name 字段的标题和来自 content 的段落列表。
尝试运行更多查询,然后单击结果,现在你应该可以看到完整的内容。

搜索多个字段
使用该应用程序一段时间后,你可能会注意到许多查询没有返回结果。 你还记得,当前搜索是在每个文档的 name 字段上实现的,这是存储文档标题的地方。 文档还具有 summary 和 content 字段,其中包含较长的文本,也很容易被搜索,但现在这些都被忽略。
在本节中,你将了解另一种常见的全文搜索查询,即 multi-match,它要求在索引的多个字段中执行搜索。
以下是文档中的多重匹配查询示例:
GET /_search
{"query": {"multi_match" : {"query": "this is a test", "fields": [ "subject", "message" ] }}
}
让我们以此示例为基础来扩展 handle_search() 端点,以对组合的 name、summary 和 content 字段运行多重匹配查询。 这是更新后的端点代码:
@app.post('/')
def handle_search():query = request.form.get('query', '')results = es.search(query={'multi_match': {'query': query,'fields': ['name', 'summary', 'content'],}})return render_template('index.html', results=results['hits']['hits'],query=query, from_=0,total=results['hits']['total']['value'])
进行此更改后,需要搜索的文本会多得多,以至于某些查询的默认返回结果数可能超过 10 个。 在下一章中,你将学习如何通过分页处理长结果列表。请详细阅读文章 “Elasticsearch:Serarch tutorial - 使用 Python 进行搜索 (二)”。
相关文章:
Elasticsearch:Serarch tutorial - 使用 Python 进行搜索 (一)
本实践教程将教你如何使用 Elasticsearch 构建完整的搜索解决方案。 在本教程中你将学习: 如何对数据集执行全文关键字搜索(可选使用过滤器)如何使用机器学习模型生成、存储和搜索密集向量嵌入如何使用 ELSER 模型生成和搜索稀疏向量如何使用…...
第五讲_css元素显示模式
css元素显示模式 1. 元素的显示模式1.1 块元素1.2 行内元素1.3 行内块元素 2. 元素根据显示模式分类3. 修改元素的显示模式 1. 元素的显示模式 1.1 块元素 块元素的特性: 在页面中独占一行,从上到下排列。默认宽度,撑满父元素。默认高度&a…...
Shell脚本入门实战:探索自动化任务与实用场景
引言 Shell脚本作为一种强大的自动化工具,在现代操作系统中具有广泛的应用。无论是简单的文件操作,还是复杂的系统管理,Shell脚本都能提供高效、快速的解决方案。在本文中,我们将探索Shell脚本的基础知识,并通过实战场…...
【AI视野·今日Sound 声学论文速览 第四十二期】Fri, 5 Jan 2024
AI视野今日CS.Sound 声学论文速览 Fri, 5 Jan 2024 Totally 10 papers 👉上期速览✈更多精彩请移步主页 Daily Sound Papers PosCUDA: Position based Convolution for Unlearnable Audio Datasets Authors Vignesh Gokul, Shlomo Dubnov深度学习模型需要大量干净的…...
Java中如何使用SQLite数据库
目录 SQLite简介SQLite优势安装 SQLite基本使用Java使用SQLite Springboot使用SQLite1.添加依赖2.配置数据库3.创建实体类 4.创建Repository接口5.创建控制器6.运行应用程序 SQLite简介 SQLite 是一个开源的嵌入式关系数据库,实现了自给自足的、无服务器的、配置无…...
kettle的基本介绍和使用
1、 kettle概述 1.1 什么是kettle Kettle是一款开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 1.2 Kettle核心知识点 1.2.1 Kettle工程存储方式 以XML形式存储以资源库方式存储…...
数据结构第2章 栈和队列
名人说:莫听穿林打叶声,何妨吟啸且徐行。—— 苏轼《定风波莫听穿林打叶声》 本篇笔记整理:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 目录 0、思维导图栈和队列1、栈1)特点2࿰…...
Axure鲜花商城网站原型图,网上花店订花O2O本地生活电商平台
作品概况 页面数量:共 30 页 兼容软件:仅支持Axure RP 9/10,非程序软件无源代码 应用领域:鲜花网、花店网站、本地生活电商 作品特色 本作品为「鲜花购物商城」网站模板,高保真高交互,属于O2O本地生活电…...
【docker】centos 使用 Nexus Repository 搭建私有仓库
Nexus Repository 是一种流行的软件仓库管理工具,它可以帮助您搭建私有仓库,以便在内部网络或私有云环境中存储、管理和分发各种软件包和组件。 它常被用于搭建Maven的镜像仓库。本文演示如何用Nexus Repository搭建docker 私有仓库。 使用Nexus Repos…...
RabbitMQ(八)消息的序列化
目录 一、为什么需要消息序列化?二、常用的消息序列化方式1)Java原生序列化(默认)2)JSON格式3)Protobuf 格式4)Avro 格式5)MessagePack 格式 三、总结 RabbitMQ 是一个强大的消息中间…...
23款奔驰GLC260L升级原厂540全景影像 安装效果分享
嗨 今天给大家介绍一台奔驰GLC260L升级原厂360全景影像 新款GLC升级原厂360全景影像 也只需要安装前面 左右三个摄像头 后面的那个还是正常用的,不过不一样的是 升级完成之后会有多了个功能 那就是新款透明底盘,星骏汇小许Xjh15863 左右两边只需要更换后…...
【CSS】文字描边的三种实现方式
目录 1. 可行的几种方式1.1. text-shadow 描边代码优缺点 1.2. text-stroke 描边实现优缺点 1.3. svg 描边实现优缺点 总结 1. 可行的几种方式 text-shadow–webkit-text-strokesvg 1.1. text-shadow 描边 MDN text-shadow 代码 <div class"text stroke">…...
【事务】事务传播级别
Spring事务定义了7种传播机制: PROPAGATION_REQUIRED:默认的Spring事物传播级别,若当前存在事务,则加入该事务,若不存在事务,则新建一个事务。 PAOPAGATION_REQUIRE_NEW:若当前没有事务&#x…...
Android WiFi 连接
Android WiFi 连接 1、设置中WiFi显示2、WiFi 连接流程2.1 获取PrimaryClientModeManager2.2 ClientModeImpl状态机ConnectableState2.3 ISupplicantStaNetworkCallback 回调监听 3、 简要时序图4、原生低层驱动5、关键日志 1、设置中WiFi显示 Android WiFi基础概览 packages/a…...
PLC与上位机PN通讯时,如何防止连接失败?
连接西门子PLC时失败,或者连接不上PLC,你可能需要做以下几点设置才可以。 一般来说每个PLC都有自己的IP地址,如果你的地址与PLC的地址冲突也就是地址重复是连接不上PLC的,如果地址没有冲突,但是不是在一个网段上也会导…...
LDD学习笔记 -- Linux错误码
LDD学习笔记 -- Linux错误码 EACCES(Permission Denied) 13EEXIST(File Exits) 17EINVAL(Invalid Argument) 22ENOENT(No Such File or Directory)ENOMEM(Out of Memory)EIO(Input/Output Error) 5ENOSPC(No space Left on Device)ENOTTY(Not a Typewrite)EPIPE(Broken Pipe)EI…...
华为交换机入门(六):VLAN的配置
VLAN(Virtual Local Area Network)即虚拟局域网,是将一个物理的LAN在逻辑上划分成多个广播域的通信技术。VLAN内的主机间可以直接通信,而VLAN间不能直接互通,从而将广播报文限制在一个VLAN内。 VLAN 主要用来解决如何…...
登录验证
目录 会话技术 Cookie Session JWT JWT生成 JWT校验 会话技术 会话 打开浏览器,访问web服务器的资源,会话建立,直到有一方断开连接,会话结束。在一次会话中可以包含多次请求与响应 会话跟踪 一种维护浏览器的方法 服务器需要…...
利用Podman构建基于Fission env/builder的镜像
镜像准备 构建Dockerfile fission的基础环境包括两种:env 以及 builder。如果仅基于code构建function(i.e., 只创建deployachive),仅构建env即可;但如果需要构建sourcearchive,则需要同时创建env和builde…...
php加减乘除函数
目录 第一部分:简单示例 1、加法 2、减法 3、乘法 4、除法 第二部分:官方文档 1、加法 2、减法 3、乘法 4、除法 第一部分:简单示例 1、加法 $result bcadd(1.2, 1.4, 2); echo $result;//2.60 2、减法 $result bcsub(1.6, 1.…...
P3 QT项目----记事本(3.8)
3.8 记事本项目总结 项目源码 1.main.cpp #include "widget.h" #include <QApplication> int main(int argc, char *argv[]) {QApplication a(argc, argv);Widget w;w.show();return a.exec(); } 2.widget.cpp #include "widget.h" #include &q…...
让AI看见世界:MCP协议与服务器的工作原理
让AI看见世界:MCP协议与服务器的工作原理 MCP(Model Context Protocol)是一种创新的通信协议,旨在让大型语言模型能够安全、高效地与外部资源进行交互。在AI技术快速发展的今天,MCP正成为连接AI与现实世界的重要桥梁。…...
Spring是如何解决Bean的循环依赖:三级缓存机制
1、什么是 Bean 的循环依赖 在 Spring框架中,Bean 的循环依赖是指多个 Bean 之间互相持有对方引用,形成闭环依赖关系的现象。 多个 Bean 的依赖关系构成环形链路,例如: 双向依赖:Bean A 依赖 Bean B,同时 Bean B 也依赖 Bean A(A↔B)。链条循环: Bean A → Bean…...
VM虚拟机网络配置(ubuntu24桥接模式):配置静态IP
编辑-虚拟网络编辑器-更改设置 选择桥接模式,然后找到相应的网卡(可以查看自己本机的网络连接) windows连接的网络点击查看属性 编辑虚拟机设置更改网络配置,选择刚才配置的桥接模式 静态ip设置: 我用的ubuntu24桌…...
深入理解Optional:处理空指针异常
1. 使用Optional处理可能为空的集合 在Java开发中,集合判空是一个常见但容易出错的场景。传统方式虽然可行,但存在一些潜在问题: // 传统判空方式 if (!CollectionUtils.isEmpty(userInfoList)) {for (UserInfo userInfo : userInfoList) {…...
【LeetCode】算法详解#6 ---除自身以外数组的乘积
1.题目介绍 给定一个整数数组 nums,返回 数组 answer ,其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积 。 题目数据 保证 数组 nums之中任意元素的全部前缀元素和后缀的乘积都在 32 位 整数范围内。 请 不要使用除法,且在 O…...
【Linux】Linux安装并配置RabbitMQ
目录 1. 安装 Erlang 2. 安装 RabbitMQ 2.1.添加 RabbitMQ 仓库 2.2.安装 RabbitMQ 3.配置 3.1.启动和管理服务 4. 访问管理界面 5.安装问题 6.修改密码 7.修改端口 7.1.找到文件 7.2.修改文件 1. 安装 Erlang 由于 RabbitMQ 是用 Erlang 编写的,需要先安…...
跨平台商品数据接口的标准化与规范化发展路径:淘宝京东拼多多的最新实践
在电商行业蓬勃发展的当下,多平台运营已成为众多商家的必然选择。然而,不同电商平台在商品数据接口方面存在差异,导致商家在跨平台运营时面临诸多挑战,如数据对接困难、运营效率低下、用户体验不一致等。跨平台商品数据接口的标准…...
麒麟系统使用-进行.NET开发
文章目录 前言一、搭建dotnet环境1.获取相关资源2.配置dotnet 二、使用dotnet三、其他说明总结 前言 麒麟系统的内核是基于linux的,如果需要进行.NET开发,则需要安装特定的应用。由于NET Framework 是仅适用于 Windows 版本的 .NET,所以要进…...
【Ftrace 专栏】Ftrace 参考博文
ftrace、perf、bcc、bpftrace、ply、simple_perf的使用Ftrace 基本用法Linux 利用 ftrace 分析内核调用如何利用ftrace精确跟踪特定进程调度信息使用 ftrace 进行追踪延迟Linux-培训笔记-ftracehttps://www.kernel.org/doc/html/v4.18/trace/events.htmlhttps://blog.csdn.net/…...
