Elasticsearch 建议(Suggesters):实现自动补全和拼写检查
引言
在现代搜索引擎中,自动补全和拼写检查功能已成为提升用户体验的重要工具。Elasticsearch,作为一款强大的分布式搜索和分析引擎,提供了多种Suggesters API来帮助开发者实现这些功能。本文将详细介绍Elasticsearch中的四种主要Suggester——Term Suggester、Phrase Suggester、Completion Suggester和Context Suggester,并展示如何在实际应用中实现自动补全和拼写检查。
Elasticsearch Suggesters 介绍
1. Term Suggester
Term Suggester 主要用于单个词的拼写纠错。它通过编辑距离算法,在用户输入的词不存在于索引中时,提供一系列可能的正确拼写。Term Suggester 不仅可以返回建议词,还可以显示每个建议词的得分和词频。
实现步骤
- 创建索引并插入数据:确保你的索引中存在需要搜索的字段。
- 发送Suggest请求:在Elasticsearch的_search端点发送一个包含suggest字段的请求。
示例
POST /blogs/_search
{"suggest": {"my_suggestion": {"text": "hots vlna","term": {"field": "content"}}}
}
2. Phrase Suggester
Phrase Suggester 在Term Suggester的基础上更进一步,它可以处理整个短语的拼写纠错。它考虑了多个词之间的关系,如它们是否同时出现在索引中,以及它们之间的词频和相邻程度。
示例
POST /blogs/_search
{"suggest": {"my_suggestion": {"text": "lucne and elasticsearch rock","phrase": {"field": "body","highlight": {"pre_tag": "<em>","post_tag": "</em>"}}}}
}
3. Completion Suggester
Completion Suggester 专用于快速的前缀搜索和自动补全。它通过将分词后的数据编码成FST(Finite State Transducer)并存储在内存中,以实现极快的查询速度。这种Suggester适用于需要即时反馈的场景,如搜索框的自动补全功能。
创建映射和插入数据
首先,需要定义字段类型为completion的映射。
curl -XPUT localhost:9200/index/test/_mapping -d'{"test": {"properties": {"name_suggest": {"type": "completion","analyzer": "simple","search_analyzer": "simple","payloads": true}}}
}'curl -XPUT 'localhost:9200/index/test/1?refresh=true' -d'{"name": "xdy","name_suggest": {"input": ["xdy", "hdu"]}
}'
查询示例
curl -XPOST 'localhost:9200/index/_suggest?pretty' -d'{"index-suggest": {"text": "b","completion": {"field": "name_suggest"}}
}'
4. Context Suggester
Context Suggester 允许基于上下文(如类别或地理位置)提供更精确的建议。它可以提高搜索建议的准确性和相关性。
实际应用中的考虑
性能优化
- 索引优化:确保索引的字段类型和分词器配置合理,以提高查询效率。
- 缓存:利用Elasticsearch的缓存机制,减少重复查询的开销。
用户体验
- 即时反馈:通过Completion Suggester实现即时的自动补全功能,提升用户体验。
- 友好的错误提示:当用户输入错误时,通过Term Suggester和Phrase Suggester提供清晰的错误提示和正确的拼写建议。
结论
Elasticsearch的Suggesters API为开发者提供了强大的工具来实现自动补全和拼写检查功能。通过合理利用这些Suggesters,可以显著提升搜索引擎的用户体验。在实际应用中,需要根据具体需求选择合适的Suggester,并进行适当的优化和调整。
相关文章:
Elasticsearch 建议(Suggesters):实现自动补全和拼写检查
引言 在现代搜索引擎中,自动补全和拼写检查功能已成为提升用户体验的重要工具。Elasticsearch,作为一款强大的分布式搜索和分析引擎,提供了多种Suggesters API来帮助开发者实现这些功能。本文将详细介绍Elasticsearch中的四种主要Suggester—…...
部署过docker后,防火墙firewall与iptables的基本指令
一、iptables【无需stop docker服务】 如果服务器中部署了docker,优先选用iptables 1. 记录关闭docker中运行的mongoDB的27017端口: 由于docker与iptables存在配置规则,因此要修改docker相关端口的可访问性时需要使用下面的语句:…...
华为 RIP 协议中 RIP 兼容版本、RIPv1、RIPv2 在收发 RIP 报文时的区别
RIP (Routing Information Protocol,路由信息协议) RIP 是一个比较早期的协议,在实际部署中较少使用,但RIP 协议的机制是所有矢量跻由协议的基础,因此,掌握 RIP 协议的工作原理对研究矢量路由协议有重要的…...
深度学习pytorch多机多卡网络配置桥接方法
1 安装pdsh(Parallel Distributed Shell) sudo apt install pdsh sudo -s # 切换超级用户身份 …...
服务器信息获取工具
功能介绍 SSH连接到远程服务器: 用户可以输入目标服务器的IP地址、用户名、密码以及SSH端口(默认22)。 工具会尝试连接到远程服务器,并在连接失败时显示错误信息。 运行命令并返回输出: 工具可以在远程服务器上运…...
uniapp 防止重复提交数据
当用户快速点击按钮时候。我们可以统一在 请求拦截 中做防止重复提交数据的处理 以下是使用uview2封装的request请求 import { autoLogin, getUserInfo } from /utils/method.js import { refreshToken } from /api/login.js const serversUrl require(./serversUrl.js).ser…...
线程池工具类
线程池简述 为什么需要一个线程池工具类? 答:整个项目,用到线程执行任务的地方很多,不可能哪里用到就在那里直接new一个线程执行,这样资源得不到重复利用,一旦线程过多就会导致内存不足。 线程池的好处是…...
印尼“支付宝” DANA 如何借力 OceanBase 实现3个“关键零”
当前,移动支付在东南亚正迅猛发展,据谷歌、淡马锡与贝恩公司发布的报告预测,东盟地区蓬勃兴起的移动支付市场有望在2030年突破至2万亿美元的交易规模。 在此背景下,DANA作为印尼——东南亚最大经济体中的一员,秉持着推…...
2018-2022 年份微博签到数据集
前阵子接到一个实验室老师的需求,采集五年前(2024-52019)过年前后的北京微博签到数据。 前两年采集的深圳签到数据是 2022 年是当年的尚可,这次虽然时间跨度只有两个月,但是由于时间太过久远,但是颇费了一…...
Avalonia开发实践(二)——开发带边框的Grid
一、开发背景 在实际开发工作中,常常会用到Grid进行布局。为了美观考虑,会给每个格子加上边框,如下图: 原生的Grid虽然有ShowGridLines属性可以控制显示格子之间的线,但线的样式不能定义,可以说此功能非常…...
Java泛型的定义与运用
泛型 泛型的作用从使用层面上来说是统一数据类型,防止将来的数据转换异常。从定义层面上来说,定义带泛型的类,方法等,将来使用的时候给泛型确定什么类型,泛型就会变成什么类型,凡是涉及到泛型的都会变成确…...
Java如何自定义注解及在SpringBoot中的应用
注解 注解(Annotation),也叫元数据。一种代码级别的说明。它是JDK1.5及以后版本引入的一个特性,与类、接口、枚举是在同一个层次。它可以声明在包、类、字段、方法、局部变量、方法参数等的前面,用来对这些元素进行说…...
微软 Edge 浏览器全解析
微软 Edge 是微软推出的一个现代化浏览器,继承了 Internet Explorer(IE)的部分功能,但在速度、安全性和兼容性方面做出了很大改进。下面是对微软 Edge 浏览器的详细解析,包括其特点、安装、配置和常见问题的解答。 微软 Edge 浏览器的特点 基于 Chromium 内核 Edge 浏览…...
C++ 八股(1)
C语言中strcpy为什么不安全?如何解决? 主要原因是缺乏对输入长度的边界检查,容易导致缓冲区溢出漏洞。 解决:可以使用strncpy函数替代,或者在程序最顶端加入代码段 #define _CRT_SECURE_NO_WARNINGS 缓冲区溢出 …...
超高精电容传感器PCAP01调试+LABVIEW数据可视化调试手记
PCAP01超高精电容传感芯片STM32LabView可视化 文章目录 PCAP01超高精电容传感芯片STM32LabView可视化一、PCAP01介绍1.1、PCAP01引脚定义1.2、电容测量1.3、温度测量1.4、PCAP典型测试电路 二、PCAP01的STM32驱动2.1、SPI协议配置2.2、PCAP01浮空电容测量内部温度测量操作流程 …...
5.更多
发现一个项目与 MkDocs 类似的项目 PyMdown 拓展文档 ,等待探索。 1.排版模仿 以下网站使用 MkDocs 构建 Material for MkDocs 的美化 - Charles Les Notebook (charleschile.com) Documentation - Home Assistant (home-assistant.io) Godot Docs – master bra…...
ConditionalOnJndi注解使用介绍、应用场景以及示例代码
概述 ConditionalOnJndi 是 Spring Framework 中的一个条件注解,用于在特定的 JNDI (Java Naming and Directory Interface) 环境条件下决定是否创建一个 bean 或配置一个 bean。JNDI 是 Java EE 规范中定义的一种用于访问命名和目录服务的 API,它允许 …...
Spring Cloud 引入
1.单体架构: 定义:所有的功能实现都打包成一个项目 带来的后果: ①后端服务器的压力越来越大,负载越来越高,甚至出现无法访问的情况 ②业务越来越复杂,为了满足用户的需求,单体应用也会越来越…...
自定义波形图View,LayoutInflater动态加载控件保存为本地图片
效果图: 页面布局: <?xml version"1.0" encoding"utf-8"?><LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"xmlns:tools"http://schemas.android.com/tools"android:la…...
每日一道算法题 求最小公倍数
题目 求最小公倍数_牛客题霸_牛客网 (nowcoder.com) Python 辗转相除法 dividend,divisormap(int,input().split()) #被除数,除数 # remainder0 余数 # 最小公倍数 def lcm(dividend,divisor):# 最大公约数def gcd(dividend,divisor):if 0divisor:return divid…...
从HuggingFace迁移MinerU?镜像适配问题全解析
从HuggingFace迁移MinerU?镜像适配问题全解析 1. 项目背景与核心价值 OpenDataLab MinerU 是一个专门针对文档理解场景优化的智能多模态模型。基于 OpenDataLab/MinerU2.5-1.2B 模型构建,这个方案在保持轻量级的同时,提供了出色的文档解析能…...
行业观察|智能体破局会务痛点:报名签到与查座,才是线下活动的核心刚需!
线下会议、峰会、活动使用数智化工具的意识越来越强烈。从眨眼猫会务智能体的实际服务案例来看,主办方的核心诉求并非复杂功能,而是解决“顺利入场、快速就位”的基础痛点。因此“报名签到与查座”,成为了智能体落地会务场景的核心需求与关键…...
效率提升利器:用快马生成智能脚本,一键统一团队node.js开发环境
在团队协作开发中,最让人头疼的莫过于"在我电脑上能跑"的环境问题。最近我们团队尝试用InsCode(快马)平台生成智能脚本,彻底解决了Node.js环境配置这个老大难问题。分享下这个提升效率的实践过程: 环境检测自动化 传统方式需要每个…...
2026年国产化人事管理系统TOP10榜单发布:从信创适配到AI提效的选型指南
国产化人事管理系统的竞争,已经从基础人事与算薪,上升到信创环境适配、集团多级管控、复杂用工合规,以及AI在招聘与员工服务中的真实提效。2026年这份TOP10榜单中,红海云更偏向国央企与大型集团的一体化与信创全栈适配;…...
终极美化指南:3步打造你的专业级foobar2000音乐播放器
终极美化指南:3步打造你的专业级foobar2000音乐播放器 【免费下载链接】foobox-cn DUI 配置 for foobar2000 项目地址: https://gitcode.com/GitHub_Trending/fo/foobox-cn 你是否还在使用foobar2000那单调乏味的默认界面?每天面对灰白色的播放列…...
手把手教你用STM32驱动ADS1292R心电模块(附完整代码与SPI避坑指南)
手把手教你用STM32驱动ADS1292R心电模块(附完整代码与SPI避坑指南) 在医疗电子和可穿戴设备领域,生物电信号采集一直是核心技术难点之一。TI的ADS1292R作为一款高集成度、低功耗的生物电信号前端芯片,能够同时采集心电(…...
魔百和CM211-1机顶盒s905l3b芯片刷机实战:从安卓到Armbian全流程解析
1. 魔百和CM211-1机顶盒硬件拆解 先来看看这台设备的硬件底子。拆开CM211-1的黑色外壳,最显眼的就是那块s905l3b芯片——这是整个刷机过程的灵魂所在。这个四核Cortex-A53架构的处理器,主频能跑到1.8GHz,配上Mali-G31 MP2 GPU,性能…...
3个关键步骤让老款Mac重获新生:OpenCore Legacy Patcher终极指南
3个关键步骤让老款Mac重获新生:OpenCore Legacy Patcher终极指南 【免费下载链接】OpenCore-Legacy-Patcher 体验与之前一样的macOS 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 当苹果宣布你的Mac不再支持最新的macOS系统时…...
OpenClaw模型热切换:GLM-4.7-Flash与Qwen3-32B的任务适配对比
OpenClaw模型热切换:GLM-4.7-Flash与Qwen3-32B的任务适配对比 1. 为什么需要模型热切换 上周我在用OpenClaw处理一个复杂的文件整理任务时,遇到了一个典型问题:Qwen3-32B模型虽然能给出高质量的文件分类建议,但每个决策都要消耗…...
Kook Zimage真实幻想Turbo部署教程:免conda环境纯pip安装方案
Kook Zimage真实幻想Turbo部署教程:免conda环境纯pip安装方案 1. 项目简介 Kook Zimage真实幻想Turbo是一款专为个人GPU设计的轻量化幻想风格文生图系统。它基于Z-Image-Turbo官方极速文生图底座,通过特殊技术融合了专属的幻想风格模型权重,…...
