当前位置: 首页 > article >正文

Elasticsearch-05-四种搜索方案

Elasticsearch-05-四种搜索方案详解概述Elasticsearch提供了多种搜索方案以满足不同的业务需求。本文档将详细介绍四种核心搜索方案纯BM25、纯KNN、混合搜索和优化KNN参数包括各自的适用场景、配置方法和实际应用。方案1纯BM25搜索场景类型精确关键词搜索传统信息检索结构化文本搜索具体配置{settings:{index:{analysis:{analyzer:{default:{type:standard}}},similarity:{default:{type:BM25}}}},mappings:{properties:{content:{type:text,analyzer:standard}}}}场景示例商品搜索# 电子商务商品搜索resultses.search(indexproducts,query{match:{name:智能手机}})日志查询# 系统日志查询resultses.search(indexlogs,query{match:{message:error 404}})优势简单易用配置简单开箱即用性能优秀针对文本搜索优化精确匹配擅长关键词精确匹配局限性语义理解弱无法处理同义词和语义相似性缺乏上下文不考虑文档间的语义关系方案2纯KNN搜索场景类型语义相似搜索内容推荐问答系统具体配置{mappings:{properties:{embedding:{type:dense_vector,dims:768,index:true,similarity:cosine}}}}场景示例内容推荐# 基于内容的推荐系统resultses.search(indexarticles,knn{field:embedding,query_vector:get_text_embedding(用户兴趣描述),k:10,num_candidates:100})问答系统# 语义相似问答resultses.search(indexqa_pairs,knn{field:question_embedding,query_vector:get_text_embedding(用户问题),k:5,num_candidates:50})优势语义理解强能够理解文本的语义相似性灵活性强适用于多种非结构化数据推荐效果好在推荐系统中表现优秀局限性索引成本高需要生成和存储向量搜索成本高kNN搜索相对较慢依赖模型需要高质量的嵌入模型方案3混合搜索Hybrid Search场景类型混合搜索需求智能搜索知识库搜索具体配置{query:{rrf:{queries:[{query:{match:{content:搜索查询}}},{query:{knn:{field:embedding,query_vector:get_text_embedding(搜索查询),k:10}}}],rank_constant:60}}}场景示例智能搜索# 智能搜索结合文本和语义搜索resultses.search(indexdocuments,query{rrf:{queries:[{query:{match:{content:人工智能 应用}}},{query:{knn:{field:embedding,query_vector:get_text_embedding(人工智能 应用),k:10}}}],rank_constant:60}})知识库搜索# 知识库搜索结合关键词和语义resultses.search(indexknowledge_base,query{rrf:{queries:[{query:{match:{title:机器学习}}},{query:{knn:{field:embedding,query_vector:get_text_embedding(机器学习),k:10}}}],rank_constant:60}})优势全面覆盖结合文本和语义搜索的优势鲁棒性强减少单一搜索方法的偏差适应性强适用于复杂搜索场景局限性配置复杂需要合理配置融合参数性能开销多个查询增加延迟调优难度需要平衡不同搜索方法的权重方案4优化KNN参数场景类型高性能搜索需求大规模实时搜索低延迟搜索具体配置{mappings:{properties:{embedding:{type:dense_vector,dims:768,index:true,index_options:{type:hnsw,m:16,ef_construction:100},similarity:cosine}}}}场景示例大规模实时搜索# 大规模实时搜索优化kNN参数resultses.search(indexlarge_dataset,knn{field:embedding,query_vector:get_text_embedding(搜索查询),k:20,num_candidates:200})低延迟搜索# 低延迟搜索调整HNSW参数resultses.search(indexreal_time_data,knn{field:embedding,query_vector:get_text_embedding(实时查询),k:10,num_candidates:50})优化策略HNSW参数调优m参数每个节点的连接数16-64ef_construction构建时的最近邻居数100-400ef_search搜索时的最近邻居数40-100查询参数优化num_candidates增加候选文档数量提高精度k值根据需求调整返回结果数量批量查询使用批量kNN提高效率优势性能提升显著提高大规模搜索性能可扩展性强支持百万级数据集实时性好满足低延迟需求局限性精度权衡近似搜索可能损失少量精度参数调优需要专业知识和经验资源消耗HNSW索引需要额外资源5. 方案对比与选择性能对比方案搜索速度精度适用数据量配置复杂度纯BM25快高文本任意低纯KNN慢高语义中小规模中混合搜索中高综合任意高优化KNN快大规模高近似大规模高选择建议小规模数据集10,000纯BM25简单高效纯KNN语义搜索需求混合搜索需要综合结果中等规模数据集10,000-1,000,000纯BM25文本搜索纯KNN语义搜索混合搜索综合需求优化KNN大规模语义搜索大规模数据集1,000,000纯BM25文本搜索优化KNN语义搜索混合搜索综合需求6. 实际应用场景分析电子商务平台商品搜索纯BM25精确关键词相似商品推荐纯KNN语义相似智能搜索混合搜索结合两者内容平台文章搜索纯BM25关键词相关文章推荐纯KNN语义相似智能推荐混合搜索综合企业知识库文档检索纯BM25关键词语义搜索纯KNN语义相似智能问答混合搜索综合7. 性能优化建议纯BM25优化分词器选择根据语言选择合适的分词器字段权重为重要字段设置更高权重模糊搜索合理使用模糊查询纯KNN优化模型选择选择适合任务的嵌入模型向量维度平衡精度和性能索引策略合理设置HNSW参数混合搜索优化查询权重根据重要性分配权重结果数量限制每个查询的结果数量并行执行并行执行独立查询优化KNN优化HNSW调优根据数据特征调整参数批量处理使用批量kNN提高效率缓存策略利用缓存减少计算8. 总结Elasticsearch提供了四种核心搜索方案每种方案都有其独特的优势和适用场景纯BM25适用于精确关键词搜索简单高效纯KNN适用于语义相似搜索理解能力强混合搜索适用于综合搜索需求鲁棒性强优化KNN适用于大规模实时搜索性能优秀理解各种方案的特性和限制根据具体业务需求选择合适的搜索方案能够显著提升搜索质量和用户体验。在实际应用中往往需要结合多种方案通过RRF融合等技术构建智能、高效的搜索系统。

相关文章:

Elasticsearch-05-四种搜索方案

Elasticsearch-05-四种搜索方案详解 概述 Elasticsearch提供了多种搜索方案以满足不同的业务需求。本文档将详细介绍四种核心搜索方案:纯BM25、纯KNN、混合搜索和优化KNN参数,包括各自的适用场景、配置方法和实际应用。 方案1:纯BM25搜索 场景…...

Spark--一文了解SparkSql的Join策略

文章目录前言一、join 基本要素二、join 实现三、五种join 策略3.1 2 种数据分发模式(数据怎么到同一个节点)3.1.1 Broadcast Join(广播 Join,也叫 Map Join)3.1.2 Shuffle Join(重分区 Join,也…...

保姆级教程:用Docker Compose一键部署ZLMediaKit流媒体服务器(含OBS推流配置)

从零搭建私有流媒体平台:Docker Compose ZLMediaKit OBS全流程指南 流媒体技术正在重塑内容传播的方式。无论是企业内部培训、游戏直播还是产品演示,一个稳定高效的私有流媒体平台都能显著提升沟通效率。本文将手把手教你如何用Docker Compose快速部署…...

打卡信奥刷题(3016)用C++实现信奥题 P6334 [COCI 2007/2008 #1] SREDNJI

P6334 [COCI 2007/2008 #1] SREDNJI 题目描述 给定一个长度为 nnn 的 1∼n1\sim n1∼n 的排列 a1,…,ana_1,\dots ,a_na1​,…,an​,请你找出这个排列有多少个长度为奇数的子串的中位数为 BBB。 子串定义:把这个排列从开头(可能无&#xff…...

嵌入式行业职业发展路径

嵌入式行业职业规划:技术→管理→经营→投资 这个路径代表了嵌入式从业者从执行者到决策者、从专业人才到复合型领袖的典型进阶之路。以下分阶段详解每个层级的核心任务、能力要求及转型关键。第一阶段:技术深耕(0-5年) 核心定位&…...

【windows】VirtualBox网络配置及实战-Host Only 仅主机模式

1.概述 仅 主 机 网 络 : 用 来 创 建 一 个 包 含 主 日 一 组 虚拟机的 网 络 , 而 不 需 要 主 机 的 物 理 网 络 接 口 .相反 ,在虚拟机上创建了一个类似于环回接口的虚拟网络接口。提 供 虚 似 机 和 主 机 之 间 的 连 接 …...

基于Vue的博物馆智能导览系统[vue]-计算机毕业设计源码+LW文档

摘要:本文介绍了一款基于Vue框架开发的博物馆智能导览系统。系统旨在利用现代Web技术提升参观者在博物馆中的体验,通过提供便捷的博物馆信息查询、个性化的导览路线规划等功能,满足不同用户的需求。本文详细阐述了系统的开发背景、相关技术、…...

华为防火墙NAT映射选择指南:一对一映射 vs 端口映射

华为防火墙NAT映射技术深度解析:一对一映射与端口映射的实战选择 在当今企业网络架构中,如何安全高效地将内部服务暴露给外部访问是一个永恒的技术挑战。华为防火墙提供的NAT映射功能,特别是一对一映射和端口映射两种核心方案,为不…...

Ubuntu20.04安全重启后WiFi图标消失?MT7922网卡驱动修复全攻略

Ubuntu 20.04安全重启后MT7922网卡驱动失效的深度修复指南 问题现象与初步诊断 当你使用REISUB组合键对Ubuntu 20.04进行安全重启后,可能会发现桌面右上角的WiFi图标神秘消失。这不是简单的界面显示问题,而是MT7922无线网卡驱动未能正常加载导致的深层…...

CF1335E2 Three Blocks Palindrome (hard version)

本题解也可通过CF1335E1 Three Blocks Palindrome (easy version)。做法:值域很小。只有200,考虑从这里入手。我们设q[i][j]表示数i第j次出现的位置,sum[i][j]表示种类i在1到j范围内出现过多少次。枚举 a,b 具体的值,枚举 x&#…...

从收音机到Wi-Fi:手把手复现经典小信号调谐放大器实验(附Multisim仿真文件)

从矿石收音机到5G射频前端:调谐放大器技术演进与Multisim仿真实践 上世纪二十年代,当业余无线电爱好者们用矿石和线圈组装出最简单的接收装置时,他们可能不会想到,这种基于LC谐振原理的选频技术会延续百年,成为现代无线…...

别被TMOS吓到!拆解沁恒CH579蓝牙例程,看事件驱动如何简化你的代码

别被TMOS吓到!拆解沁恒CH579蓝牙例程,看事件驱动如何简化你的代码 第一次打开沁恒CH579的蓝牙例程,看到满屏的TMOS_前缀函数和eventID定义,是不是瞬间头皮发麻?作为从51单片机转战蓝牙开发的工程师,我完全理…...

【板栗糖GIS】从KML到KMZ:GIS数据压缩、共享与ArcMap实战指南

1. KMZ与KML:GIS数据压缩与共享的黄金拍档 第一次接触KMZ文件时,我也被这个后缀名搞得一头雾水。直到有次野外测绘,队友发来一个带照片的谷歌地图范围文件,才真正体会到它的便利性。简单来说,KMZ就是KML的压缩版本&…...

async-http-client原生镜像大小优化:GraalVM裁剪终极指南 [特殊字符]

async-http-client原生镜像大小优化:GraalVM裁剪终极指南 🚀 【免费下载链接】async-http-client Asynchronous Http and WebSocket Client library for Java 项目地址: https://gitcode.com/gh_mirrors/as/async-http-client 在当今云原生和微服…...

SpringCloud Eureka停更了,我为什么还在用它做微服务注册中心?

SpringCloud Eureka停更后,为什么它仍是微服务架构的隐秘王牌? 当Netflix在2018年宣布停止维护Eureka时,整个Java微服务社区都为之震动。五年过去了,这个"过时"的组件却依然活跃在众多企业的生产环境中。上周我参与了一…...

brpc服务发现服务健康状态:集成外部健康检查的终极指南

brpc服务发现服务健康状态:集成外部健康检查的终极指南 【免费下载链接】brpc brpc is an Industrial-grade RPC framework using C Language, which is often used in high performance system such as Search, Storage, Machine learning, Advertisement, Recomme…...

终极指南:如何用org-roam保护敏感笔记的安全与隐私

终极指南:如何用org-roam保护敏感笔记的安全与隐私 【免费下载链接】org-roam Rudimentary Roam replica with Org-mode 项目地址: https://gitcode.com/gh_mirrors/or/org-roam org-roam是一款基于Org-mode的强大知识管理工具,它允许用户创建和管…...

Qwen3.5-4B-Claude-Opus-GGUF效果展示:TCP三次握手状态机推理

Qwen3.5-4B-Claude-Opus-GGUF效果展示:TCP三次握手状态机推理 1. 模型能力概览 Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF是一个专注于逻辑推理和结构化分析的轻量级AI模型。这个基于Qwen3.5-4B的蒸馏版本特别擅长处理需要分步骤解释的技术问题&#…...

OpenClaw安全指南:GLM-4.7-Flash本地化部署权限管理

OpenClaw安全指南:GLM-4.7-Flash本地化部署权限管理 1. 为什么需要关注OpenClaw的安全问题 去年我在尝试用OpenClaw自动整理电脑上的项目文档时,差点酿成一场小灾难。当时我让AI助手帮我"清理重复文件",结果它把我整个开发环境的…...

科研绘图没美术功底?只需这一招

相信很多科研同仁都有过这样的痛点:明明实验数据很漂亮,创新点也足够突出,却因为一张制作粗糙、配色杂乱的插图,让论文的整体质量大打折扣。甚至在一些高水平期刊的审稿过程中,精美的图像往往能给审稿人留下更好的第一…...

告别Python版本混乱!Windows下用pyenv-win + virtualenvwrapper打造多项目开发环境(保姆级避坑指南)

告别Python版本混乱!Windows下用pyenv-win virtualenvwrapper打造多项目开发环境(保姆级避坑指南) 你是否经历过这样的场景:手头同时维护着三个Python项目——一个基于Django 2.2的老系统要求Python 3.6,新开发的Fast…...

3步打造个人离线音频库:喜马拉雅VIP内容永久保存全攻略

3步打造个人离线音频库:喜马拉雅VIP内容永久保存全攻略 【免费下载链接】xmly-downloader-qt5 喜马拉雅FM专辑下载器. 支持VIP与付费专辑. 使用GoQt5编写(Not Qt Binding). 项目地址: https://gitcode.com/gh_mirrors/xm/xmly-downloader-qt5 你是否曾因网络…...

MangoHud项目发布流程:版本管理完全指南

MangoHud项目发布流程:版本管理完全指南 【免费下载链接】MangoHud A Vulkan and OpenGL overlay for monitoring FPS, temperatures, CPU/GPU load and more. Discord: https://discordapp.com/invite/Gj5YmBb 项目地址: https://gitcode.com/gh_mirrors/ma/Mang…...

【大模型】-名词手册-扫盲

写在前面 本篇文章用来记录在了解学习大模型的过程中遇到的一些名词缩写,好记性不如烂笔头,记录下来,也供大家参考。如有不正确的,欢迎指正。 目录写在前面名词扫盲写在后面名词扫盲 分类缩写英文全程中文备注-----智能体通信协议…...

深度学习赋能国税局发票查验:中英文混合验证码的高效识别方案

1. 验证码识别的税务场景痛点 每次打开国税局网站查验发票时,那个扭曲变形的中英文混合验证码是不是让你特别头疼?作为财务人员,我每天要处理上百张发票,手动输入这些验证码不仅效率低下,还容易出错。传统OCR技术在这里…...

高效掌握Mermaid CLI:命令行图表工具自动化与高效渲染实战指南

高效掌握Mermaid CLI:命令行图表工具自动化与高效渲染实战指南 【免费下载链接】mermaid-cli Command line tool for the Mermaid library 项目地址: https://gitcode.com/gh_mirrors/me/mermaid-cli 在技术文档创作和软件开发过程中,如何快速将文…...

共享文件是谁删除的?谁删了那个文件?一次“误删事件”背后的思考

上周,公司设计部的一位主管在准备客户提案时,突然发现关键素材文件夹不见了。那里面是整个团队近两周的工作成果——图片、方案、视频文件应有尽有。大家在共享目录里翻来覆去找了半天,最后只得到一个模糊的解释:“可能是谁误删了…...

高效批处理:一键复制文件/文件夹至当前目录所有子文件夹

1. 为什么需要批量复制文件到子文件夹? 在日常工作中,我经常遇到这样的场景:需要把一个重要文件快速分发到几十甚至上百个子文件夹中。比如给每个项目文件夹添加一份新的规范文档,或者为所有客户目录更新同一份合同模板。手动操作…...

3分钟告别机械键盘连击:精准修复打字困扰的Windows神器

3分钟告别机械键盘连击:精准修复打字困扰的Windows神器 【免费下载链接】KeyboardChatterBlocker A handy quick tool for blocking mechanical keyboard chatter. 项目地址: https://gitcode.com/gh_mirrors/ke/KeyboardChatterBlocker 机械键盘连击问题让无…...

MXNet多语言生态:Python到Java/C++的跨平台部署

MXNet多语言生态:Python到Java/C的跨平台部署 文章详细介绍了MXNet深度学习框架的多语言支持能力,重点阐述了从Python训练环境到Java/C生产环境的完整部署流程。内容涵盖Python API的深度使用指南,包括NDArray高效张量计算、Symbolic编程的计…...