当前位置: 首页 > article >正文

搞定 RAG 准确率:查询转换与分解才是核心

来源DeepHub IMBA 本文约2000字建议阅读5分钟 本文介绍了 RAG 查询优化两类方法及核心技术与落地思路。检索增强生成RAG的基础流程是用户查询转换为向量嵌入从向量数据库中取回相似文档再将这些文档作为上下文送入大语言模型LLM生成答案。基础 RAG 的准确性受制于查询质量查询模糊、表述不当或者用户对问题的抽象层次把握不准检索结果就会出偏差LLM 拿到的上下文也跟着失真。垃圾输入垃圾输出这个规律在 RAG 场景里同样成立。所以有两类改进方向逐渐成型查询转换Query Translation与查询分解Query Decomposition。前者在查询送入向量数据库之前对其进行变形和扩展后者则把复杂查询拆解成更易处理的子问题。具体技术包括并行查询检索FAN-OUT 架构、倒数排名融合RRF、HyDE假设文档嵌入以及基于思维链的低抽象分解和基于后退提示的高抽象分解。查询转换查询转换的核心思路是不依赖原始查询的单一表述而是生成若干语义相近的变体覆盖更多可能与文档匹配的角度。以RAG 如何改善 LLM 的响应效果为例扩展后可以得到检索增强生成是如何工作的RAG 对大语言模型的优势检索如何提升 LLM 的准确性这些变体并不改变查询的意图而是换用不同的措辞和切入点让向量搜索有机会命中文档库中表述各异的相关内容从而提高召回率。并行查询检索Fan-Out 检索并行查询检索把上述思路落地为具体架构LLM 基于原始输入生成多个查询变体各变体同时发往向量数据库执行相似度搜索检索结果汇总后去除重复文档最终上下文再传入 LLM。整个流程分六步完成用户发送查询、LLM 生成备选查询、各查询并发执行相似度搜索、合并检索结果、过滤重复文档、将最终上下文传递给 LLM。不同措辞在嵌入空间中的分布位置不同命中的文档集合也会有所差异并行执行正是在利用这一特性。倒数排名融合RRF多路查询的结果合并不能简单拼接了事。各路检索返回的文档存在重叠排名也不尽相同直接合并会导致高质量文档被低质量文档淹没。倒数排名融合RRF解决的正是这个问题。它不看原始相似度分数而是根据文档在每路结果中的排名位置计算分数公式如下其中排名越靠前得分越高在多路结果中反复出现且名次稳定的文档累计分数也更高。经过 RRF 重排后最终上下文的质量比简单合并要可靠得多。HyDE假设文档嵌入HyDE 的逻辑与前两种技术不同它绕开了查询表述不准确这个根源性问题。直接对用户查询做嵌入得到的向量反映的是问题的语义向量数据库里存的是答案文档两者在嵌入空间中的距离未必近。HyDE 的做法是先让 LLM 针对用户查询生成一段假设性的答案或文档再对这段生成文本做嵌入用于相似度搜索。生成文本在风格和内容上更接近真实文档检索准确率往往随之提升。不过需要注意的是这里依赖 LLM 的生成质量参数量偏小的模型生成的假设文档可能失真反而干扰检索。查询分解有些查询本身就包含多个子问题单次检索无法覆盖全部所需信息。把这类查询原封不动地送入向量数据库检索结果往往是残缺的。查询分解把复杂查询拆解为若干粒度更细的子查询分别检索再合并结果。拆解的方向取决于查询的抽象层次——查询可以向上推至更高的概念层也可以向下细化为具体的执行步骤。高抽象分解后退提示后退提示Step-Back Prompting先退一步提出一个比原始查询更高层次的问题再基于这个高层问题检索到的上下文来回答具体问题。以RAG 如何提升 LLM 的性能为例后退查询可以是没有外部知识的 LLM 存在哪些局限性先建立认知框架再回答具体问题检索到的上下文在概念层面会更完整。低抽象分解思维链检索思维链检索把查询拆解为若干有顺序依赖的子步骤前一步的检索结果作为后一步的输入逐步推进。以RAG 是如何工作的它与微调有何不同为例分解过程如下步骤 1——理解 RAG 的概念什么是检索增强生成步骤 2——检索 RAG 工作原理的详细信息RAG 是如何工作的步骤 3——检索微调的相关信息LLM 中的微调是什么步骤 4——对比两个概念RAG 与微调有何区别每个子步骤独立命中一批相关文档前序步骤积累的理解指导后续步骤的检索方向最终由 LLM 整合所有步骤的上下文生成完整答案。这种顺序推理结构在处理跨概念的比较类问题时尤为有效——原始查询包含的概念跨度越大单次检索的信噪比就越低分步处理带来的收益也越明显。总结查询转换和查询分解并不是非此即彼的选择。实际系统里两者往往配合使用Fan-Out 扩展查询覆盖面RRF 保证合并结果的排名质量复杂问题再交给分解流程逐步处理。至于哪种组合适合当前场景取决于查询的典型复杂度、向量库的规模以及系统对延迟的容忍程度——这些判断没有通用答案需要在具体环境里测量。by Samarth Acharya编辑于腾凯校对龚力关于我们数据派THU作为数据科学类公众号背靠清华大学大数据研究中心分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博数据派THU微信视频号数据派THU今日头条数据派THU

相关文章:

搞定 RAG 准确率:查询转换与分解才是核心

来源:DeepHub IMBA 本文约2000字,建议阅读5分钟 本文介绍了 RAG 查询优化两类方法及核心技术与落地思路。检索增强生成(RAG)的基础流程是用户查询转换为向量嵌入,从向量数据库中取回相似文档,再将这些文档作…...

蛋白质配体相互作用分析技术挑战与PLIP解决方案深度解析

蛋白质配体相互作用分析技术挑战与PLIP解决方案深度解析 【免费下载链接】plip Protein-Ligand Interaction Profiler - Analyze and visualize non-covalent protein-ligand interactions in PDB files according to 📝 Adasme et al. (2021), https://doi.org/10.…...

弦音墨影部署教程:NVIDIA Container Toolkit配置与Qwen2.5-VL CUDA版本对齐

弦音墨影部署教程:NVIDIA Container Toolkit配置与Qwen2.5-VL CUDA版本对齐 1. 环境准备与快速部署 在开始部署弦音墨影系统之前,我们需要确保环境满足基本要求。这个系统基于Qwen2.5-VL多模态大模型,对GPU和CUDA环境有特定要求。 系统要求…...

RK3568摄像头图像方向问题全解析:从external_camera_config.xml到代码修改实战

RK3568摄像头图像方向问题全解析:从external_camera_config.xml到代码修改实战 当你在RK3568平台上调试摄像头时,是否遇到过这样的场景:明明摄像头物理安装方向正确,但输出的图像却上下颠倒、左右镜像,或者旋转了90度&…...

3大突破:ACE-Guard资源限制器让腾讯游戏性能提升方案

3大突破:ACE-Guard资源限制器让腾讯游戏性能提升方案 【免费下载链接】sguard_limit 限制ACE-Guard Client EXE占用系统资源,支持各种腾讯游戏 项目地址: https://gitcode.com/gh_mirrors/sg/sguard_limit 卡顿不断?团战掉帧&#xff…...

视频硬字幕提取:如何通过深度学习技术实现本地化文本识别与精准提取

视频硬字幕提取:如何通过深度学习技术实现本地化文本识别与精准提取 【免费下载链接】video-subtitle-extractor 视频硬字幕提取,生成srt文件。无需申请第三方API,本地实现文本识别。基于深度学习的视频字幕提取框架,包含字幕区域…...

LFM2.5-1.2B-Thinking-GGUF实操手册:curl API调用+Python SDK接入示例

LFM2.5-1.2B-Thinking-GGUF实操手册:curl API调用Python SDK接入示例 1. 模型简介 LFM2.5-1.2B-Thinking-GGUF是Liquid AI推出的轻量级文本生成模型,专为低资源环境优化设计。该模型采用GGUF格式存储,通过llama.cpp运行时提供高效推理能力&…...

边缘端Python量化模型卡顿崩溃?(2024年最新PyTorch 2.3+ONNX Runtime 1.17部署避坑白皮书)

第一章:边缘端Python量化模型卡顿崩溃的典型现象与归因总览在资源受限的边缘设备(如树莓派、Jetson Nano、RK3399等)上部署PyTorch或TensorFlow Lite量化模型时,开发者常遭遇非预期的运行时异常。这些现象并非源于模型精度下降&am…...

CANoe高级技巧:如何利用CAPL脚本实现自动化测试(含完整代码示例)

CANoe自动化测试实战:CAPL脚本开发与性能优化指南 在汽车电子测试领域,自动化测试已成为提升效率的关键。作为Vector公司推出的主流测试工具,CANoe凭借其强大的CAPL脚本支持,能够实现从简单信号验证到复杂诊断流程的全自动测试。本…...

低成本软路由搭建家庭影音中心实战指南

1. 为什么选择软路由搭建家庭影音中心 最近两年我发现一个有趣的现象:身边越来越多的朋友开始用软路由设备折腾家庭影音系统。起初我也觉得奇怪,直到自己用一台不到50元的斐讯N1搭建了整套方案后,才明白这种方案的魅力所在。 传统方案要么得买…...

电商商品图高效抠图:SDMatte Web版实战案例——服饰/饰品透明底PNG生成

电商商品图高效抠图:SDMatte Web版实战案例——服饰/饰品透明底PNG生成 1. 为什么需要专业抠图工具 在电商运营和内容创作中,商品图片处理是一个高频需求。传统手动抠图不仅耗时耗力,对于复杂边缘(如发丝、薄纱)或透…...

Z-Image-GGUFGPU优化:显存占用从11.2GB降至8.7GB的量化参数调优实践

Z-Image-GGUF GPU优化:显存占用从11.2GB降至8.7GB的量化参数调优实践 1. 引言:当高清文生图遇上显存焦虑 如果你尝试过在本地运行Z-Image这类高清文生图模型,大概率会遇到一个头疼的问题:显存不够用。一张1024x1024的高清图片生…...

translategemma-27b-it效果展示:中→英/日/法等55语种图文翻译真实响应截图集

translategemma-27b-it效果展示:中→英/日/法等55语种图文翻译真实响应截图集 1. 模型简介与核心能力 TranslateGemma是Google基于Gemma 3模型系列构建的轻量级开源翻译模型,专门处理55种语言的翻译任务。这个模型最大的特点是既能处理文本翻译&#x…...

CLIP-GmP-ViT-L-14图文匹配测试工具在Agent智能体中的应用

CLIP-GmP-ViT-L-14图文匹配测试工具在Agent智能体中的应用 你有没有想过,让一个AI助手不仅能看懂你发的图片,还能根据图片内容帮你自动完成工作?比如,你截一张软件界面的图,它就能帮你点击某个按钮;或者你…...

7个技巧掌握lessmsi:从MSI文件解析难题到高效提取方案

7个技巧掌握lessmsi:从MSI文件解析难题到高效提取方案 【免费下载链接】lessmsi A tool to view and extract the contents of an Windows Installer (.msi) file. 项目地址: https://gitcode.com/gh_mirrors/le/lessmsi 在日常工作中,你是否遇到…...

SDMatte Web服务可观测性:Grafana看板、请求链路追踪、错误率热力图

SDMatte Web服务可观测性:Grafana看板、请求链路追踪、错误率热力图 1. SDMatte简介 SDMatte是一款面向高质量图像抠图场景的AI模型,特别擅长处理以下复杂场景: 主体分离(如商品与背景分离)透明物体提取&#xff08…...

ggwave声波通信库:嵌入式轻量级音频数据传输方案

1. ggwave:嵌入式系统中的轻量级声波数据通信库1.1 技术定位与工程价值ggwave 是一个专为资源受限嵌入式平台设计的超轻量级声波数据通信库,其核心目标是在无射频模块、无网络基础设施的物理邻近场景下,实现设备间短消息的可靠音频信道传输。…...

华硕笔记本终极性能调控指南:用G-Helper轻松掌控你的游戏本

华硕笔记本终极性能调控指南:用G-Helper轻松掌控你的游戏本 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops. Control tool for ROG Zephyrus G14, G15, G16, M16, Flow X13, Flow X16, TUF, Strix, Scar and other models 项…...

FireRedASR Pro保姆级教程:3步完成语音识别环境配置与使用

FireRedASR Pro保姆级教程:3步完成语音识别环境配置与使用 1. 准备工作:了解FireRedASR Pro FireRedASR Pro是一款基于工业级语音识别模型开发的本地化工具,它能够将各种格式的音频文件转换为文字内容。与常见的在线语音识别服务不同&#…...

Qwen2.5-Coder-1.5B在Linux环境下的部署与优化指南

Qwen2.5-Coder-1.5B在Linux环境下的部署与优化指南 如果你是一名开发者,想在Linux服务器或者自己的开发机上跑一个专门写代码的AI助手,那么Qwen2.5-Coder-1.5B绝对是个值得考虑的选择。它只有15亿参数,对硬件要求不高,但在代码生…...

Youtu-2B生产环境部署:高稳定性Flask架构解析

Youtu-2B生产环境部署:高稳定性Flask架构解析 1. 引言 如果你正在寻找一个既轻量又聪明的AI助手,并且希望它能稳定地跑在你的服务器上,那么Youtu-2B很可能就是你要找的答案。这个基于腾讯优图实验室2B参数模型构建的服务,最大的…...

一文讲清,流程管理是什么意思?深度解析流程管理的核心要素

很多管理者常问流程管理是什么意思?其实,流程管理并非复杂的理论,而是将企业“谁在何时做何事”标准化的过程,其成败取决于是否抓住了流程管理的核心要素。要真正搞懂流程管理是什么意思并落地见效,我们需要深度解析流…...

降AIGC用什么最稳?2026全景实测15款工具:DeepSeek沦为辅助,95%→5.8%保命神器全公开

昨天半夜后台有个粉丝私信我诉说:“看了网上的教程用免费GPT改论文,结果论文降ai不成,AI率反而从40%飙到了85%,下周就要盲审了,我是不是要延毕了?” 说实话,看到这种情况我真的感同身受。今年各…...

车企智能客服AI辅助开发实战:从架构设计到性能优化

最近在参与一个车企智能客服系统的开发,从零到一搭建了一套AI辅助的解决方案。整个过程踩了不少坑,也积累了一些实战经验,今天就来聊聊从架构设计到性能优化的完整思路。 车企的客服场景有几个非常鲜明的特点:用户咨询量巨大且集中…...

OneAPI API网关文档自动化:自动生成Swagger/OpenAPI 3.0文档,支持在线调试

OneAPI API网关文档自动化:自动生成Swagger/OpenAPI 3.0文档,支持在线调试 你是不是也遇到过这样的烦恼?团队里接入了七八种不同的大模型API,每个的调用方式、参数格式、认证方法都不一样。开发新功能时,光是查文档、…...

Yarn国内镜像源优化指南:从淘宝镜像到npmmirror.com的全面解析

1. 为什么需要切换Yarn镜像源? 作为一名长期使用Yarn的前端开发者,我深刻体会到国内网络环境对包管理工具的影响。记得有一次团队协作时,新来的同事花了整整一上午都没能成功安装项目依赖,最后发现是默认的官方源下载速度太慢导致…...

小白也能玩转深度学习:PyTorch 2.7 CUDA镜像入门指南

小白也能玩转深度学习:PyTorch 2.7 CUDA镜像入门指南 1. 为什么选择PyTorch-CUDA镜像 深度学习环境配置一直是新手入门的第一道门槛。想象一下,你刚学会Python基础,准备尝试第一个神经网络项目,结果在安装PyTorch时遇到各种CUDA…...

GKD v1.11.6 | 安卓开屏广告跳过工具 可用版

GKD v1.11.6 是专为安卓设备研发的开屏广告跳过工具,采用规则订阅模式实现高效广告拦截,覆盖海量安卓应用,支持用户共建规则库,开启无障碍服务与后台常驻即可稳定跳过广告,显著提升安卓应用启动流畅度。软件核心功能1.…...

抠图效率翻倍!AI净界RMBG-1.4在商品图处理中的实战应用

抠图效率翻倍!AI净界RMBG-1.4在商品图处理中的实战应用 1. 电商图片处理的痛点与AI解决方案 电商运营每天都要处理大量商品图片,其中最耗时费力的环节莫过于抠图。传统方法如Photoshop手动抠图,一张简单的商品图可能需要5-10分钟&#xff0…...

Qt Group 产品全景开发者必须了解的完整生态(2)

前言 很多人以为 Qt 只是一个"写界面的库",但 Qt Group 实际上提供了一套覆盖从 UI 设计、应用开发、到软件质量保障的完整工具链。 在正式开始写代码之前,花 20 分钟了解整个产品生态,能帮你在遇到问题时知道该去哪里找答案&…...