当前位置: 首页 > article >正文

【第三周】论文精读:Q-RAG: Long Context Multi-Step Retrieval via Value-Based Embedder Training

前言在处理超长上下文Long Context和复杂多跳推理任务时传统的单步检索Single-Step Retrieval往往力不从心而现有的多步检索方法通常需要对大语言模型LLM本身进行昂贵的微调限制了其在大规模模型上的应用。来自俄罗斯 AXXX 与应用人工智能研究所的研究团队提出了Q-RAG一种创新的基于值强化学习Value-Based RL。该方法仅微调嵌入器Embedder将其训练为一个能在潜在空间中执行多步搜索的智能体从而实现了在高达1000 万10M的超长上下文中进行高效、精准的多步检索。实验表明Q-RAG 在 BabiLong 和 RULER 等基准测试中取得了 SOTA 成绩且训练成本极低单卡 A100 仅需 12 小时为长文本理解提供了一种资源高效的新范式。 论文基本信息项目内容论文标题Q-RAG: Long Context Multi-Step Retrieval via Value-Based Embedder Training核心方法名Q-RAG (Value-Based Multi-Step Retrieval)作者Artyom Sorokin, Nazar Buzun, Alexander Anokhin, et al.所属机构AXXX, Applied AI Institute (Moscow), Innopolis University发表年份2026 (ICLR Conference Paper)核心领域Multi-Step Retrieval, Reinforcement Learning, Long Context (up to 10M tokens), Embedder Fine-tuning关键基准BabiLong, RULER, HotpotQA, Musique代码开源GitHub - griver/Q-RAG 研究背景与痛点1. 现有 RAG 方法的局限单步检索的不足大多数 RAG 系统仅执行一次检索难以应对需要综合多个分散信息片段的多跳推理Multi-hop Reasoning任务。多步检索的高昂成本现有的多步检索方案如 Search-R1, R1-Searcher通常通过强化学习微调LLM 本身来生成中间查询。这不仅计算资源消耗巨大通常需要 8×A100 集群还导致无法灵活搭配不同的 LLM尤其是闭源大模型。长上下文的挑战随着上下文长度增加到百万级甚至千万级 token注意力机制稀释Attention Dilution和计算复杂度呈二次方增长使得传统 Transformer 架构难以直接处理。2. Q-RAG 的核心洞察解耦检索与生成将“在哪里找”检索策略与“怎么答”生成能力解耦。只微调轻量级的嵌入器来学习多步搜索策略而保持 LLM 冻结。潜在空间搜索将多步检索建模为在文本块嵌入的潜在空间中进行的马尔可夫决策过程MDP利用强化学习优化搜索路径。线性扩展性通过向量相似度计算替代复杂的 Transformer 前向传播使得检索成本随上下文长度呈线性增长轻松支持 10M token 级别的任务。️ 核心方法Q-RAG 详解Q-RAG 将多步检索建模为一个有限视野的马尔可夫决策过程MDP并通过时序差分强化学习Temporal Difference RL来训练嵌入器。1. 问题建模检索即搜索 (Retrieval as Search)状态(State,s t s_tst​)由初始查询q qq和已检索到的文本块序列组成按文档顺序排列s t ord ( [ q , a 0 , . . . , a t − 1 ] ) s_t \text{ord}([q, a_0, ..., a_{t-1}])st​ord([q,a0​,...,at−1​])。动作(Action,a t a_tat​)从剩余未检索的文本块集合A t A_tAt​中选择下一个文本块c i c_ici​。奖励(Reward)稀疏终端奖励若最终检索到的集合包含了所有支持事实Support Facts则奖励为 1否则为 0。中间步骤奖励为 0鼓励智能体规划完整路径。终止条件达到最大步数T TT或智能体选择 STOP 动作。2. 基于值的强化学习 (Value-Based RL with Soft Q-Learning)Q-RAG 采用最大熵强化学习框架使用两个独立的嵌入器来近似 Q 函数状态嵌入器 (E s E_sEs​)编码当前状态s t s_tst​查询 已选片段。动作嵌入器 (E a E_aEa​)编码候选文本块c i c_ici​及其相对位置信息。Q 值计算通过点积计算状态与动作的匹配度Q θ ( s t , c i ) ⟨ E s ( s t ; θ 1 ) , E a ( c i , ρ t ( i ) ; θ 2 ) ⟩ Q_\theta(s_t, c_i) \langle E_s(s_t; \theta_1), E_a(c_i, \rho_t(i); \theta_2) \rangleQθ​(st​,ci​)⟨Es​(st​;θ1​),Ea​(ci​,ρt​(i);θ2​)⟩策略选择使用 Boltzmann 分布根据 Q 值选择下一个文本块引入温度参数α \alphaα控制探索率。训练算法采用PQN(Projected Q-Network) 算法的变体无需经验回放缓冲区Replay Buffer支持在线策略On-Policy训练显著降低了显存占用。使用λ \lambdaλ-return 作为训练目标以提升稳定性。3. 时序推理机制 (Temporal Reasoning)针对叙事性文本中时间顺序至关重要的特点Q-RAG 设计了相对位置编码动态区间映射根据已检索到的事实片段将文档划分为多个时间区间如“在事件 A 之前”、“在事件 A 和 B 之间”。相对索引ρ t ( i ) \rho_t(i)ρt​(i)候选文本块的位置不再使用绝对索引而是映射到其相对于已选事实的区间位置。优势使模型能够理解“在找到钥匙之后发生了什么”从而在长叙事中准确定位因果链条即使上下文长达数百万 token。4. 早期停止策略 (Early Stopping)基于 Q 值阈值动态决定何时停止检索。当最大 Q 值低于设定阈值时智能体自动终止搜索避免冗余检索平衡效率与准确率。 实验结果与分析作者在多个极具挑战性的长文本基准上进行了评估上下文长度覆盖 4K 至 10M tokens。1. 超长上下文推理 SOTA (BabiLong Benchmark)任务难度BabiLong QA3 子任务需要至少 3 步推理和时序感知是公认的最难长文本任务之一。性能表现在1M 至 10M tokens的极端长度下Q-RAG 保持了96.5%以上的 F1 分数几乎无性能衰减。相比之下其他长文本模型如 Titans, Atlas, Mamba2随着长度增加性能急剧下降。对比基线Q-RAG 显著优于所有基于 LLM 微调的方法如 Search-R1和基于状态空间模型SSM的方法。2. 大海捞针与长文本 QA (RULER Benchmark)NIAH 任务在单针、多针、多值查找任务中Q-RAG 在 4K 至 1M 长度范围内均达到100%或接近 100% 的准确率。多跳 QA在多跳问答子任务中Q-RAG 的表现远超 LongRoPE2 和 Mamba2-Hybrid证明了其在复杂推理中的优势。泛化能力仅在 4K 长度数据上训练的模型直接泛化到 1M 长度时依然保持高精度展现了极强的长度外推能力。3. 开放域问答 (HotpotQA Musique)事实检索Q-RAG 的事实检索 F1 分数0.93与最强的基线 Beam-Retriever0.97相当但推理速度更快。答案生成结合 QwQ-32B 生成答案Q-RAG 在 HotpotQA 和 OOD分布外的 Musique 数据集上均取得了最佳的综合表现Avg Ans F1 0.64。效率对比Beam-Retriever 需要对每个候选轨迹进行 Transformer 重排序计算量大而 Q-RAG 仅需点积运算效率高出数个数量级。4. 资源效率与训练成本单卡训练所有实验均在 **单张 A100 **(80GB) 上完成训练时间不超过12 小时。对比同类基于 LLM 微调的方法如 Search-R1通常需要 8 张 A100 训练数天。Q-RAG 的训练成本降低了约90%。推理延迟由于仅微调嵌入器且使用向量检索推理延迟随上下文长度线性增长远优于二次方增长的 Attention 机制。 主要创新点总结**嵌入器微调范式 **(Embedder-Centric RL)首次提出仅通过强化学习微调嵌入器来实现多步检索完全解耦了检索策略与生成模型。这使得该方法可以无缝对接任何 LLM包括闭源模型极大地降低了应用门槛。**时序感知的位置编码 **(Temporal Relative Positioning)创新性地设计了基于已检索事实的动态相对位置编码使模型能够在超长叙事文本中进行精确的时序推理解决了长文本中“时间迷失”的难题。极致的长度扩展性通过在潜在空间进行向量点积搜索避免了 Transformer 的长序列计算瓶颈成功将有效上下文窗口扩展至10M tokens且性能无明显衰减。高效的训练与推理采用 PQN 算法去除回放缓冲区结合在线策略训练实现了单卡快速收敛。推理阶段利用近似最近邻搜索ANN进一步加速具备工业级落地潜力。⚠️ 局限性与挑战依赖支持事实标注目前的训练主要依赖带有支持事实Support Facts标注的数据集。对于仅有最终答案标注的数据设计有效的 LLM 反馈奖励函数仍是未来方向。分块粒度敏感性能受文本分块大小Chunk Size影响较大。过大的块可能包含噪声过小的块可能切断语义需要根据任务调整。多模态支持有限当前方法主要针对纯文本尚未深入探索图像、表格等多模态内容的联合检索。 总结与工程建议《Q-RAG》为长文本多步检索提供了一条低成本、高性能的全新路径。它证明了不需要微调庞大的 LLM只需训练一个轻量级的“导航员”嵌入器就能在千万级 token 的知识海洋中精准定位。 对开发者的实战建议构建多步检索代理不要局限于单轮检索。对于复杂问题设计一个循环机制检索 - 更新状态 - 再检索。可以使用预训练的嵌入器如 E5, Contriever作为初始化利用业务数据通过 RL 进行微调。引入相对位置编码在处理日志、故事、法律条文等强时序文本时务必在嵌入中加入相对位置信息。不仅记录“这是第几块”更要记录“这在已发现证据的前面还是后面”。低成本微调策略参考 Q-RAG 的思路冻结 LLM只训练双塔嵌入器。这不仅能节省 90% 的算力还能让你随时切换后端 LLM 而不影响检索模块。使用稀疏奖励最终答对给 1否则 0配合λ \lambdaλ-return 即可训练出优秀的策略无需复杂的稠密奖励设计。动态停止机制实现基于置信度Q 值的早停策略。当模型认为后续检索的收益低于阈值时立即停止并生成答案可显著降低平均延迟。应对超长上下文面对百万级文档不要试图一次性塞入 LLM 上下文。采用 Q-RAG 的分块 向量搜索架构将上下文压缩为几个关键的“证据片段”再交给 LLM 处理。一句话总结Q-RAG 通过“轻嵌入、重搜索”的策略以极低的训练成本实现了千万级 token 的精准多步检索是构建下一代长文本智能问答系统的核心技术。参考文献[1] Sorokin A, Buzun N, Anokhin A, et al. Q-RAG: Long Context Multi-Step Retrieval via Value-Based Embedder Training[C]//The Thirteenth International Conference on Learning Representations (ICLR). 2026.

相关文章:

【第三周】论文精读:Q-RAG: Long Context Multi-Step Retrieval via Value-Based Embedder Training

前言:在处理超长上下文(Long Context)和复杂多跳推理任务时,传统的单步检索(Single-Step Retrieval)往往力不从心,而现有的多步检索方法通常需要对大语言模型(LLM)本身进…...

M2LOrder模型加载优化:懒加载机制+缓存TTL配置降低首请求延迟

M2LOrder模型加载优化:懒加载机制缓存TTL配置降低首请求延迟 1. 问题背景与优化需求 M2LOrder情感识别系统在实际部署中面临一个关键挑战:首次请求响应延迟过高。当用户第一次访问服务时,系统需要加载并初始化情感分析模型,这个…...

LVGL图片显示全攻略:在涂鸦T5开发板上实现GUI Guider设计的炫酷界面

LVGL图片显示全攻略:在涂鸦T5开发板上实现GUI Guider设计的炫酷界面 在智能家居设备开发中,图形用户界面(GUI)的设计与实现往往是产品差异化的关键。涂鸦T5开发板作为一款功能强大的物联网开发平台,结合LVGL轻量级图形库和GUI Guider可视化设…...

N76E003烧录避坑指南:Nu-Link与ICP工具实战技巧

N76E003烧录避坑指南:Nu-Link与ICP工具实战技巧 对于嵌入式开发者而言,N76E003作为新唐科技(Nuvoton)推出的高性能8051内核微控制器,凭借其丰富的外设资源和优异的性价比,在工业控制、智能家居等领域广受欢…...

MFRC522 RFID模块原理与嵌入式驱动开发实战

1. RC522射频IC卡识别模块技术解析与嵌入式实现1.1 近场通信技术基础与MFRC522芯片定位近场通信(Near Field Communication, NFC)是一种工作在13.56MHz频段的短距离无线通信技术,其典型作用距离为0–10cm。该技术由RFID(Radio Fre…...

STM32调试踩坑记:Keil5卡在0x1FFFF3AA?BOOT引脚配置全解析

STM32调试卡死0x1FFFF3AA?BOOT引脚配置的底层逻辑与实战排查 当你满怀期待地按下Keil5的调试按钮,却发现程序卡死在0x1FFFF3AA这个神秘地址,JLINK连接正常却无法进入main()函数——这种场景对STM32开发者来说再熟悉不过。本文将从芯片启动机制…...

Alpamayo-R1-10B实战教程:webui_stderr.log错误日志5类高频问题速查表

Alpamayo-R1-10B实战教程:webui_stderr.log错误日志5类高频问题速查表 1. 项目背景与日志重要性 Alpamayo-R1-10B是专为自动驾驶研发设计的开源视觉-语言-动作(VLA)模型,其核心为100亿参数架构,配合AlpaSim模拟器与Physical AI AV数据集构成…...

Qwen3.5-9B效果展示:同一张图多轮追问下的渐进式理解演示

Qwen3.5-9B效果展示:同一张图多轮追问下的渐进式理解演示 1. 模型核心能力概览 Qwen3.5-9B作为新一代多模态大模型,在视觉理解领域展现出显著优势。该模型通过创新的架构设计,实现了对图像内容的深度理解和连贯对话能力。 核心增强特性&am…...

msvcp100.dll文件丢失不要怕 教你免费下载修复解决

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…...

MyBatis 中 `CONCAT` 函数的高级应用与性能优化

1. CONCAT函数的基础与进阶用法 MyBatis中的CONCAT函数就像数据库操作中的"胶水",能把零散的字符串片段粘合成我们需要的完整形态。我刚开始用MyBatis时,经常手动拼接Java字符串再传给SQL,直到发现这个宝藏函数才明白什么是真正的优…...

丢失MSVCP71.DLL文件下载修复 免费提供分享

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…...

Qwen-Image真实效果:交通标志识别+法规解释+安全提示生成动态演示

Qwen-Image真实效果:交通标志识别法规解释安全提示生成动态演示 1. 引言:当AI学会"看"交通标志 想象一下,当你开车经过一个陌生的交通标志时,如果能立即获得这个标志的详细解释和相关法规说明,甚至还能得到…...

Qwen-VL效果展示:Qwen-Image镜像在短视频封面图内容安全审核中的实际应用

Qwen-VL效果展示:Qwen-Image镜像在短视频封面图内容安全审核中的实际应用 1. 短视频封面审核的挑战与解决方案 在短视频平台运营中,封面图作为内容的第一印象,直接影响点击率和用户留存。然而,人工审核海量封面图存在三大痛点&a…...

数字孪生空间映射技术:基于多摄像机系统的仓储三维重建方法

数字孪生空间映射技术:基于多摄像机系统的仓储三维重建方法副标题①:矩阵视频融合 空间坐标反演 点云生成技术副标题②:应用于大规模仓储与港口堆场场景一、研究背景与技术挑战在大型仓储中心与港口堆场等场景中,空间结构与作业…...

功率MOSFET选型避坑指南:从RDS(on)到体二极管的7个隐藏参数

功率MOSFET选型避坑指南:从RDS(on)到体二极管的7个隐藏参数 在电机驱动和电源转换设计中,功率MOSFET的选型往往决定了整个系统的效率和可靠性。许多工程师习惯性地将注意力集中在导通电阻RDS(on)和最大电流ID等基础参数上,却忽略了数据手册中…...

数字孪生空间重构方法:仓储场景三维建模与空间映射技术研究

数字孪生空间重构方法:仓储场景三维建模与空间映射技术研究 副标题①:Pixel-to-Space 时空同步 动态重构技术 副标题②:面向复杂仓储环境与多设备协同场景 一、研究背景与问题定义 随着大型仓储系统向自动化、智能化与高密度运转演进&am…...

不用花几千买设备,只靠一部手机狂涨粉!

不知不觉,架构师之路视频号,从20年内测开始,到现在已经和大家一起走过了2153天。在过去的一年里,我发布了150条作品,收获了315.7W观看。2025年,视频号优秀创作者,感谢大家的认可。很多人问我&am…...

保姆级教程:在Ubuntu 20.04上为Linaro交叉编译工具链配置阿里云源并解决DNS更新报错

深度指南:Ubuntu 20.04下Linaro交叉编译环境的完整配置与疑难排解 在嵌入式开发领域,交叉编译工具链的配置往往是项目启动的第一道门槛。许多开发者都有过这样的经历:按照官方文档一步步操作,却在关键时刻遭遇网络连接失败或依赖库…...

准静态平坦衰落信道在低速移动通信中的建模与应用

1. 什么是准静态平坦衰落信道? 想象一下你在咖啡馆用手机看视频,虽然人坐着没动,但偶尔画面还是会卡顿。这种现象背后,很可能就是准静态平坦衰落信道在"搞鬼"。这种信道模型专门用来描述移动速度较慢或环境变化平缓的通…...

【CSS】优雅处理文本溢出:单行截断与省略号实战指南

1. 为什么我们需要处理文本溢出? 在日常网页开发中,经常会遇到容器宽度固定但文本内容长度不确定的情况。比如新闻标题列表、商品名称展示、用户评论预览等场景。如果不做特殊处理,过长的文本要么会撑破布局,要么会换行显示破坏设…...

BetterJoy:打破Switch控制器平台壁垒的开源解决方案

BetterJoy:打破Switch控制器平台壁垒的开源解决方案 【免费下载链接】BetterJoy Allows the Nintendo Switch Pro Controller, Joycons and SNES controller to be used with CEMU, Citra, Dolphin, Yuzu and as generic XInput 项目地址: https://gitcode.com/gh…...

Janus-Pro-7B处理复杂“计算机网络”问题:模拟抓包分析与故障诊断

Janus-Pro-7B处理复杂“计算机网络”问题:模拟抓包分析与故障诊断 最近在测试一些大模型的专业能力,我特意找了个挺有挑战性的计算机网络问题来试试水。问题场景是这样的:一个内部服务调用外部API时,TCP连接总是莫名其妙地反复建…...

3步破解IT资产管理困境:Snipe-IT开源系统实战手册

3步破解IT资产管理困境:Snipe-IT开源系统实战手册 【免费下载链接】snipe-it A free open source IT asset/license management system 项目地址: https://gitcode.com/GitHub_Trending/sn/snipe-it 在数字化办公环境中,企业IT资产的全生命周期管…...

Clawdbot私有Chat平台搭建:Qwen3:32B大模型,一键启动免运维

Clawdbot私有Chat平台搭建:Qwen3:32B大模型一键启动免运维指南 1. 为什么选择私有化Chat平台 在当今企业环境中,数据安全和隐私保护变得越来越重要。许多团队在使用公有云AI服务时面临三大痛点: 数据安全顾虑:敏感业务讨论和机…...

智能体是什么?有什么用?

前言:到底什么是AI智能体?如果说大模型是人工智能的大脑,那么智能体(AI Agent)就是拥有大脑、能独立思考、能执行任务、能自主行动的超级助手。它不再是你问一句、它答一句的“聊天机器人”,而是可以接收目…...

AI大模型是什么?有什么用?

前言:到底什么是大模型?如果说深度学习是AI的“大脑”,那么大模型就是当前最强大、最通用、最颠覆认知的超级大脑。我们日常接触的ChatGPT、文心一言、GPT-4、通义千问、Claude、Gemini,全部属于大模型。用最简单的话定义&#xf…...

Realistic Vision V5.1显存优化部署教程:gc.collect()+CUDA缓存清理实操

Realistic Vision V5.1显存优化部署教程:gc.collect()CUDA缓存清理实操 1. 项目概述 Realistic Vision V5.1是目前SD 1.5生态中最强大的写实风格模型之一,能够生成媲美专业单反相机拍摄的人像照片。本教程将重点介绍如何通过显存优化技术,在…...

保姆级教程:ANIMATEDIFF PRO电影级渲染工作站从零部署到实战

保姆级教程:ANIMATEDIFF PRO电影级渲染工作站从零部署到实战 1. 引言:从文字到电影,你的专属AI导演已就位 你有没有过这样的时刻?脑海里闪过一个绝美的画面——也许是未来都市的霓虹雨夜,也许是森林深处精灵起舞的瞬…...

基于博途西门子1200PLC与HMI数码管显示的停车场车辆数实时控制仿真系统——掌握自加自减指...

基于博途西门子1200PLCHMI数码管显示停车场车辆数目的控制仿真系统 程序:掌握自加、自减指令,数组表示数码管数字显示的使用方法 博途V16HMI给想做停车场控制系统程序的朋友参考,可直接模拟运行 学习梯形图入门逻辑,SCL语言入门逻…...

零成本建站实战指南 — 从freehost免费主机到HTML页面部署

1. 为什么选择freehost免费主机? 对于刚接触网站搭建的新手来说,最大的障碍往往不是技术本身,而是前期投入成本。我见过太多人因为担心服务器费用而迟迟不敢动手实践,结果错过了最佳学习时机。freehost免费主机恰好解决了这个痛点…...