当前位置: 首页 > article >正文

ICLR 2026 Oral | Q-RAG:当大家都在训练大模型学会搜索,它却选择训练检索器

最近看到一篇很有意思的工作:Q-RAG: Long Context Multi-Step Retrieval via Value-Based Embedder Training。这篇论文最吸引我的地方,不是它又做了一个“更复杂的 Agent RAG”,而是它提出了一个非常反直觉、但又非常实用的思路:当很多工作都在强化学习微调 LLM,让大模型学会搜索时,Q-RAG 选择不训练 LLM,而是直接训练检索器本身。换句话说,它把“多步检索”这件事,当成一个强化学习问题来做,但优化对象不是生成模型,而是embedder / retriever。这使得它在训练成本、推理效率和超长上下文扩展性上,都展现出很强的优势。论文:Q-RAG: Long Context Multi-Step Retrieval via Value-Based Embedder Training论文地址:https://arxiv.org/pdf/2511.07328代码仓库:https://github.com/griver/Q-RAG一、为什么还需要多步检索?传统 RAG 的典型流程是:给定问题从知识库里检索 top-k 文档或片段把检索结果拼接给 LLM由 LLM 生成答案这个范式在很多任务上都很有效,但它有一个明显前提:一次检索就能把关键证据找齐。问题在于,现实中的很多复杂问题并不是这样。比如:多跳问答:需要先找到 A,再根据 A 找到 B,最后由 B 推出答案时间推理:不仅要找相关事实,还要判断哪个事件在前、哪个事件在后超长叙事理解:在几百万甚至上千万 token 的长上下文中,单次 top-k 检索很容易漏掉关键链条也就是说,很多问题其实需要的不是“单步命中”,而是:先找第一条线索,再根据当前证据继续找下一条线索。这就是multi-step retrieval(多步检索)的意义。二、现有多步 RAG 主要有哪几条路?论文把现有方法大致分成了几类。1. 图结构 / 知识图谱路线有些方法会先从文档里构图,再在图上推理。这类方法的优点是结构化强,但缺点也明显:构图成本高推理时慢长上下文下很难高效扩展2. Agent + LLM 路线这类方法会让 LLM 像 Agent 一样,一步步生成中间查询,再不断调用检索器。这种方式很灵活,但它有一个问题:一旦前面某一步检索错了,后面生成的查询也可能被带偏。也就是说,系统对噪声检索结果比较敏感。3. 强化学习微调 LLM 路线最近一些工作会直接训练 LLM,让它在推理过程中学会更好地调用搜索工具。这种方法效果通常不错,但代价也高:训练成本高依赖大规模算力很难让普通研究者或中小团队复现不利于和更大的闭源模型灵活组合三、Q-RAG 的核心思路:不训练 LLM,训练检索器Q-RAG 的关键思想非常明确:既然多步检索本质上是一个序列决策问题,那就直接把“检索”建模成强化学习。但强化学习训练的不是 LLM,而是 embedder。这一步很巧。因为它回避了大模型 RL 微调最昂贵的部分,把复杂度转移到了更轻量的检索器上。这带来三个非常现实的好处:1. 训练成本低相比 RL 微调大模型,只训练 embedder 要便宜得多。2. 可以搭配任意 LLM由于它不依赖特定 LLM 的微调,所以训练好的检索器可以和各种模型配合:开源模型商业闭源模型大模型 API3. 推理速度更快它不是让一个大型 reranker 或生成模型反复处理轨迹,而是尽量把多步决策建立在 embedding 空间里完成。这点对长上下文尤其重要。四、Q-RAG 到底是怎么工作的?如果用一句最直白的话概括:Q-RAG 把“从长文档中逐步找证据”这件事,看成一个智能体在环境中逐步选动作。1. 状态是什么?在第 (t) 步,状态由两部分组成:初始 query之前已经检索到的 chunk而且这些 chunk 会按照它们在原文中的顺序重新排列,避免顺序歧义。所以状态不是“模型脑海中的隐藏状态”,而是一个非常具体的证据集合:st=[q,a0,a1,…,at−1] s_t = [q, a_0, a_1, \dots, a_{t-1}]st​=[q,

相关文章:

ICLR 2026 Oral | Q-RAG:当大家都在训练大模型学会搜索,它却选择训练检索器

最近看到一篇很有意思的工作:Q-RAG: Long Context Multi-Step Retrieval via Value-Based Embedder Training。 这篇论文最吸引我的地方,不是它又做了一个“更复杂的 Agent RAG”,而是它提出了一个非常反直觉、但又非常实用的思路: 当很多工作都在强化学习微调 LLM,让大模…...

从零搭建高安全低代码表单系统,手把手实现JWT动态权限校验+防CSRF提交+审计日志闭环,7天交付标准SaaS组件

第一章:从零构建高安全低代码表单系统概览 高安全低代码表单系统并非传统表单引擎的简单封装,而是融合身份鉴权、字段级加密、动态权限策略与不可篡改审计能力的一体化平台。其核心目标是在显著降低前端开发门槛的同时,满足金融、政务等强监管…...

【Day 10 Java转Python】@property——把方法当属性用,Python的封装艺术

Java老兵写Python时最常问的问题:“私有字段呢?getter和setter呢?没有这些,封装还叫封装吗?” 别急,Python告诉你:封装不是为了写一堆getXxx()/setXxx(),而是为了在需要时优雅地插入…...

华中科技大学本科毕业论文LaTeX模板完整使用指南:快速上手终极教程

华中科技大学本科毕业论文LaTeX模板完整使用指南:快速上手终极教程 【免费下载链接】HUSTPaperTemp 华中科技大学本科毕业论文LaTeX模板 2017 项目地址: https://gitcode.com/gh_mirrors/hu/HUSTPaperTemp 对于华中科技大学的本科生来说,毕业论文…...

Ofd2Pdf完整指南:3种高效方法实现OFD到PDF的无损转换

Ofd2Pdf完整指南:3种高效方法实现OFD到PDF的无损转换 【免费下载链接】Ofd2Pdf Convert OFD files to PDF files. 项目地址: https://gitcode.com/gh_mirrors/ofd/Ofd2Pdf OFD(Open Fixed-layout Document)作为我国自主研发的电子文档…...

openclaw平替之nanobot源码解析(七):Gateway与多渠道集成腾

背景 StreamJsonRpc 是微软官方维护的用于 .NET 和 TypeScript 的 JSON-RPC 通信库,以其强大的类型安全、自动代理生成和成熟的异常处理机制著称。在 HagiCode 项目中,为了通过 ACP (Agent Communication Protocol) 与外部 AI 工具(如 iflow …...

CAGE vs RNA-seq:两种转录组测序技术的深度对比

在选择转录组测序方案时,你是否也在 CAGE 和 RNA-seq 之间犹豫?本文带你深入了解两种技术的核心差异与各自优势。转录组测序是功能基因组学研究的核心技术。在众多技术中,CAGE(Cap Analysis of Gene Expression)和RNA-…...

终极指南:如何免费使用Cursor Pro AI编程助手完整教程

终极指南:如何免费使用Cursor Pro AI编程助手完整教程 【免费下载链接】cursor-free-vip [Support 0.45](Multi Language 多语言)自动注册 Cursor Ai ,自动重置机器ID , 免费升级使用Pro 功能: Youve reached your tri…...

终极命令行工具:如何用BaiduPCS-Go高效管理百度网盘文件

终极命令行工具:如何用BaiduPCS-Go高效管理百度网盘文件 【免费下载链接】BaiduPCS-Go iikira/BaiduPCS-Go原版基础上集成了分享链接/秒传链接转存功能 项目地址: https://gitcode.com/GitHub_Trending/ba/BaiduPCS-Go 在当今数据驱动的时代,高效…...

跨境电商研发团队文件外发安全管控

我有个朋友在深圳做跨境电商,主要卖智能家居产品到北美。上个月他跟我说了件差点让他丢大客户的事—— 他们的研发文件从来都是"谁需要找谁要",邮件、微信、U盘,什么渠道都有。有一天,研发部把一批新款智能锁的固件代码…...

Mem Reduct终极指南:三步解决电脑卡顿,高效释放内存空间

Mem Reduct终极指南:三步解决电脑卡顿,高效释放内存空间 【免费下载链接】memreduct Lightweight real-time memory management application to monitor and clean system memory on your computer. 项目地址: https://gitcode.com/gh_mirrors/me/memr…...

10分钟训练高质量AI音色:RVC变声器实战指南

10分钟训练高质量AI音色&#xff1a;RVC变声器实战指南 【免费下载链接】Retrieval-based-Voice-Conversion-WebUI Easily train a good VC model with voice data < 10 mins! 项目地址: https://gitcode.com/GitHub_Trending/re/Retrieval-based-Voice-Conversion-WebUI …...

Anaconda Navigator打不开?三步搞定‘str‘ object has no attribute ‘get‘报错(附详细文件修改指南)

Anaconda Navigator启动报错深度修复指南&#xff1a;从原理到实战 当你满心期待地双击Anaconda Navigator图标&#xff0c;准备开始一天的数据分析工作&#xff0c;却迎面撞上"str object has no attribute get"这个晦涩的错误提示——这种挫败感我太熟悉了。作为P…...

Mi-Create:小米手表表盘设计的终极免费工具完整指南

Mi-Create&#xff1a;小米手表表盘设计的终极免费工具完整指南 【免费下载链接】Mi-Create Unofficial watchface creator for Xiaomi wearables ~2021 and above 项目地址: https://gitcode.com/gh_mirrors/mi/Mi-Create 还在为小米手表找不到心仪表盘而烦恼吗&#x…...

终极电路设计解决方案:如何用Draw.io ECE库高效绘制专业电路图

终极电路设计解决方案&#xff1a;如何用Draw.io ECE库高效绘制专业电路图 【免费下载链接】Draw-io-ECE Custom-made draw.io-shapes - in the form of an importable library - for drawing circuits and conceptual drawings in draw.io. 项目地址: https://gitcode.com/g…...

BepInEx完整指南:3步掌握Unity游戏插件注入技术

BepInEx完整指南&#xff1a;3步掌握Unity游戏插件注入技术 【免费下载链接】BepInEx Unity / XNA game patcher and plugin framework 项目地址: https://gitcode.com/GitHub_Trending/be/BepInEx BepInEx是一个功能强大的Unity游戏插件框架&#xff0c;专为Mono、IL2C…...

团队协作痛点怎么破?高安全性与高性价比企业云盘深度对比

近日&#xff0c;众多小微企业、创业团队与个人工作室在寻求高效协同工具时迎来了利好——随着2026年企业级SaaS市场的进一步成熟&#xff0c;以坚果云为代表的高性能企业网盘正以极高的性价比和专业度&#xff0c;解决着企业“数据安全与便捷协作”两大核心痛点。 为了帮助企…...

HoRain云--Flask中间件与扩展全解析

&#x1f3ac; HoRain云小助手&#xff1a;个人主页 &#x1f525; 个人专栏: 《Linux 系列教程》《c语言教程》 ⛺️生活的理想&#xff0c;就是为了理想的生活! ⛳️ 推荐 前些天发现了一个超棒的服务器购买网站&#xff0c;性价比超高&#xff0c;大内存超划算&#xff01;…...

跨平台协作:Windows主机+Mac笔记本共享Qwen3.5-9B实例

跨平台协作&#xff1a;Windows主机Mac笔记本共享Qwen3.5-9B实例 1. 项目背景与需求 去年开始使用OpenClaw进行个人自动化任务时&#xff0c;我遇到了一个典型的多设备协同问题&#xff1a;主力开发机是Windows台式机&#xff08;32GB内存RTX 3090&#xff09;&#xff0c;但…...

PyTorch 2.8虚拟机开发环境:VMware中配置Ubuntu并连接云端GPU

PyTorch 2.8虚拟机开发环境&#xff1a;VMware中配置Ubuntu并连接云端GPU 1. 为什么选择这种开发方式&#xff1f; 对于深度学习开发者来说&#xff0c;本地开发环境配置往往是个头疼的问题。特别是当你的笔记本显卡性能有限&#xff0c;又不想完全依赖云端开发时&#xff0c…...

【AI原生开发范式革命指南】:20年架构师亲授从Spring Boot到LLM-Ops的5大跃迁路径

第一章&#xff1a;从传统开发到AI原生&#xff1a;软件研发范式革命 2026奇点智能技术大会(https://ml-summit.org) 软件研发正经历一场静默却深刻的范式迁移——从以人类编写确定性逻辑为核心的传统工程模式&#xff0c;转向以提示工程、模型调用与反馈闭环为基座的AI原生架…...

Kandinsky-5.0-I2V-Lite-5s环境部署详解:JDK与依赖库的完整安装配置

Kandinsky-5.0-I2V-Lite-5s环境部署详解&#xff1a;JDK与依赖库的完整安装配置 1. 准备工作 在开始部署Kandinsky-5.0-I2V-Lite-5s之前&#xff0c;我们需要确保服务器具备运行该模型所需的基础环境。这个由文本生成视频的AI模型需要特定的Java运行环境和视频处理工具才能正…...

3步解放你的华硕笔记本:G-Helper轻量控制工具完全指南

3步解放你的华硕笔记本&#xff1a;G-Helper轻量控制工具完全指南 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Strix, Sc…...

League Akari:如何让英雄联盟游戏体验更智能高效?

League Akari&#xff1a;如何让英雄联盟游戏体验更智能高效&#xff1f; 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power &#x1f680;. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 您是否曾经在英雄联盟…...

千问3.5-9B MATLAB科学计算辅助:算法解释与代码转换

千问3.5-9B MATLAB科学计算辅助&#xff1a;算法解释与代码转换 1. 为什么MATLAB用户需要AI助手 MATLAB在科学计算领域占据重要地位&#xff0c;但工程师和研究人员经常面临两个核心痛点&#xff1a;理解复杂算法原理的困难&#xff0c;以及跨平台代码迁移的繁琐。传统方式下…...

再次革新 .NET 的构建和发布方式(三)僚

1 安装与初始化 # 全局安装 OpenSpec npm install -g fission-ai/openspeclatest # 在项目目录下初始化 cd /path/to/your-project openspec init 初始化时&#xff0c;OpenSpec 会提示你选择使用的 AI 工具&#xff08;Claude Code、Cursor、Trae、Qoder 等&#xff09;。 3 O…...

2026年AI应用开发完整路线:Java后端+Python大模型,少走2年弯路

文章强调AI应用开发需Java后端与Python并重&#xff0c;78%企业招聘要求Java后端知识。提供三条学习路线&#xff1a;Java后端基础、Java AI进阶、Python大模型实战。针对不同人群给出精准建议&#xff0c;指出跳过后端直接学Python是最大误区。掌握JavaPython的复合型工程师薪…...

软考高项通关秘籍:手把手教你用Excel打造需求跟踪矩阵(附模板下载)

软考高项实战指南&#xff1a;用Excel构建需求跟踪矩阵的7个关键步骤 在项目管理领域&#xff0c;需求跟踪矩阵就像是一张精准的导航地图&#xff0c;它能确保项目团队从需求源头到最终交付物始终保持正确的航向。对于备考软考高项&#xff08;信息系统项目管理师&#xff09;的…...

顶级开发团队设计的Harness工程项目源码什么样

顶级开发团队设计的Harness工程项目源码什么样 前言 近期,某顶级 AI Agent]研究团队的一个工业级 Harness 项目源码在开发者社区中引起广泛关注。这个项目是一个基于 TypeScript 的 CLI 形态 AI Coding Agent,其工程规模和架构成熟度令社区印象深刻: “REPL.tsx 单文件 87…...

JPEXS Free Flash Decompiler架构集成与系统对接实施指南

JPEXS Free Flash Decompiler架构集成与系统对接实施指南 【免费下载链接】jpexs-decompiler JPEXS Free Flash Decompiler 项目地址: https://gitcode.com/gh_mirrors/jp/jpexs-decompiler JPEXS Free Flash Decompiler&#xff08;FFDec&#xff09;作为业界领先的Fla…...