当前位置: 首页 > article >正文

【第三周】论文精读:MergePRAG: Orthogonal Merging of Passage-experts for Multi-hop Parametric RAG

【论文精读】MergePRAG: Orthogonal Merging of Passage-experts for Multi-hop Parametric RAG前言检索增强生成RAG虽能缓解大模型知识滞后问题但传统的“上下文注入”方式面临长文本效率低、噪声敏感及知识冲突等挑战。参数化 RAGPRAG通过将检索内容转化为模型参数更新提供了一种新范式但现有 PRAG 方法仅局限于单步检索无法应对需要多轮推理的复杂多跳问答Multi-hop QA。来自韩国全北大学与 UNIST 的研究团队提出了MergePRAG这是首个将 PRAG 扩展至多跳场景的通用框架。该方法创新性地引入了正交持续合并机制基于 Gram-Schmidt 过程以消除多轮检索间的知识冲突并采用关键层参数化策略仅更新特定层以提升效率。实验表明MergePRAG 在 HotpotQA、2WikiMultihopQA 等多个基准上显著优于传统 RAG 及现有参数化方法实现了效果与效率的双重突破。 论文基本信息项目内容论文标题MergePRAG: Orthogonal Merging of Passage-experts for Multi-hop Parametric RAG核心方法名MergePRAG (Orthogonal Continual Merging)作者Xuebing Liu, Shanbao Qiao, Roseline Nyange, Dongwook Min, Hyun Kim, Seung-Hoon Na所属机构Jeonbuk National University, UNIST, ETRI (South Korea)发表年份2026 (ICLR Conference Paper)核心领域Multi-hop RAG, Parametric Knowledge Adaptation, Orthogonal Merging, Model Editing关键数据集HotpotQA, 2WikiMultihopQA, MuSiQue, MQuAKE代码开源GitHub - Liu-Xuebing/MhQA_hypernetwork 研究背景与痛点1. 传统 RAG 的三大瓶颈上下文窗口限制与效率随着检索段落增多输入长度爆炸式增长导致推理延迟高且显存占用大。噪声敏感性无关或错误的检索段落会严重干扰模型生成导致幻觉或答案错误。知识冲突检索到的外部知识与模型内部参数知识可能发生冲突模型难以权衡。2. 现有 PRAG 方法的局限单步限制现有的参数化 RAG如 PRAG, DyPRAG仅处理单次检索无法适应多跳问答中“检索→推理→再检索”的迭代过程。简单合并的缺陷若直接将多轮检索生成的参数简单相加或平均会导致知识干扰Interference即新知识的更新覆盖或扭曲了旧知识造成性能下降。3. MergePRAG 的核心洞察持续学习视角将多跳检索视为一个持续学习过程每一跳检索到的段落都是一个新的“专家”需要无损地合并到现有模型中。正交性原理利用Gram-Schmidt 正交化过程确保新加入的参数分量与已有参数子空间正交从而最小化冲突保留互补信息。关键层效应并非所有层都需要更新仅在特定的“关键层”注入知识即可高效编码外部信息。️ 核心方法MergePRAG 架构详解MergePRAG 的工作流程分为三个核心阶段子问题分解与检索、超网络参数化、正交持续合并。1. 多跳推理流程 (Multi-hop Reasoning Loop)对于复杂查询q qq系统迭代执行以下步骤直到生成最终答案子问题生成基于当前推理链C t − 1 C_{t-1}Ct−1​生成下一个子问题s q t sq_tsqt​。检索检索相关段落集合S P t SP_tSPt​。参数化通过超网络H ϕ H_\phiHϕ​将段落转化为 LoRA 风格的参数Key-Value Memory。合并与注入将新参数与历史累积参数进行正交合并注入到基座模型的关键层生成子答案s a t sa_tsat​。更新上下文将( s q t , s a t ) (sq_t, sa_t)(sqt​,sat​)加入推理链进入下一轮。2. 超网络参数化 (Hypernetwork-based Parameterization)架构使用一个轻量级 Transformer 编码器 MLP 作为超网络H ϕ H_\phiHϕ​。功能输入检索段落p pp输出该段落专属的Key-Value 记忆矩阵{ K p , V p } \{K_p, V_p\}{Kp​,Vp​}。注入方式在基座模型的 FFN 层引入记忆注意力机制Memory Attention将K p , V p K_p, V_pKp​,Vp​作为额外的 Key-Value 对让模型在计算时“关注”这些外部知识。Output MLP ( x ) Attention ( MLP ( x ) , K p , V p ) \text{Output} \text{MLP}(x) \text{Attention}(\text{MLP}(x), K_p, V_p)OutputMLP(x)Attention(MLP(x),Kp​,Vp​)3. 正交持续合并机制 (Orthogonal Continual Merging)这是 MergePRAG 的核心创新用于解决多轮检索中的知识冲突。问题定义设W t − 1 F W_{t-1}^FWt−1F​为前t − 1 t-1t−1轮累积的合并参数W t W_tWt​为第t tt轮新生成的参数。直接相加W t − 1 F W t W_{t-1}^F W_tWt−1F​Wt​会导致冗余和冲突。Gram-Schmidt 正交化计算W t W_tWt​在W t − 1 F W_{t-1}^FWt−1F​张成子空间上的投影矩阵P t − 1 P_{t-1}Pt−1​。提取W t W_tWt​的正交残差分量( I − P t − 1 ) W t (I - P_{t-1})W_t(I−Pt−1​)Wt​。更新公式W t F W t − 1 F ( I − P t − 1 ) W t W_t^F W_{t-1}^F (I - P_{t-1})W_tWtF​Wt−1F​(I−Pt−1​)Wt​优势只添加新知识中未被旧知识包含的部分既避免了重复又防止了新参数破坏旧参数的结构实现了无损的知识累积。4. 关键层参数化 (Critical-Layer Parameterization)发现通过逐层困惑度Perplexity扫描实验发现外部知识注入到模型的早中期层Early-to-Middle Layers效果最佳。策略仅选择一个最优层l ∗ l^*l∗进行参数注入其余层保持冻结。收益大幅降低了计算开销和显存占用同时稳定了推理过程。 实验结果与分析作者在 HotpotQA, 2WikiMultihopQA, MuSiQue 等多跳 QA 基准及 MQuAKE 知识编辑任务上进行了评估。1. 多跳问答 SOTA 性能全面领先在 LLaMA3.1-8B 和 Qwen2.5-7B 上MergePRAG结合少量上下文在 EM 和 F1 指标上均显著优于 RAG-CoT, IRCoT, FLARE 等传统方法及 PRAG, DyPRAG 等参数化基线。**HotpotQA **(LLaMA3.1-8B): MergePRAG 取得52.4% EM / 60.7% F1远超 RAG-CoT (43.7% / 50.4%)。2WikiMultihopQA: 提升更为显著EM 从基线的 36.2% 提升至73.2%。超越微调相比直接在数据上微调Fine-tuningMergePRAG 不仅效果更好还保留了模型的通用能力避免了灾难性遗忘。2. 消融实验关键发现正交合并的必要性相比简单的算术平均合并Arithmetic Mean正交合并Orthogonal Merging在 EM 指标上额外提升了1%~2.4%。在检索段落数较多∣ S P ∣ 1 |SP| 1∣SP∣1时正交合并的优势更加明显证明其能有效处理复杂知识冲突。关键层选择仅更新第 7-9 层取决于模型和数据集即可达到最佳效果全层更新不仅慢且收益不明显。KV 向量数量增加每个段落生成的 KV 向量数量k kk能持续提升性能表明更大的记忆容量有助于捕捉更丰富的细节。3. 知识编辑能力 (MQuAKE)在多跳知识编辑任务中MergePRAG 展现了极强的事实更新能力EM 分数达到50.3%MQuAKE-CF远超 MeLLo (32.9%) 和 RAG (4.5%)证明了其参数化注入在修改模型内部知识方面的有效性。4. 效率分析推理延迟虽然涉及多步推理但由于仅更新关键层且超网络轻量MergePRAG 的总耗时仍低于依赖长 Chain-of-Thought 的 RAG-CoT 方法。显存占用关键层策略使得显存开销几乎与单步 RAG 持平远小于全参数微调。 主要创新点总结首创多跳参数化 RAG 框架打破了 PRAG 仅限单步的限制提出了一套完整的迭代检索与参数累积方案填补了参数化方法与复杂推理任务之间的空白。正交持续合并算法首次将Gram-Schmidt 正交化引入 RAG 的参数合并过程从数学层面保证了多轮知识注入的独立性与兼容性解决了“新知识覆盖旧知识”的难题。关键层注入策略通过实证研究定位了外部知识注入的“黄金层”以极小的计算代价实现了最大的性能增益为高效 RAG 提供了新思路。通用性与兼容性该方法不依赖特定模型架构可无缝应用于 LLaMA, Qwen 等主流模型且支持与原始上下文检索RAG混合使用MergePRAG进一步榨取性能上限。⚠️ 局限性与挑战子问题生成依赖整体效果高度依赖于子问题生成器Sub-question Generator的质量。如果第一步分解错误会导致后续检索和参数注入的连锁错误Error Propagation。超网络训练成本虽然推理高效但需要针对特定基座模型训练一个专用的超网络H ϕ H_\phiHϕ​这在某些资源受限场景下可能是一个门槛。长序列记忆压缩目前每个段落被压缩为固定数量的 KV 向量对于极长或信息密度极高的文档可能存在信息丢失风险。 总结与工程建议《MergePRAG》展示了参数化 RAG 在处理复杂多跳推理时的巨大潜力。它证明了通过将外部知识“内化”为模型参数并利用正交数学工具管理知识冲突可以构建出比传统上下文拼接更高效、更精准的问答系统。 对开发者的实战建议尝试参数化注入对于对延迟敏感或上下文窗口受限的场景考虑使用类似 PRAG 的思路训练一个小超网络将检索结果转化为模型偏置Bias或 LoRA 权重而非直接拼接到 Prompt 中。实施正交合并如果你的应用涉及多轮对话或多步检索务必在合并多组参数时使用正交投影Gram-Schmidt技术避免简单相加导致的性能退化。定位关键层不要盲目更新所有层。可以通过小样本测试扫描不同层注入知识后的困惑度变化找到最适合你任务的1-2 个关键层进行更新这将极大提升推理速度。混合增强策略采用MergePRAG模式既将知识注入参数又在 Prompt 中保留少量关键原文。这种“内外兼修”的策略通常能取得最佳鲁棒性。关注子问题分解多跳系统的瓶颈往往在第一步。投入资源优化子问题生成器如使用更强的 LLM 进行蒸馏能显著提升整个链条的准确率。一句话总结MergePRAG 通过“正交合并”巧妙解决了多轮知识注入的冲突问题以关键层更新的轻量化设计实现了多跳问答中效果与效率的完美平衡是下一代高性能 RAG 系统的重要参考架构。参考文献[1] Liu X, Qiao S, Nyange R, et al. MergePRAG: Orthogonal Merging of Passage-experts for Multi-hop Parametric RAG[C]//The Thirteenth International Conference on Learning Representations (ICLR). 2026.

相关文章:

【第三周】论文精读:MergePRAG: Orthogonal Merging of Passage-experts for Multi-hop Parametric RAG

【论文精读】MergePRAG: Orthogonal Merging of Passage-experts for Multi-hop Parametric RAG 前言:检索增强生成(RAG)虽能缓解大模型知识滞后问题,但传统的“上下文注入”方式面临长文本效率低、噪声敏感及知识冲突等挑战。参数…...

基于STM32的教室智能窗帘嵌入式控制系统设计

1. 项目概述1.1 系统设计目标与应用场景教室作为高频使用的教学空间,其光环境质量直接影响学生视觉舒适度、注意力集中程度及长期用眼健康。传统机械式窗帘存在操作滞后、调节粗放、无法响应动态光照变化等固有缺陷。本系统面向中小型标准教室(面积≤60㎡…...

Trelby零基础入门指南:从核心功能到高效配置

Trelby零基础入门指南:从核心功能到高效配置 【免费下载链接】trelby The free, multiplatform, feature-rich screenwriting program! 项目地址: https://gitcode.com/gh_mirrors/tr/trelby 如何通过核心功能模块实现专业剧本创作? 痛点直击&am…...

unrpa工具全方位使用指南:从入门到精通

unrpa工具全方位使用指南:从入门到精通 【免费下载链接】unrpa A program to extract files from the RPA archive format. 项目地址: https://gitcode.com/gh_mirrors/un/unrpa 一、认知:揭开unrpa的神秘面纱 工具定位与核心价值 unrpa是一款专…...

突破传统目标检测局限:GroundingDINO开放式视觉理解实践指南

突破传统目标检测局限:GroundingDINO开放式视觉理解实践指南 【免费下载链接】GroundingDINO 论文 Grounding DINO: 将DINO与基于地面的预训练结合用于开放式目标检测 的官方实现。 项目地址: https://gitcode.com/GitHub_Trending/gr/GroundingDINO 在计算机…...

GLM-OCR在AIGC内容创作流水线中的应用:从图片素材到文案生成

GLM-OCR在AIGC内容创作流水线中的应用:从图片素材到文案生成 1. 引言 你有没有遇到过这样的情况:看到一张设计精美的海报,或者一份产品介绍图,觉得里面的文案写得特别好,想借鉴一下,但只能一个字一个字地…...

Nanbeige4.1-3B参数详解:bfloat16精度在推理速度与显存占用间的平衡

Nanbeige4.1-3B参数详解:bfloat16精度在推理速度与显存占用间的平衡 如果你正在寻找一个既能在个人电脑上流畅运行,又具备强大推理和对话能力的大语言模型,那么Nanbeige4.1-3B绝对值得你花时间了解。它只有30亿参数,却能在很多任…...

Go vs Java:终极性能对决

好的,我们来详细比较一下 Go 语言(Golang)和 Java 的主要区别:1. 设计理念与起源Java: 诞生于 1995 年,目标是“一次编写,到处运行”(通过 JVM),强调面向对象编程&#x…...

【OpenClaw 全面解析:从零到精通】第 017 篇:OpenClaw 自定义 Skill 开发指南——从零构建你的第一个专属技能

系列说明:本系列共计 20 篇,全面介绍 OpenClaw 开源 AI 智能体框架,从历史背景到核心原理,从安装部署到应用生态。本文为系列第 017 篇,聚焦于 OpenClaw 自定义 Skill 的开发方法,手把手带你构建并发布专属…...

PP-DocLayoutV3开发利器:使用IDEA进行模型调试与二次开发指南

PP-DocLayoutV3开发利器:使用IDEA进行模型调试与二次开发指南 你是不是刚接触PP-DocLayoutV3这个文档版面分析模型,想自己动手改点东西,或者想看看它内部是怎么运行的?面对一堆源码和依赖,是不是感觉有点无从下手&…...

RT-Thread嵌入式RTOS系统性学习路径与工程实践

1. 项目概述 本系列技术文档并非硬件设计项目,而是一套面向嵌入式开发者的 RT-Thread 实时操作系统(RTOS)系统性学习路径。其核心目标是为具备基础 C 语言与单片机开发经验的工程师提供一条可验证、可复现、工程导向的入门通道。区别于泛泛而…...

MogFace人脸检测模型WebUI技术生态:从Transformer看AI模型发展趋势

MogFace人脸检测模型WebUI技术生态:从Transformer看AI模型发展趋势 最近在折腾人脸检测相关的项目,发现了一个挺有意思的现象。过去几年,像MogFace这类基于CNN(卷积神经网络)的模型在工业界可以说是遍地开花&#xff…...

当scGPT遇上空间坐标:如何为你的Transformer模型注入位置信息(附实战代码)

当scGPT遇见空间坐标:Transformer模型中的位置编码创新实践 1. 空间转录组与Transformer的融合挑战 单细胞空间转录组技术正在彻底改变我们对组织微环境的理解。传统的单细胞RNA测序丢失了细胞在原始组织中的空间位置信息,而空间转录组技术则能同时捕获基…...

别再手动拖拽.unitypackage了!Unity 2022+ UPM包管理保姆级入门与实战避坑指南

Unity 2022 UPM包管理革命:告别.unitypackage的五大理由与实战进阶 1. 传统.unitypackage的痛点与UPM的崛起 十年前,当Unity开发者第一次从Asset Store下载资源时,那个熟悉的.unitypackage格式就像圣诞老人扔进烟囱的礼物包。双击导入&#x…...

Qwen-Image-Edit-2511-Unblur-Upscale作品集:看AI如何修复模糊图片

Qwen-Image-Edit-2511-Unblur-Upscale作品集:看AI如何修复模糊图片 1. 模糊图片修复技术的新突破 在数字图像处理领域,模糊图片的修复一直是个技术难题。传统方法往往难以在去模糊的同时保持图像的自然感和细节。Qwen-Image-Edit-2511-Unblur-Upscale模…...

Whisper-large-v3步骤详解:从requirements.txt安装到app.py启动全链路

Whisper-large-v3步骤详解:从requirements.txt安装到app.py启动全链路 你是不是也遇到过这种情况?手里有一段重要的会议录音,或者一段外语视频,想要快速转换成文字,却找不到一个好用的工具。手动听写?效率…...

UNet与YOLOv8-seg对比:医疗影像分割该选哪个?实测结果出乎意料

UNet与YOLOv8-seg深度对比:医疗影像分割的黄金选择 医疗影像分割技术正在经历前所未有的变革,从传统的阈值分割到如今的深度学习驱动,算法选择成为决定诊断精度的关键因素。在众多解决方案中,UNet和YOLOv8-seg代表了两种截然不同的…...

CHORD-X视觉战术指挥系统数据库课程设计参考:战术信息管理系统

CHORD-X视觉战术指挥系统数据库课程设计参考:战术信息管理系统 1. 项目背景与目标 如果你正在为数据库课程设计寻找一个既有技术深度又有实际应用价值的项目,那么这个基于“CHORD-X视觉战术指挥系统”的战术信息管理系统,或许能给你带来不少…...

别再只盯着.php了:盘点那些容易被遗漏的WebShell“马甲”扩展名(.phtml、.php5、.htaccess实战解析)

Web安全防御进阶:那些被忽视的WebShell扩展名与实战防护策略 在Web应用安全领域,文件上传功能一直是攻防对抗的前沿阵地。当大多数开发者将注意力集中在常见的.php、.jsp等脚本文件检测时,攻击者早已转向更隐蔽的渗透路径。本文将从服务器配置…...

家用电器触控升级:电容式触摸IC如何让弹簧按键更灵敏(附SC01-SC12B选型指南)

家用电器触控升级:电容式触摸IC如何让弹簧按键更灵敏(附SC01-SC12B选型指南) 在智能家居设备快速迭代的今天,传统机械按键的局限性日益凸显——物理磨损导致的寿命问题、防水防尘性能不足、以及缺乏科技感的操作体验。而电容式触摸…...

Swin2SR移动端适配:Android图像增强APP开发

Swin2SR移动端适配:Android图像增强APP开发 1. 项目背景与价值 你有没有遇到过这样的情况:手机相册里存着一些老照片,或者从网上下载的图片分辨率太低,放大后全是马赛克,根本看不清细节?传统的方法往往只…...

超分辨率重建避坑指南:为什么你的U-Net模型效果不如论文?

超分辨率重建实战:从U-Net论文到工业落地的五大关键陷阱 当你第一次在论文中看到那些令人惊艳的超分辨率重建效果时,是否也曾信心满满地复现U-Net架构,却在真实数据集上遭遇滑铁卢?作为计算机视觉领域最具挑战性的任务之一&#x…...

2026冲刺用!全场景通用降AI率网站 —— 千笔·降AI率助手

在AI技术深度渗透学术写作的当下,越来越多的学生、研究人员和职场人士选择借助AI工具提升写作效率。然而,随着知网、维普、万方等查重系统对AI生成内容的识别能力不断提升,以及Turnitin等国际平台对AIGC的严格审核,论文中的AI痕迹…...

SpringBoot+Vue2+Element-UI搭建AI-Agent平台:从零部署到对话接口调用全流程

SpringBootVue2Element-UI构建智能对话平台实战指南 在数字化转型浪潮中,AI-Agent技术正逐步改变人机交互方式。本文将带您从零开始构建一个具备多轮对话、工具调用和记忆功能的智能平台,采用SpringBootVue2Element-UI技术栈,结合LangChain设…...

粒子群算法求解IEEE 33节点最优潮流模型

粒子群算法求解 IEEE 33bus最优潮流模型关键词:粒子群算法 PSO 最优潮流 牛顿迭代 仿真平台:MATLAB 主要内容:这是一个用粒子群来解IEEE 33的最优潮流模型,潮流模型是用牛顿迭代法写的 模型包含了柴油机,储能&#xff…...

OpenClaw性能对比:Qwen3-32B在不同硬件上的表现

OpenClaw性能对比:Qwen3-32B在不同硬件上的表现 1. 测试背景与动机 去年冬天,当我第一次在MacBook Pro上部署OpenClaw时,那个漫长的等待过程至今记忆犹新。一个简单的文件整理任务,从发出指令到完成操作足足花了47秒——这让我开…...

StarRocks主键表删除数据实战:如何用DelVector和Compaction优化存储空间

StarRocks主键表数据删除机制深度解析与存储优化实战 在实时数据分析领域,StarRocks凭借其卓越的性能表现已成为众多企业的首选OLAP引擎。其中主键表(Primary Key)模型支持实时更新和删除的特性,使其在CDC同步、ELT流程等场景中展…...

Win10播放HEVC视频卡顿?免费安装HEVC扩展的3种方法(附详细步骤)

Win10播放HEVC视频卡顿?免费安装HEVC扩展的3种方法(附详细步骤) 最近在整理手机拍摄的4K视频时,发现Windows 10自带的"电影和电视"播放器总是提示"需要HEVC视频扩展"。更让人头疼的是,播放时画面卡…...

Phi-3-Mini-128K赋能Java开发:SpringBoot集成与智能API构建实战

Phi-3-Mini-128K赋能Java开发:SpringBoot集成与智能API构建实战 最近在做一个内部知识库问答系统,需要嵌入一个轻量又聪明的AI大脑。试了几个模型,要么体积太大部署困难,要么效果不尽如人意。直到遇到了Phi-3-Mini-128K&#xff…...

Mask2Former实战:从零部署到自定义数据集训练全攻略

1. 环境配置:从零搭建Mask2Former开发环境 第一次接触Mask2Former时,我也被复杂的依赖关系搞得头大。经过多次尝试,发现用官方推荐的Docker镜像确实能省去不少麻烦。这里分享我的实测经验:使用NVIDIA官方提供的PyTorch 1.10镜像作…...