当前位置: 首页 > article >正文

【第二周】论文精读:REPLUG: Retrieval-Augmented Black-Box Language Models

前言随着大语言模型LLM规模的爆炸式增长如 GPT-3, Codex 等参数量超千亿的模型它们大多以“黑盒”API 的形式提供服务用户无法访问其内部参数或进行微调。这使得传统的检索增强方法如 RETRO, kNN-LM因需要修改模型架构或访问内部表示而难以应用。华盛顿大学与 Meta AI 合作提出的REPLUG框架创造性地将语言模型视为完全冻结的黑盒仅通过外部可调优的检索器和集成策略来实现检索增强。更关键的是REPLUG 提出了一种**“LM 监督检索LM-Supervised Retrieval, LSR”**的训练范式利用黑盒模型的输出反馈来优化检索器使其学会检索那些能真正降低模型困惑度、提升任务表现的文档。本文将深度解析这一专为超大规模黑盒模型设计的 RAG 新范式。 论文基本信息项目内容论文标题REPLUG: Retrieval-Augmented Black-Box Language Models中文译名REPLUG检索增强的黑盒语言模型作者Weijia Shi, Sewon Min, Michihiro Yasunaga, et al.所属机构University of Washington, Stanford, KAIST, Meta AI发表年份ACL 2023核心领域Black-box LLMs, Retrieval-Augmentation, LM-Supervised Retrieval代码开源GitHub - swj0419/replug 研究背景与痛点现有的检索增强语言模型RALM主要面临两大落地障碍特别是在面对超大规模模型时白盒依赖主流方法如 RETRO, Atlas需要修改 Transformer 架构增加交叉注意力层或对模型进行全量/部分微调。这对于参数量高达 175B 且仅通过 API 提供的模型如 GPT-3, Codex是完全不可行的。内部表示不可得像 kNN-LM 这类无需微调的方法仍需要访问模型的内部隐藏状态Hidden States来计算近邻分布而这在黑盒 API 场景中同样无法获取。 核心思路即插即用Plug-and-Play将 LLM 视为完全冻结的黑盒仅在其输入端做文章。检索到的文档直接拼接到输入前Prepend无需修改模型任何参数。逆向优化既然不能改模型那就改检索器。利用黑盒模型的输出如困惑度、生成概率作为监督信号训练检索器去查找那些“对当前模型最有用”的文档实现**“让检索器适应模型”**而非“让模型适应检索器”。️ 核心方法REPLUG 架构详解REPLUG 包含两个主要阶段推理阶段的集成策略和训练阶段的 LM 监督优化。1. 推理阶段并行集成Ensemble Strategy由于黑盒模型的上下文窗口有限无法一次性拼接所有检索到的文档例如 Top-10 或 Top-20。REPLUG 提出了一种并行集成方案操作对于检索到的 k 个文档分别将它们与原始输入 x 拼接形成 k 个独立的输入 (di​∘x) 。并行推理将这 k 个输入分别送入黑盒模型得到 k 个输出概率分布 P(y∣di​∘x) 。加权平均根据文档与查询的相似度得分 s(di​,x) 对概率分布进行加权平均得到最终预测其中权重由相似度 softmax 计算得出。优势既突破了上下文长度限制又能充分利用多个文档的信息且计算开销可控可并行化。2. 训练阶段LM 监督检索REPLUG-LSR这是论文的核心创新。传统的检索器通常基于通用语料训练如 DPR, Contriever未必针对特定的黑盒模型优化。REPLUG-LSR 利用黑盒模型本身作为“老师”来训练检索器。训练流程四步走检索候选使用当前检索器从语料库中检索 Top- k 文档。LM 打分将每个候选文档拼接输入黑盒模型计算其对真实标签Ground Truth的预测概率。概率越高说明该文档对模型越有帮助。构建目标分布基于 LM 的打分构建一个理想的目标分布倾向于那些能降低困惑度的文档。最小化 KL 散度训练检索器使其输出的文档分布尽可能接近目标分布​ 。异步索引更新由于检索器参数在变文档的向量表示也会变。因此每隔 T 步重新计算语料库索引确保检索准确性。*注意此过程中黑盒模型参数完全冻结仅更新检索器参数。* 实验结果与分析作者在语言建模Pile、多任务理解MMLU和开放域问答NQ, TriviaQA上进行了全面评估覆盖了从 GPT-2 到 GPT-3 (175B)、Codex、OPT、BLOOM 等多个模型家族。1. 语言建模性能显著提升GPT-3 系列REPLUG-LSR 使 GPT-3 (175B) 在 Pile 数据集上的 Bits Per Byte (BPB) 指标降低了6.3%。即使是较小的 GPT-3 Ada (350M)也能获得 8.6% 的提升。通用性该提升在不同参数量117M - 175B和不同架构GPT-2, OPT, BLOOM的模型上均一致存在证明了方法的鲁棒性。LSR 的价值经过 LM 监督训练的检索器REPLUG-LSR显著优于直接使用预训练检索器REPLUG平均额外带来约 2-3% 的性能增益。2. 下游任务MMLU 与 开放域问答MMLU (5-shot)Codex (175B)REPLUG-LSR 将其准确率提升了5.1%达到 71.8%不仅超越了未增强的 Codex还超过了参数量是其 3 倍的 Flan-PaLM (540B) 的部分表现。对比白盒模型REPLUG-LSR 的表现甚至优于经过全量微调的白盒检索模型 Atlas (11B)证明了黑盒设置下的巨大潜力。开放域问答 (Few-shot)在 Natural Questions (NQ) 上REPLUG-LSR 将 Codex 的准确率提升了12.0%达到了 Few-shot 设置下的 SOTAState-of-the-Art超越了经过 64 样本微调的 Atlas。在 TriviaQA 上提升了 5.0%。3. 深入分析为什么有效并非简单的集成效应实验表明如果随机检索文档进行集成性能反而下降。只有检索到相关且高质量的文档才能带来提升。长尾知识补充定性分析显示REPLUG 对包含**稀有实体Rare Entities**的文本提升最大。例如当上下文提及生僻人名“Li Bai”时检索到的相关文档能显著降低模型对该实体的预测困惑度。检索器适应性LSR 训练后的检索器学会了忽略那些虽然语义相似但对特定 LM 无助于降低困惑度的文档实现了与目标模型的深度对齐。 主要创新点总结纯黑盒兼容首个真正意义上无需访问模型参数、无需内部表示、无需修改架构即可应用于超大黑盒模型100B的检索增强框架。LM 监督检索LSR提出了一种新颖的训练范式利用黑盒模型的输出概率作为监督信号反向优化检索器实现了“检索器适配模型”。并行集成策略巧妙解决了上下文窗口限制与多文档信息利用之间的矛盾通过概率集成而非序列拼接来融合多源信息。显著的规模效应证明了即使是最强的闭源大模型如 GPT-3 175B依然能从外部检索中获益打破了“大模型不需要检索”的迷思。⚠️ 局限性与未来展望推理成本并行集成策略需要对 k 个文档分别调用黑盒模型 API这意味着推理延迟和 API 调用成本增加了 k 倍尽管可并行处理但费用线性增长。训练数据依赖LSR 训练需要带有 Ground Truth 的数据如语言建模的后续文本或 QA 的答案在无监督场景下较难直接应用。可解释性不足虽然性能提升明显但很难判断模型在具体某个预测中是依赖了检索知识还是内部参数知识Black-box 特性导致。 总结与工程建议《REPLUG》为工业界应用超大规模黑盒模型提供了一套极具实操性的检索增强方案。它证明了在不触碰模型权重的情况下依然可以通过优化外部检索模块来大幅挖掘大模型的潜力。 对开发者的实战建议黑盒模型的首选 RAG 方案如果你使用的是 GPT-4, Claude, 或 proprietary LLMsREPLUG 是目前理论上最兼容且有效的架构。实施 LSR 训练不要直接使用通用的 Contriever 或 BM25。如果有领域内的标注数据Query-Document-Answer务必利用黑盒模型的反馈来微调你的检索器LSR这能带来显著的额外收益。平衡成本与效果在推理阶段可以根据任务难度动态调整集成的文档数量 k 。简单任务 k1 或 2 复杂任务 k5 或 10 。利用缓存机制避免对相同 Query 重复调用 API。结合其他压缩技术为了降低成本可以将 REPLUG 与前文提到的LLMLingua或RECOMP结合——先检索再压缩文档最后进行并行集成从而在保证效果的同时减少输入 Token 数和潜在的成本。一句话总结REPLUG 告诉我们即使面对无法触碰的“黑盒”巨无霸模型只要配上一个懂它的“智能检索插件”依然能让其能力更上一层楼。参考文献[1] Shi W, Min S, Yasunaga M, et al. REPLUG: Retrieval-Augmented Black-Box Language Models[J]. arXiv preprint arXiv:2301.12652, 2023.

相关文章:

【第二周】论文精读:REPLUG: Retrieval-Augmented Black-Box Language Models

前言:随着大语言模型(LLM)规模的爆炸式增长(如 GPT-3, Codex 等参数量超千亿的模型),它们大多以“黑盒”API 的形式提供服务,用户无法访问其内部参数或进行微调。这使得传统的检索增强方法&…...

Mybatis进阶(一)

一、MyBatis 基于接口代理方式实现 Dao 层开发1.1 介绍采用 Mybatis 的基于接口代理方式实现 持久层 的开发,这种方式是我们后面进入企业的主流。 基于接口代理方式的开发只需要程序员编写 Mapper 接口,Mybatis 框架会为我们动态生成实现类的对象。1.2 开…...

[协程]-[详解]-launch与async

launch作用构建一个协程, 直接返回Job使用// lifecycleScope 协程作用域 lifecycleScope.launch { // 启动一个父协程delay(10000) // 模拟任务耗时 }源码解析public fun CoroutineScope.launch(context: CoroutineContext EmptyCoroutineContext,start: CoroutineStart Coro…...

开发者在 CSDN 的“修行”过程

目录 第一阶段:踩坑与复盘(底层输出) 第二阶段:CSDN 发帖逻辑(流量密码) 第三阶段:高阶答疑(建立信任) 第四阶段:涨粉与影响力变现(全链路总结…...

采购报销-发票预制及过账 增强供应商应付按订单行

1、术语发票校验:采购发票是供应商开给购货单位,据以付款、记账、纳税的依据。参照采购订单和采购入库单,按内容、价格进行发票正确性检查。一张发票过帐时,系统在供货商帐中创建一个未清项目,然后由财务会计在支付中结…...

OpenClaw 小龙虾保姆级安装教程

OpenClaw 小龙虾保姆级安装教程 小白 10 分钟搞定本地部署(Windows 系统 - 接入飞书) 引言 OpenClaw 最近实在是太火了,很多人已经做起了上门安装 500 块一次的生意,甚至有人计算下来说,靠这门手艺有机会年收入百万…...

安卓wakelock 学习

目录 1, wakelock 是什么 2,如何使用wakelock 3, 安卓系统中使用wakelock 的实例 4, 实际项目中wakelock 遇到的问题 1, wakelock 是什么 Wake Lock是一种锁的机制,只要有人拿着这个锁,系统就无法进入休眠&…...

MySQL【表的约束上】

一、表的约束在 MySQL 数据库的使用过程中,我们会发现仅靠数据类型来限制字段远远不够 —— 数据类型的约束能力单一,无法从业务逻辑层面保证数据的正确性。比如要求用户表的邮箱字段唯一、订单表的用户 ID 必须关联存在的用户,这些需求都需要…...

CPS、CPA、CPL、CPC 是什么?联盟营销 4 大模式一次读懂

如果你正在研究联盟营销,却被各种名词绕得头大——CPS、CPA、CPL、CPC 到底是什么意思?差别在哪?什么时候该用?别急,这篇文章会用最简单的语言,在一分钟内让你彻底弄懂 4 大联盟营销模式,并教你…...

(104页PPT)DG1067全面企业绩效管理(附下载方式)

篇幅所限,本文只提供部分资料内容,完整资料请看下面链接 (104页PPT)DG1067全面企业绩效管理.pptx_IT运维服务质量评价体系资源-CSDN下载 资料解读:(104 页)DG1067 全面企业绩效管理 详细资料请…...

ZBlog 爆款主题宁静致远|1.6 万 + 下载、9.89 分、6 年更新,自媒体 / 资讯站首选主题

ZBlog爆款主题「宁静致远(Quietlee)」实测推荐!累计下载16141次,评分9.89/10,自2020年上线至今持续迭代近6年,适配Z-BlogPHP 1.7.0、PHP5.6及以上版本,是个人自媒体、资讯站、小型内容平台的建站…...

IT系统全生命周期管理和运营方案(Word)

1 项目总体概述1.1 项目背景1.2 蓝图架构1.3 核心业务流程1.4 系统总体架构1.5 系统业务模型流程1.6 实施阶段划分1.7 一阶段建设目标2 一阶段解决方案2.1 系统总体架构2.2 系统总体流程2.3 软件功能设计2.3.1 统一门户(含多租户、权限、用户、角色、菜单、授权管理…...

高通跃龙QCS9100平台上工业缺陷检测实战(1): 从摄像头到端侧推理的最小闭环

💡 前言 本系列将聚焦高通跃龙QCS9100平台实施工业缺陷检测。 本文第一篇我们在该QCS9100平台将缺陷检测链路完整跑通。 你跑完这篇,应该能看到两件非常具体的东西: runs/ 里不断冒出带框的图片终端里能看到每次推理大概多少毫秒、FPS 大概…...

论文党「反内耗」神器:Paperzz 把毕业论文初稿写成「开卷答题」,4 步搞定从 0 到成稿

Paperzz-AI官网免费论文查重复率AIGC检测/开题报告/文献综述/论文初稿paperzz - 毕业论文-AIGC论文检测-AI智能降重-ai智能写作https://www.paperzz.cc/dissertation 谁懂啊家人们!写毕业论文就像在玩「地狱级闯关游戏」:对着空白文档发呆半天写不出开头…...

2026 学术写作破局:Paperzz 如何用「四步闭环法」解决毕业论文初稿难产,让你 3 天写完合格初稿

Paperzz-AI官网免费论文查重复率AIGC检测/开题报告/文献综述/论文初稿paperzz - 毕业论文-AIGC论文检测-AI智能降重-ai智能写作https://www.paperzz.cc/dissertation 引言:被毕业论文初稿困住的年轻人,正在用一种更高效的方式毕业 2026 年,国…...

从选题到成稿零焦虑:Paperzz 毕业论文初稿写作,让学术创作告别 “卡壳式内耗”

Paperzz-AI官网免费论文查重复率AIGC检测/开题报告/文献综述/论文初稿paperzz - 毕业论文-AIGC论文检测-AI智能降重-ai智能写作https://www.paperzz.cc/dissertation 在毕业论文的漫长写作路上,你是否也陷入过这样的循环:对着空白文档发呆半天写不出开头…...

TMS320F2812光伏并网逆变器设计:高效MATLAB电路仿真与DSP代码实现结合方案,含...

TMS320F2812 光伏并网逆变器设计方案,附有相关的matlab电路文件,以及DSP的程序代码,方案、仿真文件、代码三者结合使用效果好,事半功倍。 备注:赠送逆变器并联环流matlab文件,基于矢量控制的环流抑制策略和下垂控制的环…...

鸿蒙中 应用的权限(一)

本文同步发表于我的微信公众号,微信搜索 程语新视界 即可关注,每个工作日都有文章更新 一、权限管控 什么是应用权限? 系统提供一种通用权限访问方式,允许应用访问系统资源(如通讯录)和系统能力&#xff…...

LabVIEW图像处理框架核心结构示意图

labview通用图像处理框架程序源码 详情见图做图像处理的朋友应该都经历过这种尴尬:写个Demo三分钟搞定,项目一复杂就变成意大利面条代码。今天分享的这套LabVIEW通用框架,核心就三句话——状态机打底、队列传数据、插件式开发。咱们直接扒开源…...

Pyrene-PEG-NH2 氨基功能化芘荧光PEG活细胞成像与示踪探针

芘丁酸酯聚乙二醇氨基(Pyrene-PEG-NH2)是一种结合了芘(Pyrene)、聚乙二醇(PEG)和氨基(NH2)的多功能化合物。【基本信息】中文名称:芘丁酸酯-聚乙二醇-氨基;芘…...

【智慧商城 | 项目笔记】第六天

前言:智慧商城项目是关于前端的Vue2的项目,本系列文章,我讲总结我从这个项目中学到的知识点,写项目笔记。如果你也在初学Vue或想巩固Vue相关的知识,希望这系列文章可以帮助到你。 【智慧商城 | 项目笔记】第六天今日完…...

高速多串激光泵浦二极管驱动电路:可扩展、高电流、高电压、多重安全保护电路架构参考

高速多串激光泵浦二极管驱动电路,可扩展, 连续电流可达25A,支持最高电压90V; 调制频率可达10kHz 多重安全保护电路; 可单独屏蔽故障电流串; 闭环控制,带电流输出; 电路架构是基于多年…...

西门子V15及以上版本通用模拟量处理程序块:1200与1500模拟量滤波程序及报警功能

西门子1200和1500通用模拟量处理程序块,模拟量滤波程序,程序块可方便直接调用,用于过滤峰值且可以方便调用模拟量高低报警。 博图版本V15及以上。工业现场模拟量信号处理总带着点玄学,尤其是车间里那些老设备,时不时给…...

【Python一周入门】学习笔记归纳(二)六大基本类型

文章目录数字(Number)字符串String列表List元组Tuple字典Dictionary集合Set推导式列表推导式字典推导式集合推导式元组推导式(生成器推导式)数字(Number) 数字类型是客观的不可变的,分为整型,浮点型&#…...

Linux(1)的基本使用

系统每次开机默认进入字符界面[rootnode11 ~]# systemctl set-default multi-user.target系统每次开机默认进入图形界面[rootnode11 ~]# systemctl set-default graphical.targetweb界面登录(很少用)[rootnode11 ~]# systemctl enable --now cockpit.soc…...

LatentMorph:将隐式潜空间推理融入图像生成

目录 一、前言 二、 LatentMorph 论文概述 核心问题 方法:LatentMorph 实验结果 核心贡献 三、四个组件是怎么运作的,输入输出是啥 四个组件详解 1. 视觉记忆凝结器 (Memory Condensers) 2. 强化学习驱动的推理调用器 (Reason Invoker) 3.…...

2000-2024年上市公司迪博内部控制指数评分及评级数据

迪博内部控制指数简介迪博内部控制指数(DIB内部控制指数)由深圳迪博企业风险管理技术有限公司发布,是国内权威的上市公司内部控制评价体系。该指数从内部控制五要素(控制环境、风险评估、控制活动、信息与沟通、内部监督&#xff…...

基于Matlab的不变矩算法实现数字验证码识别过程及其GUI界面构建

基于matlab不变矩算法实现数字验证码 过程:先对验证图像进行去噪、定位、归一化等预处理,然后计算待识别数字的不变矩,再进行特征匹配,得到识别结果。 以Matlab软件为开发平台来进行设计实现及仿真,并构建相应的GUI界面…...

M3U8 调试不用愁,这款在线播放工具帮你高效搞定

在音视频开发、流媒体运维的日常工作中,M3U8 格式的流验证与调试是高频需求,不管是验证直播流链路是否通畅,还是排查点播 M3U8 播放异常,都需要一款便捷的工具来支撑。而本地播放器配置繁琐、原生浏览器对 HLS 协议支持有限&#…...

一款轻量高效的 M3U8 在线播放工具,开发者调试必备

在音视频开发、流媒体测试的日常工作中,我们经常会遇到 M3U8 格式的视频流验证需求 —— 不管是检查直播流的可用性,还是调试点播链接的播放兼容性,都需要一个便捷的工具来快速验证。而原生 HTML5 的 video 标签对 HLS 协议支持有限&#xff…...