当前位置：首页 > article >正文

【第四周】论文精读：Frustratingly Simple Retrieval Improves Challenging, Reasoning-Intensive Benchmarks

article 2026/3/31 13:56:59

极简检索即可大幅刷新高难度推理基准主流观点认为简单RAG无法提升MMLU、MATH、GPQA等高难度推理任务甚至会损害性能本文推翻这一共识证明核心瓶颈并非检索范式而是缺少高质量、广覆盖、可单机部署的检索库提出COMPACTDS——基于精滤全网数据的紧凑高可用检索库搭配“内存ANN磁盘精排”两阶段检索仅用极简RAG pipeline便在主流推理基准实现**10%–33%**稳定提升效果追平/超越Google搜索与复杂智能体RAG且完全可复现、低成本、自包含。论文基本信息项目内容论文标题Frustratingly Simple Retrieval Improves Challenging, Reasoning-Intensive Benchmarks核心贡献COMPACTDS检索库、两阶段ANNExact检索、极简RAG推理增强作者/机构Xinxi Lyu 等UIUC、USC、AI2、UW、UC Berkeley发表年份/会议2026ICLR核心领域RAG、长推理、知识增强、检索库构建、稠密检索关键数据/规模3805亿词、6.39亿文档、18.5亿片段单机456GB内存、亚秒级检索代码/资源开源已开源COMPACTDS 检索pipelinealrope/CompactDS-102GB 研究背景与痛点1. 推理任务RAG失效误区Retrieval Myths for Reasoning现象学界普遍认为简单RAG对MMLU、MATH、GPQA无效甚至降低性能。后果研究转向复杂智能体检索、多轮搜索、强化学习忽视基础RAG潜力。本质前人使用维基百科等窄覆盖库或无法单机部署的脏全网库并非检索范式本身失效。2. 现有检索库的致命缺陷窄覆盖库维基百科无法覆盖专业/泛化知识推理任务召回率极低。原始全网库CommonCrawl噪声大、体积超标12TB无法单机部署。检索方案粗糙仅用ANN近似检索精度损失大无精排环节。3. 本文核心洞察高难度推理任务极度依赖外部知识而非纯靠模型参数记忆。高质量、去噪、多源、紧凑的检索库是简单RAG生效的关键。两阶段检索快速ANN 精确内积精排可平衡速度与精度。教育数据、学术论文、数学语料是推理任务的黄金数据源。️ 核心方法COMPACTDS 极简RAG 全景详解本文方法极度简洁高质量检索库两阶段稠密检索直接拼接生成无多轮、无智能体、无复杂prompt。1. COMPACTDS 检索库构建 —— “全网黄金浓缩池”设计目标保留预训练数据广度同时极致去噪、压缩实现单机部署。详细执行流程数据源融合精滤CommonCrawl、教育文本、数学语料、学术论文、维基百科、书籍、GitHub、StackExchange等。多级质量过滤C4 DCLM-Baseline FineWeb-Edu分类器阈值4.0从894B词→172B词。专家数据增强加入OpenWebMath、NaturalProofs、PubMed、ArXiv等专业语料。去污染移除与测试集13-gram重叠70%的片段避免数据泄露。分块按256词切分共18.5亿检索片段。关键逻辑/机制核心逻辑激进去噪不丢覆盖多元来源补齐知识短板推理任务的检索库必须“广而精”。类比解释像把整座互联网“矿山”深度提炼只保留高纯度知识矿石剔除全部废石。2. 两阶段稠密检索 —— “快筛精排流水线”设计目标单机亚秒级响应同时保证检索精度。详细执行流程阶段1内存ANN检索IVFPQ编码器Contriever-MSMarco作用快速从18.5亿向量中召回K100~1000个候选内存仅需456GB。阶段2磁盘精确内积搜索编码器GRITLM-7B更强作用对候选向量做精确相似度重排输出top-k。关键逻辑/机制核心逻辑用轻量模型做快速粗筛用强模型做少量精排速度与精度双赢。类比解释像机场安检先快速安检ANN过滤大部分无关物品再对可疑行李精细检查Exact Search。3. 极简RAG生成 —— “直接拼接即用”设计目标保持最简单范式不引入任何复杂策略。详细执行流程检索top-3~10个片段。逆序拼接最相关靠近query。直接输入LLM生成答案。数学/GPQA使用CoT其他任务直接多选判别。关键逻辑/机制核心逻辑好的检索内容不需要复杂prompt和多轮策略简单拼接就够强。类比解释像给学生划好重点教材学生只需直接阅读重点就能答对难题。实验结果与深度分析1. 核心性能提升Llama 3.1 8BMMLU10%MMLU Pro33.4%惊人MATH19.2%GPQA平均14.1%物理36.2%AGI Eval7.1%2. 关键发现与洞察发现一单一数据源都不够用多样性才是关键深度解读教育语料、数学语料、学术论文分别在对应任务带来增益缺一会明显下降。发现二维基百科反而效果差深度解读传统RAG首选的维基百科覆盖不足甚至损害部分任务性能。发现三两阶段检索必须“强弱搭配”深度解读Contriever ANN GRIT 精排同编码器两阶段互补性极强。发现四效果超越Google搜索与复杂智能体深度解读在GPQA、MATH-500上极简RAG 或 Search-o1智能体系统。发现五越大模型增益越稳深度解读从8B→70B均稳定提升说明不是小模型记忆补全而是知识增强。主要创新点总结颠覆性结论极简RAG完全可以大幅提升高难度推理任务推翻主流误区。COMPACTDS首个兼顾全网覆盖、高质量、紧凑、可单机的公开检索库。高效两阶段检索内存ANN磁盘精排亚秒级响应精度无损。极简范式不依赖智能体、多轮、强化学习检索-拼接即可SOTA。可复现替代商业搜索本地库效果追平Google稳定、低成本、无API依赖。⚠️ 局限性与挑战检索库与模型绑定不同LLM可能需要不同的检索偏好。极端专业领域仍不足如超级细分的科研子领域覆盖有限。长文本推理仍有上限超过10篇上下文会导致LLM输出退化。非英语支持缺失仅支持英文。检索仍有噪声部分无关片段会干扰推理。对开发者的实战建议如果你想在推理任务上用RAG直接用COMPACTDS不要自己爬全网它已完成高质量去噪与多源融合。必用两阶段检索ANN粗搜精确重排别只用单一ANN。**top-k设310**超过10篇会下降310篇最优。优先加入教育/数学/学术数据这三类是推理任务的核心增益源。保持生成极简直接拼接逆序片段无需复杂prompt或多轮搜索。一句话总结高难度推理任务的RAG失效从来不是方法问题而是检索库不行COMPACTDS用“极简检索高质量紧凑库”证明好的检索足以让普通LLM在硬核推理上实现飞跃。

【第四周】论文精读：Frustratingly Simple Retrieval Improves Challenging, Reasoning-Intensive Benchmarks

相关文章：

【第四周】论文精读：Frustratingly Simple Retrieval Improves Challenging, Reasoning-Intensive Benchmarks

百川2-13B模型辅助C语言学习：从语法答疑到代码调试

Cursor省钱神器：interactive-feedback-mcp安装配置全攻略（附常见问题排查）

保姆级教程：STM32F103开发第一步，搞定Keil5安装、激活与芯片包（附资源包）

Sketchfab 3D模型本地化工具：Firefox浏览器专业解决方案

OpenClaw调试技巧：百川2-13B任务失败时的日志分析与修复

FLUX.1-dev像素生成器教程：多提示词加权与逻辑组合语法详解

5分钟轻松掌握：Magisk让Android手机获得超能力的终极指南

除了xfs_repair，你的CentOS7/XFS文件系统自救工具箱里还应该有什么？

超实用AI专著生成攻略，掌握工具技巧，轻松搞定大型学术著作

3步掌握Greasy Fork：开源用户脚本管理平台完全指南

万兆NAS成本大揭秘：用MicroServer Gen8+二手X520网卡搭建全流程（含读写性能实测）

Z-Image-GGUF提示词工程实战：写出高质量描述生成惊艳图像

让 TDengine 在 JetBrains IDEs 里更像“原生数据库”一点

LLM大模型开发实战：6个爆款开源项目，小白也能轻松入门！

边缘计算中的存储挑战与解决方案

终极游戏画质升级指南：用OptiScaler解锁全显卡超采样自由

智能家居选遥控器？RF 2.4G vs 蓝牙 vs IR 保姆级对比指南

告别手动拖拽！用.men和.tbr文件在UG NX里一键创建专属菜单栏（附完整脚本模板）

SDMatte多风格背景生成：抠图后智能匹配艺术化背景

如何快速掌握Fast-F1：Python赛车数据分析实战指南

大语言模型，视觉模型，全模态模型，语音模型和向量模型的区别和使用

音乐播放器界面定制指南：foobar2000美化方案与体验提升

Halcon图像高效转换：HObject到Bitmap的优化实践（20ms内完成）

5步打造高效知识管理系统：Obsidian模板库实战指南

Llama-3.2V-11B-cot设计稿理解效果：从UI草图到前端代码描述

别再重复积分了！手把手教你用IMU预积分优化LIO-SAM（附代码避坑点）

Mac Mouse Fix终极指南：让你的第三方鼠标在macOS上焕发新生

贪心算法3（c++）

解放双手！用Open-AutoGLM实现微信自动回复消息，亲测可用