当前位置: 首页 > article >正文

【第四周】论文精读:Frustratingly Simple Retrieval Improves Challenging, Reasoning-Intensive Benchmarks

极简检索即可大幅刷新高难度推理基准主流观点认为简单RAG无法提升MMLU、MATH、GPQA等高难度推理任务甚至会损害性能本文推翻这一共识证明核心瓶颈并非检索范式而是缺少高质量、广覆盖、可单机部署的检索库提出COMPACTDS——基于精滤全网数据的紧凑高可用检索库搭配“内存ANN磁盘精排”两阶段检索仅用极简RAG pipeline便在主流推理基准实现**10%–33%**稳定提升效果追平/超越Google搜索与复杂智能体RAG且完全可复现、低成本、自包含。 论文基本信息项目内容论文标题Frustratingly Simple Retrieval Improves Challenging, Reasoning-Intensive Benchmarks核心贡献COMPACTDS检索库、两阶段ANNExact检索、极简RAG推理增强作者/机构Xinxi Lyu 等UIUC、USC、AI2、UW、UC Berkeley发表年份/会议2026ICLR核心领域RAG、长推理、知识增强、检索库构建、稠密检索关键数据/规模3805亿词、6.39亿文档、18.5亿片段单机456GB内存、亚秒级检索代码/资源开源已开源COMPACTDS 检索pipelinealrope/CompactDS-102GB 研究背景与痛点1. 推理任务RAG失效误区Retrieval Myths for Reasoning现象学界普遍认为简单RAG对MMLU、MATH、GPQA无效甚至降低性能。后果研究转向复杂智能体检索、多轮搜索、强化学习忽视基础RAG潜力。本质前人使用维基百科等窄覆盖库或无法单机部署的脏全网库并非检索范式本身失效。2. 现有检索库的致命缺陷窄覆盖库维基百科无法覆盖专业/泛化知识推理任务召回率极低。原始全网库CommonCrawl噪声大、体积超标12TB无法单机部署。检索方案粗糙仅用ANN近似检索精度损失大无精排环节。3. 本文核心洞察高难度推理任务极度依赖外部知识而非纯靠模型参数记忆。高质量、去噪、多源、紧凑的检索库是简单RAG生效的关键。两阶段检索快速ANN 精确内积精排可平衡速度与精度。教育数据、学术论文、数学语料是推理任务的黄金数据源。️ 核心方法COMPACTDS 极简RAG 全景详解本文方法极度简洁高质量检索库 两阶段稠密检索 直接拼接生成无多轮、无智能体、无复杂prompt。1. COMPACTDS 检索库构建 —— “全网黄金浓缩池”设计目标保留预训练数据广度同时极致去噪、压缩实现单机部署。详细执行流程数据源融合精滤CommonCrawl、教育文本、数学语料、学术论文、维基百科、书籍、GitHub、StackExchange等。多级质量过滤C4 DCLM-Baseline FineWeb-Edu分类器阈值4.0从894B词→172B词。专家数据增强加入OpenWebMath、NaturalProofs、PubMed、ArXiv等专业语料。去污染移除与测试集13-gram重叠70%的片段避免数据泄露。分块按256词切分共18.5亿检索片段。关键逻辑/机制 核心逻辑激进去噪不丢覆盖多元来源补齐知识短板推理任务的检索库必须“广而精”。类比解释像把整座互联网“矿山”深度提炼只保留高纯度知识矿石剔除全部废石。2. 两阶段稠密检索 —— “快筛精排流水线”设计目标单机亚秒级响应同时保证检索精度。详细执行流程阶段1内存ANN检索IVFPQ编码器Contriever-MSMarco作用快速从18.5亿向量中召回K100~1000个候选内存仅需456GB。阶段2磁盘精确内积搜索编码器GRITLM-7B更强作用对候选向量做精确相似度重排输出top-k。关键逻辑/机制 核心逻辑用轻量模型做快速粗筛用强模型做少量精排速度与精度双赢。类比解释像机场安检先快速安检ANN过滤大部分无关物品再对可疑行李精细检查Exact Search。3. 极简RAG生成 —— “直接拼接即用”设计目标保持最简单范式不引入任何复杂策略。详细执行流程检索top-3~10个片段。逆序拼接最相关靠近query。直接输入LLM生成答案。数学/GPQA使用CoT其他任务直接多选判别。关键逻辑/机制 核心逻辑好的检索内容不需要复杂prompt和多轮策略简单拼接就够强。类比解释像给学生划好重点教材学生只需直接阅读重点就能答对难题。 实验结果与深度分析1. 核心性能提升Llama 3.1 8BMMLU10%MMLU Pro33.4%惊人MATH19.2%GPQA平均14.1%物理36.2%AGI Eval7.1%2. 关键发现与洞察发现一单一数据源都不够用多样性才是关键深度解读教育语料、数学语料、学术论文分别在对应任务带来增益缺一会明显下降。发现二维基百科反而效果差深度解读传统RAG首选的维基百科覆盖不足甚至损害部分任务性能。发现三两阶段检索必须“强弱搭配”深度解读Contriever ANN GRIT 精排 同编码器两阶段互补性极强。发现四效果超越Google搜索与复杂智能体深度解读在GPQA、MATH-500上极简RAG 或 Search-o1智能体系统。发现五越大模型增益越稳深度解读从8B→70B均稳定提升说明不是小模型记忆补全而是知识增强。 主要创新点总结颠覆性结论极简RAG完全可以大幅提升高难度推理任务推翻主流误区。COMPACTDS首个兼顾全网覆盖、高质量、紧凑、可单机的公开检索库。高效两阶段检索内存ANN磁盘精排亚秒级响应精度无损。极简范式不依赖智能体、多轮、强化学习检索-拼接即可SOTA。可复现替代商业搜索本地库效果追平Google稳定、低成本、无API依赖。⚠️ 局限性与挑战检索库与模型绑定不同LLM可能需要不同的检索偏好。极端专业领域仍不足如超级细分的科研子领域覆盖有限。长文本推理仍有上限超过10篇上下文会导致LLM输出退化。非英语支持缺失仅支持英文。检索仍有噪声部分无关片段会干扰推理。 对开发者的实战建议如果你想在推理任务上用RAG直接用COMPACTDS不要自己爬全网它已完成高质量去噪与多源融合。必用两阶段检索ANN粗搜 精确重排别只用单一ANN。**top-k设310**超过10篇会下降310篇最优。优先加入教育/数学/学术数据这三类是推理任务的核心增益源。保持生成极简直接拼接逆序片段无需复杂prompt或多轮搜索。一句话总结高难度推理任务的RAG失效从来不是方法问题而是检索库不行COMPACTDS用“极简检索高质量紧凑库”证明好的检索足以让普通LLM在硬核推理上实现飞跃。

相关文章:

【第四周】论文精读:Frustratingly Simple Retrieval Improves Challenging, Reasoning-Intensive Benchmarks

极简检索即可大幅刷新高难度推理基准主流观点认为简单RAG无法提升MMLU、MATH、GPQA等高难度推理任务,甚至会损害性能;本文推翻这一共识,证明核心瓶颈并非检索范式,而是缺少高质量、广覆盖、可单机部署的检索库;提出COM…...

百川2-13B模型辅助C语言学习:从语法答疑到代码调试

百川2-13B模型辅助C语言学习:从语法答疑到代码调试 学C语言,尤其是刚入门那会儿,你是不是也经历过这样的时刻?面对指针、内存这些概念,感觉像在看天书;自己写的代码编译报错,满屏的红色提示让人…...

Cursor省钱神器:interactive-feedback-mcp安装配置全攻略(附常见问题排查)

Cursor省钱神器:interactive-feedback-mcp安装配置全攻略(附常见问题排查) 在AI辅助编程领域,Cursor凭借其强大的代码生成和智能补全功能,已成为开发者日常工作的得力助手。然而,许多用户在使用过程中常常…...

保姆级教程:STM32F103开发第一步,搞定Keil5安装、激活与芯片包(附资源包)

STM32F103开发环境搭建全指南:从Keil5安装到芯片包配置 引言:为什么选择Keil MDK进行STM32开发 对于刚接触STM32微控制器的新手来说,开发环境搭建往往是第一个"拦路虎"。Keil MDK(Microcontroller Development Kit&…...

Sketchfab 3D模型本地化工具:Firefox浏览器专业解决方案

Sketchfab 3D模型本地化工具:Firefox浏览器专业解决方案 【免费下载链接】sketchfab sketchfab download userscipt for Tampermonkey by firefox only 项目地址: https://gitcode.com/gh_mirrors/sk/sketchfab 在数字创作领域,3D资源的离线获取与…...

OpenClaw调试技巧:百川2-13B任务失败时的日志分析与修复

OpenClaw调试技巧:百川2-13B任务失败时的日志分析与修复 1. 当自动化任务突然罢工时 上周三凌晨2点,我的OpenClaw突然停止了工作——这个本该在深夜自动整理会议纪要并归档的助手,悄无声息地宕机了。监控屏幕显示它卡在"正在调用百川2…...

FLUX.1-dev像素生成器教程:多提示词加权与逻辑组合语法详解

FLUX.1-dev像素生成器教程:多提示词加权与逻辑组合语法详解 1. 像素幻梦创意工坊简介 像素幻梦 (Pixel Dream Workshop) 是一款基于FLUX.1-dev扩散模型的像素艺术生成工具,专为创作者设计。它采用16-bit像素风格的现代明亮界面,提供沉浸式的…...

5分钟轻松掌握:Magisk让Android手机获得超能力的终极指南

5分钟轻松掌握:Magisk让Android手机获得超能力的终极指南 【免费下载链接】Magisk The Magic Mask for Android 项目地址: https://gitcode.com/GitHub_Trending/ma/Magisk 如果你想让自己的Android手机变得更强大、更自由,Magisk绝对是你不可错过…...

除了xfs_repair,你的CentOS7/XFS文件系统自救工具箱里还应该有什么?

构建CentOS7/XFS文件系统全栈自救工具箱:从应急修复到主动防御 当服务器突然拒绝启动,屏幕上跳出"I/O error metadata corruption detected"的红色警告时,大多数管理员的第一反应是抓起xfs_repair这根救命稻草。但真正的系统健壮性…...

超实用AI专著生成攻略,掌握工具技巧,轻松搞定大型学术著作

学术专著创作困境与AI写作工具解决方案 撰写学术专著时的困难,不仅仅体现在“能够写出来”,更关键的是“能够成功出版并获得认可”。在当今的出版行业,学术专著的受众群体相对较小,出版社在选择题材时,对其学术价值以…...

3步掌握Greasy Fork:开源用户脚本管理平台完全指南

3步掌握Greasy Fork:开源用户脚本管理平台完全指南 【免费下载链接】greasyfork An online repository of user scripts. 项目地址: https://gitcode.com/gh_mirrors/gr/greasyfork Greasy Fork是一个功能强大的开源用户脚本管理平台,让你能够轻松…...

万兆NAS成本大揭秘:用MicroServer Gen8+二手X520网卡搭建全流程(含读写性能实测)

万兆NAS成本大揭秘:用MicroServer Gen8二手X520网卡搭建全流程(含读写性能实测) 在追求高速网络存储的时代,万兆NAS已成为技术爱好者的新宠。本文将带你深入了解如何以最低成本搭建一套性能不俗的万兆NAS系统,核心硬件…...

Z-Image-GGUF提示词工程实战:写出高质量描述生成惊艳图像

Z-Image-GGUF提示词工程实战:写出高质量描述生成惊艳图像 你是不是也遇到过这种情况:用同一个AI绘画模型,别人生成的图片美轮美奂,自己生成的却总差点意思?问题很可能出在“提示词”上。 提示词,就是你告…...

让 TDengine 在 JetBrains IDEs 里更像“原生数据库”一点

让 TDengine 在 JetBrains IDEs 里更像“原生数据库”一点 Author: ChangJin Wei (魏昌进) 最近我做了一个小插件,把 TDengine 接入到了 JetBrains IDEs 的数据库工具链里。 先埋个小提示:文末有彩蛋。 项目地址: GitHub: https://github.…...

LLM大模型开发实战:6个爆款开源项目,小白也能轻松入门!

本文介绍了6个GitHub上的热门LLM(大型语言模型)开源项目,包括Datawhale的"LLM-Universe"和"LLM-Cookbook"、微软的"Generative AI for Beginners"、mlabonne的"LLM-Course"、liguodongiot的"LL…...

边缘计算中的存储挑战与解决方案

边缘计算中的存储挑战与解决方案 背景 作为一个专注于存储架构的技术人,我一直在关注边缘计算的发展。最近团队在部署边缘计算解决方案时,遇到了许多存储相关的挑战。为了帮助团队更好地理解和解决这些挑战,我决定写这篇实践指南。 边缘计算的…...

终极游戏画质升级指南:用OptiScaler解锁全显卡超采样自由

终极游戏画质升级指南:用OptiScaler解锁全显卡超采样自由 【免费下载链接】OptiScaler DLSS replacement for AMD/Intel/Nvidia cards with multiple upscalers (XeSS/FSR2/DLSS) 项目地址: https://gitcode.com/GitHub_Trending/op/OptiScaler OptiScaler是…...

智能家居选遥控器?RF 2.4G vs 蓝牙 vs IR 保姆级对比指南

智能家居遥控技术终极对决:RF 2.4G vs 蓝牙 vs IR 深度解析 当你深夜躺在沙发上想调暗灯光,却发现必须起身对准空调才能操作——这种尴尬正是选错遥控技术的代价。智能家居的"最后一米"控制体验,往往取决于那只看不见的传输协议。本…...

告别手动拖拽!用.men和.tbr文件在UG NX里一键创建专属菜单栏(附完整脚本模板)

告别手动拖拽!用.men和.tbr文件在UG NX里一键创建专属菜单栏(附完整脚本模板) 在UG NX的二次开发中,手动拖拽按钮和菜单不仅效率低下,还容易出错。想象一下,每次部署新功能都要重复点击几十次鼠标&#xff…...

SDMatte多风格背景生成:抠图后智能匹配艺术化背景

SDMatte多风格背景生成:抠图后智能匹配艺术化背景 1. 效果亮点预览 SDMatte带来的不仅是简单的透明背景抠图。它开创性地将精准抠图与智能背景生成相结合,让每张图片都能拥有无限可能的艺术化呈现。想象一下,你的产品照片可以瞬间变成油画风…...

如何快速掌握Fast-F1:Python赛车数据分析实战指南

如何快速掌握Fast-F1:Python赛车数据分析实战指南 【免费下载链接】Fast-F1 FastF1 is a python package for accessing and analyzing Formula 1 results, schedules, timing data and telemetry 项目地址: https://gitcode.com/GitHub_Trending/fa/Fast-F1 …...

大语言模型,视觉模型,全模态模型,语音模型和向量模型的区别和使用

1. 大语言模型(Large Language Model, LLM)定义:以文本为输入,生成文本的模型。特点:输入输出都是自然语言(或包含少量结构化的 prompt)。擅长对话、写作、推理、代码生成等任务。在 LangChain …...

音乐播放器界面定制指南:foobar2000美化方案与体验提升

音乐播放器界面定制指南:foobar2000美化方案与体验提升 【免费下载链接】foobox-cn DUI 配置 for foobar2000 项目地址: https://gitcode.com/GitHub_Trending/fo/foobox-cn 在数字音乐时代,播放器已不仅是播放工具,更是个人音乐品味的…...

Halcon图像高效转换:HObject到Bitmap的优化实践(20ms内完成)

1. 为什么需要HObject到Bitmap的高效转换 在工业视觉和深度学习应用中,Halcon的HObject图像格式和Windows平台的Bitmap格式就像两个说着不同语言的人。我遇到过太多这样的场景:当我们需要把Halcon处理后的图像交给TensorFlow做推理,或者要在…...

5步打造高效知识管理系统:Obsidian模板库实战指南

5步打造高效知识管理系统:Obsidian模板库实战指南 【免费下载链接】OB_Template OB_Templates is a Obsidian reference for note templates focused on new users of the application using only core plugins. 项目地址: https://gitcode.com/gh_mirrors/ob/OB_…...

Llama-3.2V-11B-cot设计稿理解效果:从UI草图到前端代码描述

Llama-3.2V-11B-cot设计稿理解效果:从UI草图到前端代码描述 最近在尝试一些新的AI工具时,我偶然接触到了Llama-3.2V-11B-cot这个模型。它有一个听起来挺有意思的能力:能“看懂”设计稿。作为一个经常在设计和开发之间做“翻译”的人&#xf…...

别再重复积分了!手把手教你用IMU预积分优化LIO-SAM(附代码避坑点)

激光SLAM实战:IMU预积分在LIO-SAM中的高效实现与调优指南 当你在深夜调试LIO-SAM时,是否曾被重复积分导致的性能瓶颈折磨得抓狂?IMU预积分技术正是解决这一痛点的银弹。不同于传统惯性积分对初始状态的强依赖,预积分将相对运动量…...

Mac Mouse Fix终极指南:让你的第三方鼠标在macOS上焕发新生

Mac Mouse Fix终极指南:让你的第三方鼠标在macOS上焕发新生 【免费下载链接】mac-mouse-fix Mac Mouse Fix - A simple way to make your mouse better. 项目地址: https://gitcode.com/GitHub_Trending/ma/mac-mouse-fix 还在为macOS上第三方鼠标功能受限而…...

贪心算法3(c++)

概念题目最短前缀题目描述 一个字符串的前缀是从该字符串的第一个字符起始的一个子串。例如carbon的字串是:cca,carcarb,carbo,和carbon。我们现在希望能用前缀来缩略的表示单词。例如,carbohydrate通常用carb来缩略表示,现在给你一组单词,要求你找到唯一…...

解放双手!用Open-AutoGLM实现微信自动回复消息,亲测可用

解放双手!用Open-AutoGLM实现微信自动回复消息,亲测可用 1. 为什么需要微信自动回复? 每天我们都会收到大量微信消息:工作群的通知、朋友的问候、家人的关心...但总有那么些时刻,我们无法及时回复: 开会…...