当前位置: 首页 > article >正文

RAG的墓志铭:当AI不再需要检索

上个月读到一篇在 Hacker News 上引发热议的文章——《The RAG Obituary: Killed by Agents, Buried by Context Windows》。作者 Nicolas Bustamante 是金融科技公司 Fintool 的创始人他在文中抛出了一个颇具争议的观点RAG检索增强生成正在走向死亡。作为一个折腾过各种 AI 应用的人这篇文章让我深有共鸣。今天想把原文的核心观点翻译分享同时聊聊我自己的实践和看法。一、RAG 的诞生一个时代的妥协把时间拨回 2022 年底。ChatGPT 横空出世但人们很快发现了一个致命问题GPT-3.5 的上下文窗口只有 4096 个 token大约是 6 页纸的内容。而现实世界的文档呢一份 SEC 的 10-K 年度报告大约 51,000 token130 多页。这意味着即便用上当时最先进的 GPT-48K 上下文你也只能看到不到 16% 的内容。RAG 应运而生。它的思路很直观既然读不完那就先搜索把最相关的片段找出来喂给模型。这个模式借鉴了搜索引擎——就像 Google 给你 10 个蓝色链接RAG 也检索最相关的文档片段让 LLM 来总结。本质上是把大语言模型变成了「高级搜索结果摘要器」。二、RAG 的层层困境作者在文中详细剖析了 RAG 的复杂性每一个环节都暗藏陷阱。1. 分块切下去的每一刀都是伤害文档必须被切成 400-1000 token 的小块。问题是这不是简单的「每 500 字一刀切」。想象一下一份财报的结构Item 1: 业务概述10-15 页Item 1A: 风险因素20-30 页Item 7: 管理层讨论30-40 页Item 8: 财务报表40-50 页一刀切下去收入确认政策被切成 3 段风险因素的解释断在半句表格的标题和数据分离管理层讨论和数字脱节。2. 向量搜索相似不等于相关把文本变成 1536 维的向量用余弦相似度找最接近的——理论上很优雅实践中很头疼。作者举了一个真实案例查询「公司的诉讼敞口有多大」RAG 返回了 50 个包含「litigation」的片段告诉你诉讼敞口是 $500M。但实际上$500M 在诉讼程序章节$700M 在或有事项附注里标注「单独看不重要」$1B 是后续事件中的新集体诉讼$800M 是赔偿义务在不同章节$2B 在脚注里的「可能损失」关键词是 probable 而非 litigation实际敞口是 $5.1BRAG 只找到了 1/10。3. 混合搜索与重排序复杂度爆炸为了弥补向量的不足大家开始用「混合搜索」——BM25 关键词搜索 向量语义搜索再用 RRF倒数排名融合合并结果。这还没完还得加个「重排序」模型把 Top 100 的结果再排一遍选出最相关的 10 个给 LLM。每个环节都在增加延迟、成本和故障点。作者称之为「级联故障问题」分块可能失败切坏表格Embedding 可能失败相似度不准BM25 可能失败术语不匹配融合可能失败权重调错重排序可能失败优先级错误错误层层叠加最后的结果离真相越来越远。三、转折Claude Code 的启示真正让作者意识到 RAG 可能不是唯一解的是 Anthropic 去年发布的 Claude Code。Claude Code 是一个在终端运行的 AI 编程助手。它没有 RAG却比 Cursor当时最优秀的 RAG 驱动产品更快、更好。它用什么grep、glob和文件系统工具。GrepRipgrep毫秒级正则搜索无需索引Glob按文件名模式发现文件Task Agents自主多步探索按需加载文件Claude Code 不检索而是调查并行运行多个搜索从宽泛到精确跟随引用和依赖自然地构建理解。作者贴出了一个令人震惊的对比一个简单的 TXT 文件URL 描述在代码理解任务上打败了复杂的 RAG 系统。LLMs 把 RAG 脚手架当早餐吃掉了。四、上下文窗口的革命这一切之所以可能是因为上下文窗口的爆炸式增长年份模型上下文2022-2024GPT-48K (~12页)2025Claude Sonnet 4200K (~700页)2025Gemini 2.51M (~3000页)2025Grok 4-fast2M (~6000页)2M token 可以装下一家公司一整年的 SEC 财报。Sam Altman 暗示未来可能达到十亿级上下文。当 LLM 能装下整个代码库、整个文档库时搜索就变成了导航不需要检索片段直接加载完整文件不需要相似度匹配用精确命中不需要重排序跟随逻辑路径不需要 Embedding直接访问原始内容五、我的实践用 grep 替代向量库读到这篇文章时我正在用 OpenClaw 搭一个轻量级知识问答系统。场景很简单把教材和题库放在本地用户提问时实时检索相关内容拼到 prompt 里让模型回答。按传统思路这事应该用 RAG——分块、建向量库、存数据库。但半年前大家还在讨论 RAG 不要自己建直接用服务即可。这和我想要的「本地优先」背道而驰。所以我换了个思路效仿 Claude Code直接用 pdfgrep 搜索 PDF 文件。没有向量库没有分片没有数据库甚至没有预处理步骤。这看起来很「土」但它像人找东西一样翻文件、CtrlF、看上下文不搞复杂索引。低成本、快速验证几个小时就能跑起来。后来我在 Hacker News 上看到那篇《RAG 的墓志铭》恍然大悟原来大家在讨论同一件事。六、两种方案的对比我把两种方案放在一起对比差异一目了然维度Agent grep 式检索传统 RAG 向量库前置工程量几乎为零分块、Embedding、数据库部署自建速度几小时可用数天到数周Token 消耗高命中段落整段塞 prompt低只返回相关片段检索精度依赖关键词命中模糊匹配弱语义相似度匹配召回率高响应延迟全文搜索文件越大越慢索引查询毫秒级返回维护成本无额外依赖文件更新即生效需维护向量库、重建索引本地友好度天然本地零外部服务通常依赖数据库或云服务七、RAG 真的死了吗说「RAG 已死」当然是一句夸张的墓志铭。现实是工程化还在只是被迫和 Agent 模式重新分工。每个激进的观点都可能在博眼球世界或许正在变革但这终究是一个 trade-off。RAG 给了我们在「不值得建向量库」的场景里用最朴素方式解决问题的选择。而 Agent 给了我们「当上下文足够时直接读全文」的选择。未来的 AI 搜索系统可能不再是单一的检索管道而是灵活的工具箱小规模、探索性任务 → grep 式导航大规模、高频查询 → 传统 RAG 索引复杂推理 → Agent 自主调查检索没有死只是被降级了。它从唯一的解决方案变成了众多工具中的一个。写在最后作为开发者我喜欢这种变化。它意味着我们可以根据场景选择最合适的方案而不是被某种「最佳实践」绑架。当 GPT-3.5 只有 4K 上下文时RAG 是必须的。但当 Claude 能装下 200K、Gemini 能装下 1M 时问题变成了我们真的需要那么复杂的检索管道吗也许有时候最朴素的方案就是最好的方案。本文部分观点翻译自 Nicolas Bustamante 的《The RAG Obituary》原文链接https://www.nicolasbustamante.com/p/the-rag-obituary-killed-by-agents如果这篇文章对你有启发欢迎点赞、在看、转发三连你的支持是我持续写作的动力。我们下期再见 这里给大家精心整理了一份全面的AI大模型学习资源包括AI大模型全套学习路线图从入门到实战、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等资料免费分享扫码免费领取全部内容1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 2026行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。7. 资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容

相关文章:

RAG的墓志铭:当AI不再需要检索

上个月读到一篇在 Hacker News 上引发热议的文章——《The RAG Obituary: Killed by Agents, Buried by Context Windows》。作者 Nicolas Bustamante 是金融科技公司 Fintool 的创始人,他在文中抛出了一个颇具争议的观点:RAG(检索增强生成&a…...

手机拍照为啥总感觉差点意思?聊聊藏在ISP里的那些‘魔法’算法(从RawNR到TNR)

手机拍照为啥总感觉差点意思?聊聊藏在ISP里的那些‘魔法’算法(从RawNR到TNR) 每次看到别人用同款手机拍出的大片,再看看自己相册里灰蒙蒙的夜景照,是不是总觉得少了点什么?这背后其实藏着一整套名为ISP&am…...

AT25SF041 SPI Flash驱动设计与嵌入式可靠性实践

1. AT25SF041 SPI Flash 存储器驱动深度解析AT25SF041 是由 Adesto(现为 Dialog Semiconductor)推出的 4 Mbit(512 KB)串行 NOR Flash 存储器,采用标准四线 SPI 接口(CLK、CS#、DI、DO)&#xf…...

Remotery WebSocket通信机制:浏览器端性能数据可视化

Remotery WebSocket通信机制:浏览器端性能数据可视化 【免费下载链接】Remotery Single C file, Realtime CPU/GPU Profiler with Remote Web Viewer 项目地址: https://gitcode.com/gh_mirrors/re/Remotery Remotery作为一款轻量级实时CPU/GPU性能分析工具&…...

避坑指南:电商评论情感分析中常见的5大误区与解决方案

避坑指南:电商评论情感分析中常见的5大误区与解决方案 当你在深夜盯着屏幕上一堆杂乱无章的电商评论数据时,是否曾怀疑过自己的情感分析模型在"说谎"?那些看似完美的准确率数字背后,可能隐藏着连老手都会踩中的陷阱。本…...

2025年开源工具jable-download:视频下载工具高效解决方案

2025年开源工具jable-download:视频下载工具高效解决方案 【免费下载链接】jable-download 方便下载jable的小工具 项目地址: https://gitcode.com/gh_mirrors/ja/jable-download 在数字化内容消费日益增长的今天,视频资源的获取与保存成为许多用…...

从AlexNet到MobileNet:深度可分离卷积如何用1/4参数量实现高效推理?

从AlexNet到MobileNet:深度可分离卷积如何用1/4参数量实现高效推理? 在移动互联网时代,AI模型部署正经历从云端到边缘的范式转移。当我们谈论"高效推理"时,实际上是在探讨一个核心矛盾:如何在有限的硬件资源…...

Spring Framework测试框架完整指南:从单元测试到集成测试的10个最佳实践

Spring Framework测试框架完整指南:从单元测试到集成测试的10个最佳实践 【免费下载链接】spring-framework spring-projects/spring-framework: 一个基于 Java 的开源应用程序框架,用于构建企业级 Java 应用程序。适合用于构建各种企业级 Java 应用程序…...

提升code-server前端性能的终极指南:渐进式图片加载高级技巧

提升code-server前端性能的终极指南:渐进式图片加载高级技巧 【免费下载链接】code-server VS Code in the browser 项目地址: https://gitcode.com/GitHub_Trending/co/code-server code-server作为一款能在浏览器中运行的VS Code实现,让开发者可…...

2026年上海网站建设市场分析:企业官网从展示到增长的演进路径

2026年,上海企业数字化服务市场迎来结构性变革。据2026年上半年上海企业数字化服务市场调研数据显示,上海地区企业官网新建与升级需求同比增长45%,中大型企业对官网的核心诉求已从基础信息展示转向AI智能赋能、全球化跨境适配、全链路营销转化…...

Java AI开发避坑!

文章目录一、当"龙虾"突然发狂二、解剖这场"史诗级翻车"第一刀:插件生态大迁徙第二刀:API 接口一锅端第三刀:安全沙箱锁死第四刀:目录结构洗牌三、Java 开发者的至暗时刻WebSocket 连接闪断MCP 适配器失效技能…...

ChineseChess-AlphaZero技术架构与实践指南:从环境搭建到模型训练

ChineseChess-AlphaZero技术架构与实践指南:从环境搭建到模型训练 【免费下载链接】ChineseChess-AlphaZero Implement AlphaZero/AlphaGo Zero methods on Chinese chess. 项目地址: https://gitcode.com/gh_mirrors/ch/ChineseChess-AlphaZero 副标题&…...

告别裸机思维:在GD32单片机上用FreeRTOS管理多个传感器(附源码)

从裸机到多任务:GD32FreeRTOS传感器管理系统实战 在嵌入式开发中,当系统需要同时处理多个外设时,传统的裸机编程往往会陷入复杂的状态机迷宫。我曾在一个环境监测项目中深有体会——当温湿度传感器、光照传感器、按键和OLED显示屏需要协同工作…...

ente/auth缓存机制详解:提高系统响应速度

ente/auth缓存机制详解:提高系统响应速度 【免费下载链接】ente 完全开源,端到端加密的Google Photos和Apple Photos的替代品 项目地址: https://gitcode.com/GitHub_Trending/en/ente ente/auth作为专注于移动设备的两步验证(2FA&…...

Obsidian Local Images Plus 终极指南:如何一键解决所有本地图片管理难题

Obsidian Local Images Plus 终极指南:如何一键解决所有本地图片管理难题 【免费下载链接】obsidian-local-images-plus This repo is a reincarnation of obsidian-local-images plugin which main aim was downloading images in md notes to local storage. 项…...

QT窗口特效实战:从透明到异形控件的全方位实现指南

1. 从零开始理解QT窗口特效 第一次接触QT窗口特效时,我被那些酷炫的透明和异形界面深深吸引。记得当时看到Mac OS X的Dock栏那种毛玻璃效果,就特别想在自己的QT应用中实现类似效果。经过多年实战,我发现QT实现这些特效其实比想象中简单得多。…...

VAP:腾讯开源的高性能动画播放引擎,如何让你的应用动起来更流畅?

VAP:腾讯开源的高性能动画播放引擎,如何让你的应用动起来更流畅? 【免费下载链接】vap VAP是企鹅电竞开发,用于播放特效动画的实现方案。具有高压缩率、硬件解码等优点。同时支持 iOS,Android,Web 平台。 项目地址: https://git…...

Zotero插件Ethereal Style:打造高效文献管理新体验

Zotero插件Ethereal Style:打造高效文献管理新体验 【免费下载链接】zotero-style zotero-style - 一个 Zotero 插件,提供了一系列功能来增强 Zotero 的用户体验,如阅读进度可视化和标签管理,适合研究人员和学者。 项目地址: ht…...

# 发散创新:边缘容器中的轻量级服务部署实战与优化策略在云计算向边缘计算演进的浪潮中,**边缘容器技术**正成

发散创新:边缘容器中的轻量级服务部署实战与优化策略 在云计算向边缘计算演进的浪潮中,边缘容器技术正成为构建低延迟、高可用应用的核心基础设施。相比传统云端Kubernetes集群,边缘容器更强调资源受限环境下的高效调度、快速启动和故障自愈能…...

巨有科技:银发文旅风口来了!康养旅游这样做才赚

随着老龄化社会加深与全民健康意识提升,康养旅游成为2026年文旅行业最具潜力的风口赛道,银发旅游群体持续壮大,成为文旅市场核心增量。但当下康养旅游普遍存在产品单一、服务不专业、运营不规范、适配性不足等问题,传统观光式旅游…...

python-flask-djangol框架的高校毕业生就业信息实习管理系统

目录需求分析与功能规划技术选型与架构设计数据库模型设计功能模块实现数据统计与可视化测试与部署文档与维护项目技术支持源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作需求分析与功能规划 明确系统核心目标为管理高校毕业生就业和实习信…...

[深度解析] AXI4-Stream Register Slice:时序优化的“外科手术刀”

1. 为什么需要AXI4-Stream Register Slice? 在FPGA设计中,时序问题就像血管中的血栓,随时可能让整个系统瘫痪。想象你正在设计一个4K视频处理流水线,每个像素都要经过十几级处理模块。当系统时钟频率提升到300MHz以上时&#xff0…...

三步掌握BepInEx插件框架:零基础也能懂的Unity游戏扩展指南

三步掌握BepInEx插件框架:零基础也能懂的Unity游戏扩展指南 【免费下载链接】BepInEx Unity / XNA game patcher and plugin framework 项目地址: https://gitcode.com/GitHub_Trending/be/BepInEx BepInEx作为Unity/XNA游戏的插件框架,为开发者和…...

从‘调不出来’到‘一次过流片’:折叠共源共栅放大器设计中那些没人告诉你的‘坑’与调试技巧

从‘调不出来’到‘一次过流片’:折叠共源共栅放大器设计中那些没人告诉你的‘坑’与调试技巧 在模拟电路设计的江湖里,折叠共源共栅(Folded Cascode)放大器就像一位身怀绝技却性格古怪的武林高手——性能强悍但极难驯服。许多工…...

手把手教你用丹青识画:智能影像雅鉴系统保姆级入门教程

手把手教你用丹青识画:智能影像雅鉴系统保姆级入门教程 1. 认识丹青识画系统 "以科技之眼,点画意之睛。"这句话完美诠释了丹青识画系统的核心理念。这是一款将人工智能技术与东方美学相结合的创新工具,能够自动分析图像内容并生成…...

Mermaid在线编辑器:开源可视化工具的图表创作革命

Mermaid在线编辑器:开源可视化工具的图表创作革命 【免费下载链接】mermaid-live-editor Edit, preview and share mermaid charts/diagrams. New implementation of the live editor. 项目地址: https://gitcode.com/GitHub_Trending/me/mermaid-live-editor …...

计算机组成原理实验避坑指南:存储器地址映射常见错误及解决方法

计算机组成原理实验避坑指南:存储器地址映射常见错误及解决方法 第一次在Proteus里搭建存储器系统时,看着密密麻麻的地址线和片选信号,我对着实验指导书发呆了半小时——明明按照图示连接了所有线路,可写入RAM的数据总是莫名其妙出…...

python基于微信小程序的直播带货商品数据分析系统的爬虫可视化

目录需求分析与系统架构设计微信小程序数据爬取方案数据存储与清洗数据分析与可视化系统集成与部署注意事项项目技术支持源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作需求分析与系统架构设计 明确系统目标为爬取微信小程序直播带货商品数…...

python基于微信小程序的智慧社区娱乐服务管理平台

目录需求分析与规划技术架构设计功能模块开发实时交互实现数据可视化测试与部署安全与优化迭代计划项目技术支持源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作需求分析与规划 明确平台核心功能:居民活动报名、场地预约、社区公…...

python基于微信小程序的旅游攻略分享平台

目录需求分析与功能规划技术架构设计数据库设计接口开发小程序前端开发部署与测试运营与迭代注意事项项目技术支持源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作需求分析与功能规划 明确平台核心功能:用户注册登录、攻略发布与…...