当前位置：首页 > article >正文

RAG已死？收藏这篇，小白程序员必看：上下文工程才是大模型未来！

article 2026/5/16 7:00:53

本文探讨了围绕RAG技术的争议分析了三种不同观点RAG正进化为更智能的检索系统、RAG已成为核心工程学科、RAG正被长上下文和智能体取代。文章指出简单的RAG已过时但提供外部知识的需求依然存在未来RAG将作为组件之一与长上下文和智能体结合根据场景灵活应用。对于开发者理解技术优劣并灵活组合是关键。在技术飞速更新迭代的今天每隔一段时间就会出现「XX 已死」的论调。「搜索已死」、「Prompt 已死」的余音未散如今矛头又直指 RAG。有人在播客与访谈中抛出「RAG 已死上下文工程当立」的表述主张以上下文工程框架取代对「RAG」这一术语的狭义依赖。对于众多 AI 应用开发者而言RAG 并不陌生。自 2022 年以来为解决 LLM 输入长度有限如 GPT-3.5 的 4K tokens的问题RAG 作为一种「外挂」知识库的解决方案迅速成为行业标准。其核心逻辑如同搜索引擎将庞大文档切分成小块通过向量嵌入和相似度搜索找到与用户问题最相关的片段再喂给 LLM 生成答案。作为近几年最炙手可热的 LLM 应用范式之一RAG 似乎正在经历一场生存危机。长上下文窗口的崛起和 Agent 能力的进化正在动摇着它的核心地位。那么RAG 真的过时了吗我们从三篇代表性文章中梳理了业界对 RAG「生死问题」的不同回答。RAG 未死它在进化为「智能体检索」博客文章RAG is dead, long live agentic retrieval博客地址https://www.llamaindex.ai/blog/rag-is-dead-long-live-agentic-retrieval来自 RAG 基础设施巨头 LlamaIndex 的这篇文章提供了一种演进主义的视角。它不认为 RAG 正在被替代而是正在经历一个演进阶段其中 AI 智能体成为一种全新的、更强大的 RAG 架构的核心。文章指出RAG 技术已经超越了早期「朴素的区块检索」阶段进入了一个以「Agentic 策略」为核心的新时代。现代 AI 工程师需要掌握一系列复杂的数据检索技术如混合搜索、CRAG、Self-RAG 等。文章以 LlamaCloud 的检索服务为例系统性地展示了如何从基础的 RAG 逐步构建一个能够智能查询多个知识库的、完全由 agent 驱动的高级检索系统。第一阶段基础的「Top-k」检索这是 RAG 技术的起点。其工作原理如下将文档分割成多个「区块」Chunks。将这些区块的嵌入存储在向量数据库中。当用户提出查询时系统计算查询的嵌入并从数据库中找出最相似的 k 个区块作为上下文提供给 LLM 以生成答案。文章还提及在 LlamaCloud 的实现中除了默认的按区块检索chunk 模式还提供了两种额外的文件级检索模式files_via_metadata当查询明确提及文件名或路径时例如「2024_MSFT_10K.pdf 这份文件说了什么」此模式直接检索整个文件。files_via_content当查询是关于某个主题的宽泛问题但需要完整文件作为背景时例如「微软的财务前景如何」此模式会根据内容相关性检索整个文件。第二阶段引入轻量级 agent——自动路由模式在实际应用中系统通常无法预知用户会提出哪种类型的问题。为了解决这个问题文章介绍了一种名为「自动路由」auto_routed的检索模式。该模式本质上是一个轻量级的 agent 系统。它会首先分析用户的查询然后智能地判断应该采用上述三种模式chunk、files_via_metadata 或 files_via_content中的哪一种来执行检索。这实现了在单一知识库内的检索策略自动化。第三阶段扩展至多个知识库——复合检索 API当一个系统需要处理多种不同格式的文档时如财报 PDF、会议 PPT、客服记录等将它们全部放在一个索引中并用相同的解析规则处理是低效的。更优的做法是为每种类型的文档创建独立的、高度优化的索引。为了能够同时查询这些分散的知识库文章介绍了「复合检索 API」。其核心功能是整合多个索引允许将多个独立的索引例如「财报索引」和「幻灯片索引」添加到一个复合检索器中。智能路由通过为每个子索引提供描述例如「用于公司财务报告」复合检索器利用一个 agent 层来分析用户查询并将其路由到一个或多个最相关的子索引。结果重排从所有被查询的索引中收集结果并进行重排序最终返回最相关的 top-n 个结果。第四阶段构建完全由 agent 驱动的知识系统文章的最终目标是将上述技术整合构建一个在每个环节都由 agent 进行智能决策的、完全自动化的检索系统。这个系统的运作流程形成了一个双层 agent 架构顶层 agent复合检索器接收到用户查询后该 agent 首先进行 LLM 分类判断查询与哪个或哪些知识库子索引最相关并将查询分发下去。例如当查询「2024 年第四季度财报中的收入增长情况如何」时顶层 agent 会识别出「财报」关键词并将查询路由至 financial_index。子索引层 agent自动路由模式当一个特定的子索引接收到查询后其内部的 auto_routed 模式 agent 会启动分析查询的具体意图并决定在该索引内部使用最合适的检索方法是按区块、按文件名还是按内容检索。例如对于上述查询子索引 agent 可能会判断这是一个针对特定信息的问题从而选择 chunk 模式进行精确区块检索。通过这种分层 agent 的方法系统能够以高度动态和智能化的方式响应复杂多样的用户查询在正确的时间、从正确的知识库、用正确的方式获取最精准的上下文。文章总结道简单的 RAG 已经过时智能体驱动的检索才是未来。高级检索服务通过这种分层、智能的能力充当着高级 AI 智能体不可或缺的「知识骨干」。别说 RAG 已死它正成为一门严肃的工程学科博客文章Stop Saying RAG Is Dead博客地址https://hamel.dev/notes/llm/rag/not_dead.html文章包含 6 个部分邀请多位专家共同系统性地探讨了为什么 RAG 不仅没有死反而正以前所未有的重要性进化为构建可靠、高效 AI 应用的核心工程学科。Part 1 2: 重新定义 RAG 与评估范式首先澄清了核心误解。有人指出将所有信息塞入长上下文窗口在经济和效率上都是不切实际的。RAG 的本质为语言模型提供其训练时未见的外部知识是永恒的需求。我们告别的只是幼稚的单向量语义搜索正如我们用 CSS 升级 HTML我们正在用更先进的检索技术升级 RAG。还有人则颠覆了传统的评估体系。有人认为像 BEIR 这类为传统搜索引擎设计的基准其目标是「找到排名第一的正确答案」这与 RAG 的目标不符。RAG 系统的检索目标应该是覆盖率是否找到了生成答案所需的所有事实证据多样性是否避免了信息冗余高效地提供了不同方面的信息相关性检索到的信息是否切题为此有人设计了 FreshStack 基准为衡量现代 RAG 系统的真实性能提供了新的标尺。Part 3 4: 新一代检索模型会推理、无损压缩介绍了两种突破性的检索模型范式它们让检索器本身具备了「思考」能力。相关研究将大模型的指令遵循和推理能力直接嵌入检索过程。研究展示了两个模型Promptriever一个「指令感知」的 bi-encoder 模型能够理解并执行复杂指令如「用隐喻寻找关于数据隐私的文档」从而发现传统模型无法触及的结果。Rank1一个能生成明确推理链的 reranker 模型它通过「思考过程」来判断相关性不仅提升了准确率还发现了许多被以往基准测试忽略的有效文档。还有人直指单向量检索的核心缺陷——信息压缩损失。他们介绍了「延迟交互」模型如 ColBERT这种模型不将整个文档压缩成一个向量而是保留了每个 token 的向量表示。这使得一个仅有 150M 参数的小模型在推理密集型任务上的表现甚至超过了 7B 参数的大模型。同时PyLate 等开源库的出现正让这种强大的技术变得前所未有地易于使用。Part 5 6: 架构的进化从单一地图到智能路由与上下文工程最后两部分将视角从模型本身拉升到系统架构和工程实践。有人提出我们不应再寻找那个「完美」的嵌入模型或表示方法。正确的做法是为同一份数据创建多种表示就像为同一个地方准备多张不同功能的地图如地形图、交通图。然后利用一个智能「路由器」通常是一个 LLM Agent来理解用户意图并将其导向最合适的「地图」进行查询。他们的「语义点彩艺术」应用生动地展示了这种架构的灵活性和强大效果。还有研究则为「长上下文万能论」敲响了警钟。有人提出了「上下文腐烂」现象随着输入上下文的增长尤其是在存在模糊信息和「干扰项」时大模型的性能会显著下降甚至在简单任务上也变得不可靠。这证明了精巧的上下文工程和精准的检索比简单粗暴地填充上下文窗口更为重要。RAG 的讣告被 Agent 杀死被长上下文掩埋博客文章The RAG Obituary: Killed by Agents, Buried by Context Windows博客地址https://www.nicolasbustamante.com/p/the-rag-obituary-killed-by-agents这篇文章直言整个 RAG 架构正在成为一个不必要的、臃肿的历史包袱。文章指出 RAG 架构从根基上就存在难以克服的「原罪」切分的困境RAG 的第一步「切块」就是灾难的开始。以一份复杂的 SEC 10-K 财报为例强制按固定长度切分会将表格的标题与数据分离风险因素的解释被拦腰斩断管理层讨论与相关财务数据脱钩。文章所在公司 Fintool 虽开发出保留层级结构、表格完整性、交叉引用等高级切分策略但这依然是「在碎片上跳舞」无法解决上下文被物理割裂的根本问题。检索的噩梦纯粹的向量搜索在专业领域常常失灵。嵌入模型难以区分「收入确认」会计政策和「收入增长」业务表现这类术语的细微差别。文章举了一个生动的例子当查询「公司的诉讼风险」时RAG 可能只找到明确提及「诉讼」字眼的段落从而报告 5 亿美元的风险而实际上加上或有负债、后续事项、赔偿义务等其他部分真实风险高达 51 亿美元相差十倍。无尽的「补丁」为了弥补向量搜索的不足业界引入了混合搜索结合关键词匹配如 BM25与向量语义并通过 RRF 等算法融合结果。但这还不够为了提升最终喂给 LLM 内容的质量还需要增加一个「重排序」环节。每增加一个环节都意味着延迟的飙升、成本的叠加以及系统复杂性的指数级增长。文章将其形容为「级联失败问题」任何一环的失误都会被层层放大。沉重的基础设施负担维护一个生产级的 Elasticsearch 集群本身就是一项艰巨的任务涉及 TB 级的索引数据、高昂的内存成本、耗时数天的重建索引以及持续的版本管理和优化。文章认为智能体Agent和 LLM 长上下文窗口这两项技术进步将直接「杀死」RAG。文章的「顿悟时刻」来源于 Anthropic 发布的 Claude Code。该编码助手在没有使用任何 RAG 的情况下表现远超传统方法。其秘诀在于放弃了复杂的索引管道回归了最原始但极其高效的工具grep文本搜索和 glob文件模式匹配。这种「智能体搜索」范式的工作方式是「调查」而非「检索」直接访问而非索引Agent 可以直接在文件系统上运行 grep实时、高速地查找信息无需预处理和索引也就不存在索引延迟。完整加载而非碎片随着 Claude Sonnet 4 达到 200K、Gemini 2.5 达到 1M、甚至 Grok 4-fast 达到 2M tokens 的上下文窗口LLM 现在可以直接「读入」整份财报、整个代码库。当你可以阅读全书时为什么还要满足于几张书签呢逻辑导航而非相似度匹配Agent 能够像人类分析师一样在完整文档中进行逻辑跳转。例如在财报中看到「参见附注 12」它会直接导航到附注 12再根据附注内容跳转到其他相关章节从而构建一个完整的理解链条。文章的结论并非要彻底消灭 RAG而是将其「降级」。在新的范式下RAG 不再是系统的核心架构而仅仅是 Agent 工具箱中的一个选项。在面对海量文档需要初步筛选时Agent 可能会先用混合搜索RAG 的核心进行一次粗筛然后将排名靠前的几份完整文档加载到上下文中进行深度分析和推理。结语综合这三种观点我们可以得出一个清晰的结论初级的、朴素的 RAGNaive RAG确实已经「死亡」。那种简单的「切块-向量化-相似度搜索」流程已无法满足日益复杂的 AI 应用需求。然而RAG 本身所代表的核心思想——为 LLM 提供精准、可靠的外部知识——的需求是永恒的。未来的图景更可能是RAG 的角色转变RAG 不再是所有应用的默认核心架构而是被「降级」为 Agent 工具箱中的一个强大组件。它将与代码解释器、API 调用、文件系统操作等工具平起平坐。场景决定架构对于需要从海量、非结构化数据中快速筛选信息的场景如智能客服、企业知识库初筛由 Agent 驱动的、高度工程化的高级 RAG 系统仍是最佳选择。长上下文的统治力对于需要对少量、结构复杂的文档进行深度推理和分析的场景如财报分析、法律合同审查「长上下文窗口 Agent 调查」的范式将展现出碾压性的优势。对于开发者而言关键在于理解不同技术范式的优劣并根据具体的应用场景灵活地将它们组合成最高效、最可靠的解决方案。最后对于正在迷茫择业、想转行提升或是刚入门的程序员、编程小白来说有一个问题几乎人人都在问未来10年什么领域的职业发展潜力最大答案只有一个人工智能尤其是大模型方向当下人工智能行业正处于爆发式增长期其中大模型相关岗位更是供不应求薪资待遇直接拉满——字节跳动作为AI领域的头部玩家给硕士毕业的优质AI人才含大模型相关方向开出的月基础工资高达5万—6万元即便是非“人才计划”的普通应聘者月基础工资也能稳定在4万元左右。再看阿里、腾讯两大互联网大厂非“人才计划”的AI相关岗位应聘者月基础工资也约有3万元远超其他行业同资历岗位的薪资水平对于程序员、小白来说无疑是绝佳的转型和提升赛道。对于想入局大模型、抢占未来10年行业红利的程序员和小白来说现在正是最好的学习时机行业缺口大、大厂需求旺、薪资天花板高只要找准学习方向稳步提升技能就能轻松摆脱“低薪困境”抓住AI时代的职业机遇。如果你还不知道从何开始我自己整理一套全网最全最细的大模型零基础教程我也是一路自学走过来的很清楚小白前期学习的痛楚你要是没有方向还没有好的资源根本学不到东西下面是我整理的大模型学习资源希望能帮到你。扫码免费领取全部内容1、大模型学习路线2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、入门必看大模型学习书籍文档.pdf书面上的技术书籍确实太多了这些是我精选出来的还有很多不在图里4、AI大模型最新行业报告2026最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、面试试题/经验【大厂 AI 岗位面经分享107 道】【AI 大模型面试真题102 道】【LLMs 面试真题97 道】6、大模型项目实战配套源码适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

RAG已死？收藏这篇，小白程序员必看：上下文工程才是大模型未来！

相关文章：

RAG已死？收藏这篇，小白程序员必看：上下文工程才是大模型未来！

打破偏见！Java做AI不是不行，是2026年最被低估的红利

从零构建卡组构筑器：React+TS实战与复杂状态管理解析

K210+STM32F103C8T6低成本送药小车：一个电赛小白的完整避坑与调参记录

一键部署本地大模型：基于vLLM与Hermes的AI对话服务搭建指南

STM32H7网络通信避坑指南：CubeMX配置LWIP 2.1.2时，这几个DCache和ETH的选项千万别选错

Boss-Key：Windows用户必备的窗口隐私保护神器，告别尴尬瞬间

企业级AI智能体评测平台AgentLab：构建、评估与部署实战指南

Llama 的演变：从 Llama 1 到 Llama 3.1

开源实时监控告警引擎OpenAlerts：从原理到生产部署实战

R 和 Python 数据可视化必备库的精华指南

Qgis二次开发-QgsAnnotationItem实战：构建交互式地图标注系统（文字、SVG、PNG/JPG）

AI智能体配置管理：从环境变量到结构化配置的工程实践

基于CircuitPython与BLE的无线手势鼠标：从传感器到HID设备的实践

基于CircuitPython与CRICKIT的仿生机械手制作：从PWM控制到交互实现

考古现场数据智能治理新范式（NotebookLM+地层学语义建模深度解析）

国产替代浪潮下，琳科森：深耕半导体封装胶膜，做 “小而精” 的硬核材料企业

基于哈希匹配的PT断种自动化修复工具Reseed部署与实战

PhonePi-MCP：基于MCP协议实现AI智能体自动化操控Android手机

如何通过虚拟地址查找物理地址

Cadence 17.4重装系统后，PCB快捷键失灵？别急着重装，先检查这个‘文件类型’

xpull：轻量级声明式文件同步工具的设计原理与K8s实战

Perplexity最新v2.4文档重大更新预警：3个已删除接口、2个强制迁移路径、1个即将下线的Auth Flow——错过今晚将无法兼容生产环境

AI应用开发利器：NeuroAPI网关统一管理多模型调用与部署实战

win2xcur：Windows光标主题完美移植Linux的格式转换指南

基于Code Llama的本地AI编程助手：VSCode插件部署与优化实战

微信网页版访问终极指南：wechat-need-web插件完整教程

贝锐洋葱头：代运营团队必备！验证码自动转发、轻松多账号登录

用AI工具做技术课程：一个人完成录课、剪辑、上架全流程

autoloom：自动化工作流编排框架的设计原理与实践指南