当前位置：首页 > article >正文

收藏！从「外挂」到「脑子」一文读懂LLM Agent进化逻辑，小白也能看懂大模型

article 2026/4/23 6:39:52

本文介绍了上交大和中科院团队的综述论文《Externalization in LLM Agents》提出大模型Agent的核心进化在于将认知负担从模型中搬出去即通过外化记忆、技能和协议来提升可靠性。文章将Agent发展分为三个时代能力在权重里、能力在上下文里、能力在Harness里并详细阐述了外化记忆、技能和协议的概念及其重要性。此外还介绍了Harness如何将三者缝合起来以及未来几个有趣的方向如具身智能里的同构、自进化Harness和从私有脚手架到共享基础设施。文章最后强调Agent能力是一个可以被系统化设计的工程问题这对实际做Agent开发的人来说非常重要。最近刷到一篇来自上交大和中科院团队的综述发表于2026年4月题目叫Externalization in LLM Agents说的是一个很有意思的视角大模型Agent的核心进化不是在把模型做得更大而是在把认知负担一件一件地搬出去。读完之后觉得这个框架真的很有解释力结合最近做Agent开发的感受整理成这篇文章。先说个反直觉的结论很多人觉得Agent能力强不强关键看底座模型好不好。这话没错但不够准确。论文里给了一个很直白的观察实际系统里很多可靠性的提升根本没有改模型参数。是通过加持久化记忆、整理可复用的技能文件、标准化工具接口、约束执行流程、给行为打日志……来实现的。问题的核心从模型多能变成了模型外面那圈东西有多好。这个框架论文叫做Externalization外化借的是认知科学家Norman的认知制品理论。核心洞察其实很朴素制品的力量不在于它给你加了什么能力而在于它改变了任务本身的形态。购物清单不是扩大了人类的记忆容量它把回忆这件困难的事变成了对照这件容易的事。地图不是让人变成导航达人它把隐藏的空间关系变成了眼睛直接可见的结构。LLM Agent的基础设施做的是同一件事。三层演进从权重到上下文再到Harness论文把近几年大模型Agent的发展分成了三个时代。第一层能力在权重里。模型越大越好知识都烧进参数里想更新一个事实就要重新训练。那时候大家的思路就是堆参数、堆数据、搞对齐。这没什么问题但问题在于知识、流程、策略都被锁死在一个静态的模型文件里想查、想改、想针对不同用户差异化都很难。第二层能力在上下文里。Chain-of-Thought、RAG、ReAct……这些方法的共同逻辑是不改模型而是把任务需要的信息、推理步骤在调用前塞进去。这把模型记住了吗这个召回问题变成了把答案放在眼前模型能用吗的识别问题效率高多了。但上下文窗口是有限的而且是一次性的会话结束就忘多智能体协同也没有公共的接口标准。第三层能力在Harness里。这就是现在正在发生的事。可靠性越来越依赖于模型外面的那圈持久化设施记忆库、技能文件、协议层、沙箱、审批门、日志系统……模型仍然是推理引擎但智能不再只住在模型里。外化的三个维度论文把需要从模型里搬出去的负担分成三类。记忆把状态搬出去裸模型没有记忆。每次对话都是白纸开始。用户的偏好、上次任务的进度、已经踩过的坑都要靠提示词手动携带这既浪费Token也不可靠。外化记忆之后记忆系统接管了这件事。论文把需要存的状态分成四层当前任务的工作上下文、历史执行的情节记忆、跨任务的语义知识、跟特定用户绑定的个性化偏好。从架构上系统也从整个历史塞进提示词进化到按需检索再到分层管理、主动遗忘最新的方向甚至是用强化学习来优化检索策略。关键洞察记忆好不好不在于存了多少而在于能不能在对的时候把对的东西调出来。让当前决策看得清楚才是记忆系统的真正目标。技能把流程搬出去模型每次执行任务都要从权重里临时发明一套工作流。步骤顺序、遇到分支怎么选、什么情况下停止……每次都可能不一样。长任务、多步骤任务里这种不稳定性是真实的痛点。外化技能就是把这类任务该怎么做写成一个显式的、可复用的制品——比如一个SKILL.md文件说清楚适用场景、执行步骤、约束条件、注意事项。技能不只是提示词也不只是工具。工具暴露的是能做什么操作协议规范的是怎么调用这个操作技能编码的是这类任务应该怎么完成是更高层的程序性知识。论文提了一个很有意思的机制叫Progressive Disclosure渐进展开先只把技能名字和摘要给模型看只有真的需要的时候才把完整的步骤指南加载进来。这样避免了一上来就把上下文塞满没用的细节——Claude Code的技能系统就是这个思路。协议把交互搬出去模型跟外部工具、其他Agent交互的时候如果全靠自由发挥生成格式非常脆弱。工具接口变了、另一个Agent的理解方式不同都可能导致整个链路崩掉。协议把这件事变成了结构化的契约字段类型是什么、调用的状态机是什么、权限边界在哪、怎么发现有哪些能力可以用。MCPAnthropic推的Model Context Protocol是Agent-工具协议里最具代表性的解决的就是每个工具都要单独适配的问题。A2AGoogle、ACPIBM解决的是Agent之间怎么标准化协作。AG-UI、A2UI解决的是Agent执行状态怎么标准化暴露给前端界面。这些协议的价值不只是让调用更整齐而是把格式对不对、权限够不够、状态机走到哪这些判断从模型的推理任务里移除掉交给运行时来强制保证。Harness把三者缝合起来的那一层记忆、技能、协议各自解决了一块但它们各自为政就是一堆散件。把它们缝合成一个能跑起来的系统靠的是Harness。论文把Harness的核心职责拆成六个维度执行循环与控制流负责感知—检索—规划—行动—观察这个循环的调度同时设置最大步数、递归深度、资源上限防止无限循环或爆费。沙箱与执行隔离决定Agent能碰什么、不能碰什么让副作用可控、失败可回滚。人工审批门对敏感操作或高风险步骤暂停等待确认自主程度是可配置的参数不是非此即彼的开关。可观测性与结构化反馈每次调用、每个工具调用、每次记忆读写都留下结构化日志一方面用于调试和审计另一方面把失败记录写回记忆为技能优化提供依据。配置、权限与策略编码把能做什么、不能做什么、在什么条件下可以从提示词里抽出来变成可版本管理、可分层继承的声明式规则。上下文预算管理记忆检索、技能加载、协议schema、工具描述都在抢同一个Token窗口Harness负责在不同执行阶段动态分配而不是让它们无序地互相挤占。三者之间的联动论文里有一张循环图把记忆、技能、协议之间的流向画得很清楚这里用文字说一下记忆积累的执行轨迹经过蒸馏能变成可复用的技能技能执行产生的新轨迹又写回记忆让技能有了自我修正的依据。技能最终要通过协议绑定到可执行的工具或子Agent上才能真的跑起来而协议调用的结果又要被规范化地写入记忆才能支撑后续的决策。记忆里的历史经验还能影响协议路由的选择比如某个工具反复失败系统可以学会优先走别的路。这个闭环系统有个好处也有个风险。好处是能够自我强化更好的记忆带来更好的技能更好的技能积累更丰富的记忆。风险是错误也会自我放大一条被污染的记忆可能蒸馏出一个有缺陷的技能这个技能的执行结果再进一步污染记忆。单靠某一个模块自己的质量控制没法打断这个级联——这是Harness层面必须要管的问题。往后看几个有意思的方向论文末尾谈了几个前沿方向选几个我觉得比较值得关注的说一下。具身智能里的同构。VLA模型视觉-语言-动作模型的演进正在复刻数字Agent的这套外化逻辑。原来想用一个大模型端到端解决感知、规划、执行现在越来越多的系统把高层规划交给LLM/VLM把底层的精细操作交给专门的VLA技能模块两者之间用结构化协议通信。这跟大脑皮层和小脑的分工异曲同工。自进化Harness。现在修记忆策略、改技能文件、优化执行逻辑主要还是靠人工。如果把Harness的配置本身也变成可程序化修改的对象Agent系统就能在三个层面自我进化策略层调整检索粒度、技能排序规则、管线层重新安排调度策略、边界层决定什么时候新增一个外化模块什么时候裁掉一个冗余的。这很诱人但风险也在这里——失控的自进化可能引入新问题的速度比解决旧问题还快。从私有脚手架到共享基础设施。现在大多数外化设施是一个Agent一套但协作链路变长之后共享记忆、共享技能库、统一协议的需求会越来越强。这时候技能文件开始类似于开源库记忆系统开始类似于共同知识库而配套的版本管理、权限审计、溯源机制也就变成了Agent生态的治理基础设施。最后这篇论文提供的最有价值的视角是把Agent能力这个模糊的概念拆解成了一个可以被系统化设计的工程问题哪些认知负担应该留在模型里哪些应该搬出去搬出去之后用什么形式组织不同形式之间怎么联动联动过程怎么被治理。这对实际做Agent开发的人来说比单纯比较模型benchmark要有用得多。模型好坏当然重要但很多时候系统可不可靠靠的是外面那圈东西设计得好不好。那么如何学习大模型 AI 对于刚入门大模型的小白或是想转型/进阶的程序员来说最头疼的就是找不到系统、全面的学习资源要么零散不成体系要么收费高昂白白浪费时间走弯路。今天就给大家精心整理了一份全面且免费的AI大模型学习资源包覆盖从入门到实战、从理论到面试的全流程所有资料均已整理完毕免费分享给各位核心包含AI大模型全套系统化学习路线图小白可直接照做、精品学习书籍电子文档、干货视频教程、可直接上手的实战项目源码、2026大厂面试真题题库一站式解决你的学习痛点不用再到处搜集拼凑扫码免费领取全部内容1、大模型系统化学习路线学习大模型方向比努力更重要很多小白入门就陷入“盲目看视频、乱刷资料”的误区最后越学越懵。这里给大家整理的这份学习路线是结合2026年大模型行业趋势和新手学习规律设计的最科学、最系统从零基础到精通每一步都有明确指引帮你节省80%的无效学习时间少走弯路、高效进阶。2、大模型学习书籍文档理论是实战的根基尤其是对于程序员来说想要真正吃透大模型原理离不开优质的书籍和文档支撑。本次整理的书籍和电子文档均由大模型领域顶尖专家、大厂技术大咖撰写涵盖基础入门、核心原理、进阶技巧等内容语言通俗易懂既有理论深度又贴合实战场景小白能看懂程序员能进阶为后续实战和面试打下坚实基础。3、AI大模型最新行业报告无论是小白了解行业、规划学习方向还是程序员转型、拓展业务边界都需要紧跟行业趋势。本次整理的2026最新大模型行业报告针对互联网、金融、医疗、工业等多个主流行业系统调研了大模型的应用现状、发展趋势、现存问题及潜在机会帮你清晰了解哪些行业更适合大模型落地哪些技术方向值得重点深耕避免盲目学习精准对接行业需求。值得一提的是报告还包含了多模态、AI Agent等前沿方向的发展分析助力大家把握技术风口。4、大模型项目实战配套源码对于程序员和想落地能力的小白来说“光说不练假把式”只有动手实战才能真正巩固所学知识将理论转化为实际能力。本次整理的实战项目涵盖基础应用、进阶开发、多场景落地等类型每个项目都附带完整源码和详细教程从简单的ChatPDF搭建到复杂的RAG系统开发、大模型部署难度由浅入深小白可逐步上手程序员可直接参考优化既能练手提升技术又能丰富简历为求职和职业发展加分。5、大模型大厂面试真题2026年大模型面试已从单纯考察原理转向侧重技术落地和业务结合的综合考察很多程序员和新手因为缺乏针对性准备明明技术不错却在面试中失利。为此我精心整理了各大厂最新大模型面试真题题库涵盖基础原理、Prompt工程、RAG系统、模型微调、部署优化等核心考点不仅有真题还附带详细解题思路和行业踩坑经验帮你精准把握面试重点提前做好准备面试时从容应对、游刃有余。6、四阶段精细化学习规划附时间节点可直接照做结合上述资源给大家整理了一份可直接落地的四阶段学习规划总时长约2个月小白可循序渐进程序员可根据自身基础调整节奏高效掌握大模型核心能力快速实现从“入门”到“能落地、能面试”的跨越。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

收藏！从「外挂」到「脑子」一文读懂LLM Agent进化逻辑，小白也能看懂大模型

相关文章：

收藏！从「外挂」到「脑子」一文读懂LLM Agent进化逻辑，小白也能看懂大模型

Python异步生成器与async for的内部工作机制

Three.js 工程向：资源生命周期管理与显存回收实践

Three.js 工程向：后处理性能预算与多 Pass 链路优化

bge-large-zh-v1.5实战应用：快速搭建智能文档检索系统

nli-MiniLM2-L6-H768应用落地：电商评论情感推理与法律条款矛盾检测实战

10分钟实现魔兽争霸3现代化改造：WarcraftHelper深度配置指南

为什么92%的GraalVM项目在生产环境OOM？揭秘Class Initialization Order陷阱与@AutomaticFeature强制预热方案

MelonLoader终极指南：15分钟解锁Unity游戏Mod无限可能

如何快速掌握COBRA工具箱：基因组尺度代谢网络分析的完整指南

mysql如何配置大页内存_mysql large-pages开启方法

nli-MiniLM2-L6-H768惊艳效果展示：630MB模型精准识别蕴含/矛盾/中立关系

Wan2.2-I2V-A14B快速部署：在ComfyUI中一键安装，开箱即用

Hunyuan-HY-MT1.5-1.8B实战：REST API封装详细教程

DeepAnalyze与Vue.js集成：构建数据分析仪表盘

FLUX.1-Krea-Extracted-LoRA快速试用：3个高转化率电商提示词模板分享

文墨共鸣快速上手：3步部署水墨风语义相似度AI，零基础也能玩转

nli-MiniLM2-L6-H768真实效果：医疗问诊记录在‘症状/用药/检查/随访’标签下的高置信识别

幻境·流金开源镜像部署教程：适配RTX4090/A100的显存优化方案

协议解析器生成：从协议描述自动生成解析代码

BPM引擎系列(一) BPMN是个啥-工作流引擎的通用语言

⛳️赠与读者[特殊字符]第一部分——内容介绍基于模型预测控制的车辆轨迹跟踪研究摘要针对智能车辆在行驶过程中轨迹跟踪精度不足、动态适应性较弱等问题，本文以二自由度车辆动力学模型为基础，

PolarFire SoC开发板解析：RISC-V与FPGA的高效融合

这才是全网500多万粉丝都在学的MIT公开课最配套的线性代数教材！

Phi-3.5-mini-instruct惊艳效果：对gRPC Protobuf IDL生成Go/Python双端代码

Qwen3结合LSTM时间序列分析：可视化预测与异常检测

低比特量化技术：INT与FP量化对比与应用

【2026年最新600套毕设项目分享】微信小程序的社区互助养老系统（30137）

基于1D CNN的传感器数据活动识别实战指南

【2026年最新600套毕设项目分享】微信小程序的公交信息在线查询系统（30136）