当前位置：首页 > article >正文

收藏！小白程序员必看：揭秘 Anthropic、OpenAI 等大模型构建核心——智能体脚手架工程

article 2026/4/21 8:13:24

本文深入解析了 Anthropic、OpenAI、Perplexity 和 LangChain 等前沿 AI 公司/AI 工具构建的核心技术即“智能体脚手架”。文章详细阐述了脚手架工程的重要性包括编排循环、工具、记忆、上下文管理等功能并通过对比生产级与玩具级智能体的差异突出了脚手架在提升模型智能体行为能力方面的关键作用。此外还介绍了脚手架的12个核心组件以及如何通过脚手架设计提升智能体性能为读者提供了全面且实用的技术指导。问题不在模型而在模型周围的一切。LangChain 已经证明了这一点他们只改动了 LLM 外层的基础设施同一个模型、同样的权重就从 TerminalBench 2.0一项智能体编码能力评测基准排名前 30 开外跃升至第 5 名。另一个独立研究项目让 LLM 自己优化基础设施达到了 76.4% 的通过率超越了人工设计的系统。这套基础设施有了名字智能体脚手架Agent Harness。这个术语在 2026 年初被正式提出但概念早已存在。脚手架是包裹 LLM 的完整软件基础设施编排循环、工具、记忆、上下文管理、状态持久化、错误处理和护栏Guardrails。Anthropic 的 Claude Code 文档直截了当地说SDK 就是驱动 Claude Code 的智能体脚手架。OpenAI 的 Codex 团队使用同样的表述明确将智能体和脚手架等同起来指代让 LLM 真正可用的非模型基础设施。LangChain 的 Vivek Trivedy 给出了一个我很喜欢的经典公式“如果你不是模型你就是脚手架。”这里有个容易让人搞混的关键区分。“智能体是涌现出的行为那个有目标、会用工具、能自我纠错的实体用户与之交互。脚手架则是产生这种行为的机械装置。当有人说我构建了一个智能体”他们的意思是构建了一套脚手架然后把它指向一个模型。Beren Millidge 在 2023 年的文章Scaffolded LLMs as Natural Language Computers[1]中精确地阐述了这个类比。一个裸 LLM 就是一颗没有 RAM、没有磁盘、没有 I/O 的 CPU。上下文窗口充当 RAM快但容量有限外部数据库充当磁盘存储容量大但慢工具集成相当于设备驱动而脚手架就是操作系统。正如 Millidge 所写“我们重新发明了冯·诺依曼架构”——因为它是任何计算系统的自然抽象。三层工程围绕模型有三个层次递进的工程• 提示工程Prompt Engineering精心设计模型接收的指令。• 上下文工程Context Engineering管理模型看到什么、何时看到。• 脚手架工程Harness Engineering涵盖前两者外加整个应用基础设施工具编排、状态持久化、错误恢复、验证循环Verification Loops、安全执行和生命周期管理。脚手架不是提示词的包装器。它是使自主智能体行为成为可能的完整系统。生产级脚手架的 12 个核心组件综合 Anthropic、OpenAI、LangChain 及更广泛的实践者社区的经验一套生产级智能体脚手架包含 12 个不同组件。让我们逐一拆解。编排循环这是心脏跳动的节拍。它实现了 TAO 循环思考 - 行动 - 观察即 ReAct 循环组装提示词、调用 LLM、解析输出、执行工具调用、将结果回传、重复直到完成。从机制上看它往往就是一个 while 循环。复杂性不在循环本身而在循环所管理的一切。Anthropic 将他们的运行时描述为一个笨循环——所有智能都在模型里脚手架只负责管理轮次。工具工具是智能体的双手。它们以 schema 的形式定义名称、描述、参数类型注入 LLM 的上下文中让模型知道有哪些可用能力。工具层负责注册、schema 校验、参数提取、沙箱执行、结果捕获以及将结果格式化为 LLM 可读的观察信息。Claude Code 提供六大类工具文件操作、搜索、执行、网络访问、代码智能和子智能体生成。OpenAI 的 Agents SDK 支持函数工具通过 function_tool、托管工具WebSearch、CodeInterpreter、FileSearch和 MCP 服务器工具。记忆记忆在多个时间尺度上运作。短期记忆是单次会话内的对话历史。长期记忆跨会话持久化Anthropic 使用 CLAUDE.md[2] 项目文件和自动生成的 MEMORY.md[3] 文件LangGraph 使用按命名空间组织的 JSON StoresOpenAI 支持基于 SQLite 或 Redis 的 Sessions。Claude Code 实现了三级层次结构轻量级索引每条约 150 字符始终加载、按需拉取的详细主题文件、以及仅通过搜索访问的原始记录。一个关键设计原则智能体将自身记忆视为提示在行动前与实际状态进行验证。上下文管理很多智能体就是在这里无声地翻车的。核心问题是上下文腐化Context Rot当关键内容落在窗口中段位置时模型性能下降超过 30%Chroma 研究得到 Stanford “Lost in the Middle” 研究的印证——该研究发现 LLM 对上下文窗口中间位置的信息关注度最低。即便是百万 token 的窗口随着上下文增长指令遵循能力也会退化。生产级策略包括• 压缩Compaction在接近上下文限制时对对话历史进行摘要Claude Code 保留架构决策和未解决的 bug同时丢弃冗余的工具输出• 观察遮蔽Observation MaskingJetBrains 的 Junie 隐藏旧的工具输出但保留工具调用可见• 即时检索Just-in-time Retrieval维护轻量级标识符按需动态加载数据Claude Code 使用 grep、glob、head、tail 而非加载完整文件• 子智能体委托Sub-agent Delegation每个子智能体进行深入探索但只返回 1,000 到 2,000 token 的精炼摘要Anthropic 的上下文工程指南明确了目标找到最小的高信号 token 集合最大化期望结果的可能性。提示构建这一步组装模型在每一轮实际看到的内容。它是分层的系统提示词、工具定义、记忆文件、对话历史和当前用户消息。OpenAI 的 Codex 使用严格的优先级栈服务端控制的系统消息最高优先级、工具定义、开发者指令、用户指令级联的 AGENTS.md[4] 文件32 KiB 上限最后是对话历史。输出解析现代脚手架依赖原生工具调用——模型返回结构化的 tool_calls 对象而非需要解析的自由文本。脚手架的检查逻辑有工具调用执行并继续循环。没有工具调用那就是最终答案。对于结构化输出OpenAI 和 LangChain 都支持通过 Pydantic 模型进行 schema 约束的响应。传统方案如 RetryWithErrorOutputParser将原始提示、失败的补全和解析错误一起回传给模型仍可用于边缘场景。状态管理LangGraph 将状态建模为流经图节点的类型化字典用 reducer 合并更新。检查点Checkpointing在超级步边界处执行支持中断后恢复和时间旅行调试。OpenAI 提供四种互斥策略应用内存、SDK sessions、服务端 Conversations API或轻量级的 previous_response_id 链式调用。Claude Code 另辟蹊径用 git commit 作为检查点用 progress 文件作为结构化草稿本。错误处理为什么这很重要一个 10 步流程即使每步成功率 99%端到端成功率也只有约 90.4%。错误累积的速度非常快。LangGraph 区分四种错误类型瞬时错误带退避的重试、LLM 可恢复错误将错误作为 ToolMessage 返回让模型自行调整、用户可修复错误中断等待人工输入、意外错误上抛用于调试。Anthropic 在工具处理器内捕获失败并作为错误结果返回以保持循环继续运行。Stripe 的生产级脚手架将重试次数上限设为两次。护栏与安全OpenAI 的 SDK 实现了三个层级输入护栏在首个智能体上运行、输出护栏在最终输出上运行和工具护栏在每次工具调用时运行。触发线Tripwire机制一旦触发就立即中止智能体。Anthropic 在架构上将权限执行与模型推理分离。模型决定尝试什么工具系统决定什么被允许。Claude Code 独立地管控约 40 个离散工具能力分三个阶段执行项目加载时的信任建立、每次工具调用前的权限检查、以及高风险操作的显式用户确认。验证循环这是区分玩具级演示和生产级智能体的分水岭。Anthropic 推荐三种方式基于规则的反馈测试、lint、类型检查、视觉反馈通过 Playwright 截图用于 UI 任务、以及 LLM 充当评审LLM-as-judge由独立的子智能体评估输出。Claude Code 的创建者 Boris Cherny 指出给模型一种验证自身工作的手段能将质量提升 2 到 3 倍。子智能体编排Claude Code 支持三种执行模型Fork与父上下文字节级相同的副本、Teammate独立终端面板通过基于文件的信箱通信和 Worktree拥有独立 git worktree每个智能体一个隔离分支。OpenAI 的 SDK 支持智能体即工具agents-as-tools专家处理有边界的子任务和交接Handoff专家接管全部控制权。LangGraph 则将子智能体实现为嵌套状态图。循环运转逐步演练了解了各组件之后让我们追踪一个完整循环中它们是如何协同工作的。第 1 步提示组装脚手架构建完整输入——系统提示词工具 schema 记忆文件对话历史当前用户消息。重要上下文被放置在提示的开头和末尾即 “Lost in the Middle” 研究发现的最佳实践。第 2 步LLM 推理组装好的提示发送至模型 API。模型生成输出 token文本、工具调用请求或两者兼有。第 3 步输出分类如果模型只产出了文本而没有工具调用循环结束。如果请求了工具调用则进入执行阶段。如果请求了交接Handoff则更新当前智能体并重启循环。第 4 步工具执行对每个工具调用脚手架校验参数、检查权限、在沙箱环境中执行并捕获结果。只读操作可并行执行修改操作串行执行。第 5 步结果封装工具结果被格式化为 LLM 可读的消息。错误被捕获并作为错误结果返回以便模型自我纠正。第 6 步上下文更新结果追加到对话历史中。如果接近上下文窗口限制脚手架触发压缩。第 7 步循环回到第 1 步。重复直到终止。终止条件是分层的模型产出了不含工具调用的响应、超过最大轮次限制、token 预算耗尽、护栏触发线触发、用户中断、或返回了安全拒绝。一个简单问题可能只需 1 到 2 轮而一个复杂的重构任务可以跨多轮串联数十次工具调用。对于跨越多个上下文窗口的长时间运行任务Anthropic 开发了一种两阶段的Ralph Loop模式[5]Ralph Loop 是 Anthropic 提出的长任务执行模式初始化智能体搭建环境初始化脚本、进度文件、功能列表、初始 git commit然后编码智能体在后续每个会话中读取 git 日志和进度文件来定位自己的位置选取最高优先级的未完成功能完成开发、提交并撰写摘要。文件系统在上下文窗口之间提供了连续性。真实框架如何实现这套模式Anthropic 的 Claude Agent SDK 通过一个 query() 函数暴露脚手架该函数创建智能体循环并返回一个异步迭代器来流式传输消息。运行时就是一个笨循环所有智能都在模型里。Claude Code 使用收集 - 行动 - 验证循环收集上下文搜索文件、阅读代码、采取行动编辑文件、执行命令、验证结果运行测试、检查输出如此反复。OpenAI 的 Agents SDK 通过 Runner 类实现脚手架提供三种模式异步、同步和流式。该 SDK 是代码优先的工作流逻辑用原生 Python 表达而非图 DSL。Codex 脚手架在此基础上扩展了三层架构Codex Core智能体代码运行时、App Server双向 JSON-RPC API和客户端界面CLI、VS Code、Web 应用。所有界面共享同一套脚手架——这就是为什么Codex 模型在 Codex 自家界面上感觉比在通用聊天窗口里好用得多。LangGraph 将脚手架建模为显式状态图。两个节点llm_call 和 tool_node通过条件边相连如果存在工具调用路由到 tool_node如果没有路由到 END。LangGraph 由 LangChain 的 AgentExecutor 演进而来——后者在 v0.2 中被弃用因为难以扩展且缺乏多智能体支持。LangChain 的 Deep Agents 明确使用了智能体脚手架这个术语内置工具、规划write_todos 工具、用文件系统管理上下文、子智能体生成和持久化记忆。CrewAI 实现了基于角色的多智能体架构Agent围绕 LLM 的脚手架由角色、目标、背景故事和工具定义、Task工作单元和 Crew智能体集合。CrewAI 的 Flows 层增加了确定性骨架在关键处注入智能——管理路由和校验而 Crew 负责自主协作。AutoGen正在演进为 Microsoft Agent Framework率先提出了对话驱动的编排。它的三层架构Core、AgentChat、Extensions支持五种编排模式顺序、并发扇出/扇入、群聊、交接以及 magentic管理者智能体维护一个动态任务账本来协调各专家。脚手架隐喻脚手架这个比喻不是随便说说。它很精确。建筑脚手架是临时基础设施让工人能到达原本够不着的楼层。脚手架本身不做建造工作但没有它工人就上不了高层。关键洞察建筑完工后脚手架就该拆除。随着模型能力提升脚手架复杂度应当降低。Manus 在六个月内重建了五次每次重写都在削减复杂度——复杂的工具定义变成了通用 shell 执行管理者智能体变成了简单的结构化交接。这揭示了协同进化原则模型如今在训练后阶段post-training就将特定脚手架纳入闭环。Claude Code 的模型学会了使用它所训练时搭配的那套脚手架。正因为这种紧密耦合修改工具实现可能导致性能下降。脚手架设计的前瞻性测试如果更强的模型能提升性能而无需增加脚手架复杂度那么这个设计就是合理的。定义每套脚手架的七个关键决策每个脚手架架构师都要面对七个选择单智能体 vs. 多智能体。Anthropic 和 OpenAI 都说先把单智能体做到极致。多智能体系统带来额外开销路由需要额外 LLM 调用、交接时上下文丢失。只有当工具过载超过约 10 个重叠工具或存在明确独立的任务领域时才考虑拆分。ReAct vs. 先规划后执行。ReAct 在每一步交织推理和行动灵活但单步成本高。先规划后执行将规划与执行分离。LLMCompiler一种并行优化 LLM 调用的研究方法报告相比顺序 ReAct 有 3.6 倍的加速。上下文窗口管理策略。五种生产级方案基于时间的清除、对话摘要、观察遮蔽、结构化笔记和子智能体委托。ACON 研究智能体上下文优化研究表明通过优先保留推理轨迹而非原始工具输出可在保持 95% 以上准确率的同时减少 26% 到 54% 的 token 消耗。验证循环设计。计算型验证测试、lint提供确定性的事实依据。推理型验证LLM 充当评审能捕获语义问题但增加延迟。Martin Fowler 的 Thoughtworks 团队将其总结为向导前馈行动前引导和传感器反馈行动后观测。权限与安全架构。宽松模式快但有风险自动批准大多数操作vs. 严格模式安全但慢每个操作都需审批。选择取决于部署场景。工具范围管理Tool Scoping策略。工具越多往往性能越差。Vercel 从 v0 中移除了 80% 的工具反而获得了更好的效果。Claude Code 通过懒加载实现了 95% 的上下文缩减。原则只暴露当前步骤所需的最小工具集。脚手架厚度。多少逻辑放在脚手架里多少留给模型。Anthropic 押注薄脚手架和模型能力提升。基于图的框架押注显式控制。Anthropic 定期从 Claude Code 的脚手架中删除规划步骤因为新版本模型已经内化了这些能力。脚手架即产品使用相同模型的两个产品仅凭脚手架设计的不同就能产生截然不同的性能表现。TerminalBench 的证据很明确仅改变脚手架就让智能体的排名变动了 20 位以上。脚手架既不是已解决的问题也不是一个商品化的层。真正的硬核工程所在就在这里将上下文作为稀缺资源来管理、设计在错误累积之前就能拦截的验证循环、构建提供连续性而不产生幻觉Hallucination的记忆系统以及在多少交给脚手架、多少留给模型之间做出架构抉择。行业正在走向更薄的脚手架。但脚手架本身不会消失。即使是最强大的模型也需要某种东西来管理上下文窗口、执行工具调用、持久化状态和验证输出。下次你的智能体失败了别怪模型。看看脚手架。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

收藏！小白程序员必看：揭秘 Anthropic、OpenAI 等大模型构建核心——智能体脚手架工程

相关文章：

收藏！小白程序员必看：揭秘 Anthropic、OpenAI 等大模型构建核心——智能体脚手架工程

React Fiber 架构的调度机制原理

题解：洛谷 P1914 小书童——凯撒密码

Vue前端实现Lingbot深度估计结果实时可视化交互

DLSS Swapper终极指南：如何轻松升级游戏画质技术版本

Moon主题开发原理深度解析：Jekyll架构与主题设计哲学

【Unity】打包发布到微信平台详细过程

终极指南：如何用LeaguePrank安全定制你的英雄联盟游戏形象

yz-bijini-cosplay LoRA组合魔法：两个Cosplay LoRA叠加生成新风格实验

2026年，华为、阿里、腾讯云谁能在Token驱动的AI新世界掌控“收税权”？

s2-pro语音合成镜像使用指南：支持参考音频复用音色，打造个性化语音

解锁60帧限制：原神FPS解锁工具完全指南

3 年→ 资深开发速通计划序言，开发者服务

告别手动抢购：用JDspyder实现京东商品自动化预约与秒杀

BitNet b1.58-2B-4T-GGUF效果展示：4096上下文下长文档总结与精准问答对比

深入nbviewer架构：理解多Provider和Format渲染机制

AndroidUSBCamera媒体捕获完全解析：照片、视频、音频一站式解决方案

AccessControl.js未来展望：探索下一代权限控制技术趋势

Parseable Kafka连接器深度解析：实现实时数据流处理

Node.js连接SQL Server终极指南：node-mssql快速入门教程

Krita-AI-Diffusion插件安装失败：Linux系统Python虚拟环境创建错误完全解决指南

Windows Cleaner终极指南：5步彻底解决C盘爆红问题

告别SSLError！手把手教你离线安装Sentence Transformers的all-MiniLM-L6-v2模型（附国内镜像源）

DLSS Swapper深度解析：多平台游戏渲染技术版本管理架构揭秘

深入理解DSP28335的PWM模块：如何用EPWM实现三相电机控制（附代码分析）

NVIDIA Profile Inspector终极指南：解锁隐藏驱动设置，优化游戏性能

Moody’s Agentic Solutions登陆AWS Marketplace

如何通过Swift Package Index提升Mantle框架的依赖管理质量

如何选择最适合实时通信的跨平台开发框架：FastRTC技术栈深度对比指南

STM32低功耗模式实战：为什么你的WFI指令总是不休眠？手把手教你排查SysTick中断