当前位置: 首页 > article >正文

Agents统一综述:Harness、记忆、Skills和协议

可靠的Agent能力不仅来自模型内部参数权重更来自将认知负担外部化到结构化基础设施中。近期上交大、中山大学、卡梅隆等发表长文对 LLMAgents中的外部化记忆、Skills、协议与Harness工程进行了统一综述借用认知工具Cognitive Artifacts理论Agent基础设施的重要性不仅在于添加辅助组件而在于将难以解决的认知负担转化为模型能更可靠处理的形式。图1外部化作为LLM Agent设计的组织原则人类认知外部化的弧线从思维→语言→文字→印刷→计算LLM Agent对应的外部化弧线从权重Weights通过三个外部化维度——记忆Memory外部化状态、技能Skills外部化专业知识、协议Protocols外部化交互——最终到达Harness harness系统。2. 从权重到上下文再到Harness能力的三次迁移展示了从2022到2026年研究重心如何从Weights预训练、Scaling Law转向ContextRAG、长上下文再到HarnessMCP工具生态、安全、多Agent协作。图2社区主题在三个能力层次上的演变2.1 权重时代Weights内在知识的局限早期的现代LLM部署几乎完全依赖模型参数。预训练将统计规律、世界知识和推理习惯压缩进权重中。Scaling Law揭示了参数规模与性能的可预测关系。局限知识更新困难需要重新训练、难以审计知识分散在数十亿参数中、缺乏个性化一套权重服务百万用户却无法区分。2.2 上下文时代Context提示工程的崛起能力开始从模型内部向输入设计转移。少样本示例、思维链Chain-of-Thought、RAG检索增强生成等技术证明不必修改权重仅通过精心设计的上下文就能显著改变模型行为。关键转变将困难的回忆问题模型必须从参数中恢复知识转化为简单的识别问题模型只需使用已提供的上下文。2.3 Harness时代基础设施即能力随着上下文窗口饱和和提示模板变得笨重工程注意力转向模型应在什么样的环境中运行。图3Harnessed LLM Agent的外部化架构Harness层包括持久记忆存储、工具注册表、协议定义、沙箱、子Agent编排、评估器等。可靠性越来越多地通过改变环境而非提示模型来解决。3. 外部化状态记忆系统Memory记忆外部化解决的是Agent的时间连续性负担。原生LLM是无状态生成器每次调用都是全新的上下文连续性必须在提示中重建。图4作为外部化状态的记忆展示了从原始上下文到记忆内容的转换以及四种记忆系统架构单体上下文、检索存储、分层编排提取-巩固-遗忘-冷热交换和自适应记忆系统动态模块、基于反馈的策略优化。架构演进单体上下文所有历史保留在提示中简单但容量受限上下文检索存储近端状态在上下文长期轨迹外部存储RAG模式分层记忆与编排引入显式的提取、巩固和遗忘操作如MemGPT、Memory OS自适应记忆系统模块和检索策略能根据经验响应如MemEvolve、MemRL认知工具视角记忆系统将无界回忆转化为有界、精选的检索改变了模型在每个决策点面临的任务结构。4. 外部化专业知识技能系统Skills技能外部化解决的是程序性负担。模型可能知道如何完成任务但可靠执行需要重复构建工作流、默认值和约束这导致方差遗漏步骤、不稳定的工具使用、不一致的终止条件。4.1 技能的三个组件操作程序Operational Procedure任务骨架步骤分解、阶段、依赖、停止条件决策启发Decision Heuristics分支点的实用经验法则先尝试什么、何时退出规范约束Normative Constraints可接受性的边界测试要求、范围限制、访问控制4.2 从执行原语到能力包技能系统经历了三个阶段阶段1原子执行原语如Toolformer——稳定调用单个工具阶段2大规模原语选择如Gorilla、ToolLLM——在大量工具中检索选择阶段3技能作为打包的专业知识——将任务类别的操作方法打包为可重用单元图5作为外部化专业知识的技能展示了技能的完整生命周期从获取专家编写、从情景记忆蒸馏、环境探索发现、现有单元组合到技能工件操作程序、决策启发、规范约束再到激活流水线注册表发现、渐进式披露、组合最后在运行时执行。关键机制渐进式披露不一次性加载完整技能文档而是分层暴露名称→摘要→完整指南执行绑定技能必须通过协议接口绑定到可执行动作工具、API、文件、子Agent组合性技能可参与更高阶协调串行、并行、条件路由、递归调用5. 外部化交互协议系统Protocols协议外部化解决的是协调负担。裸模型可能推断出应该调用工具或委派子Agent但没有显式契约时它必须即兴创作消息格式、参数结构、生命周期语义和恢复行为。5.1 协议的内容维度协议将以下四个维度外部化调用语法Invocation Grammar参数名称、类型、顺序、返回结构schema化生命周期语义Lifecycle Semantics多步交互的协调规则状态机、事件流权限与信任边界授权规则、数据流向、审计要求发现元数据Discovery Metadata能力注册表、能力卡片、schema端点图6作为外部化交互的协议上图从孤立模型调用→API硬编码→标准化协议→Agent Web的演进。下图Harness通过三个功能界面实现外部化交互管理Interact与外部API/工具交互、Perceive感知环境/上下文/记忆/反馈、Collaborate与其他LLM/Agent/人类协作。5.2 协议家族综述6. 统一外部化Harness工程Harness是承载三个外部化维度记忆、技能、协议的工程层提供编排逻辑、约束、可观测性和反馈循环使外部化认知在实践中可靠运行。6.1 什么是HarnessHarness不是模型之外的第四个外部化维度而是运行时环境——模型在其内部运行通过它感知、决策和行动。图3Harnessed LLM Agent的外部化架构Harness位于中心三个外部化维度围绕它运行记忆工作上下文、语义知识、情景经验、个性化记忆、技能操作程序、决策启发、规范约束、协议Agent-用户、Agent-Agent、Agent-工具。操作元素沙箱、可观测性、压缩、评估、审批循环、子Agent编排调节Harness核心与外部化模块的交互。6.2 Harness设计的六个分析维度图7作为认知环境的Harness基础模型Agent核心位于中心六个Harness维度形成协调环记忆状态持久化、技能可重用例程、协议确定性接口、权限沙箱、文件隔离、控制递归边界、成本上限、可观测性结构化日志、执行轨迹。6.3 Harness作为认知环境从分布式认知理论看Harness不仅仅是软件基础设施而是塑造Agent有效认知的环境。它决定了什么进入感知领域、什么跨会话保留、哪些操作可调用、哪些行动需要审批、哪些中间状态可修订。Harness将无界任务转化为结构化环境通过外部化记忆、形式化程序、引入显式控制点和约束执行重新分配认知工作负载。7. 交叉分析模块间耦合三个外部化模块在Harness内并非孤立而是形成六条关键交互流图8记忆、技能、协议之间的耦合学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:

Agents统一综述:Harness、记忆、Skills和协议

可靠的Agent能力不仅来自模型内部参数权重,更来自将认知负担外部化到结构化基础设施中。 近期,上交大、中山大学、卡梅隆等发表长文对 LLM Agents中的外部化:记忆、Skills、协议与Harness工程进行了统一综述 借用认知工具(Cogniti…...

应届生别装熟练!诚实反而更容易过

文章目录 一、那年我面了个"表演型选手",场面一度十分尴尬二、别装了,面试官都是"人形测谎仪"三、"我不会,但我能快速学会"——这句话值多少钱?四、诚实面试的三大实操技巧,拿笔记一下4…...

字节怎么就成了AI界黄埔军校?

现在国内AI圈但凡有点名气的大模型团队,不管是大厂还是六小龙,核心岗位里几乎都能找到从字节出来的人,而且很多都是骨干、负责人、甚至联创。 这很奇怪呀?字节的AI明明是国内第一梯队! 待遇也给得拉满,百…...

如何理解Transformer模块:从Layer Normalization到Feed Forward网络的完整指南

如何理解Transformer模块:从Layer Normalization到Feed Forward网络的完整指南 【免费下载链接】transformer A TensorFlow Implementation of the Transformer: Attention Is All You Need 项目地址: https://gitcode.com/gh_mirrors/tr/transformer Transf…...

1414 - 期末考试成绩排名系统设计与实现

1. 为什么需要成绩排名系统 每次期末考试结束后,老师们最头疼的事情之一就是统计和排名学生成绩。想象一下,一个50人的班级,手动计算每个人的分数并排序,不仅耗时耗力,还容易出错。我见过不少老师用Excel表格处理&…...

从理论到实践:无人驾驶轨迹跟踪算法(Stanley、LQR、MPC)的Carsim/Simulink仿真对比与工程实现

1. 无人驾驶轨迹跟踪算法概述 第一次接触无人驾驶轨迹跟踪算法时,我被各种专业术语搞得晕头转向。直到真正动手在Carsim和Simulink里调试这些算法,才发现它们其实就像汽车的方向盘——用不同的方式引导车辆沿着预定路线行驶。轨迹跟踪算法的核心任务很简…...

IoT-Technical-Guide:物联网平台API限流与防护策略终极指南

IoT-Technical-Guide:物联网平台API限流与防护策略终极指南 【免费下载链接】IoT-Technical-Guide :honeybee: IoT Technical Guide --- 从零搭建高性能物联网平台及物联网解决方案和Thingsboard源码分析 :sparkles: :sparkles: :sparkles: (IoT Platform, SaaS, MQ…...

终极Carnac源码解析:WPF MVVM模式在键盘监控工具中的完美实践

终极Carnac源码解析:WPF MVVM模式在键盘监控工具中的完美实践 【免费下载链接】carnac A utility to give some insight into how you use your keyboard 项目地址: https://gitcode.com/gh_mirrors/ca/carnac Carnac是一款能够洞察键盘使用习惯的实用工具&a…...

手把手教你:在MounRiver Studio里为WCH RISC-V芯片切换GCC12工具链(附内存占用对比)

在MounRiver Studio中为WCH RISC-V芯片升级GCC12工具链的完整指南 当你第一次打开MounRiver Studio(MRS)并创建一个WCH RISC-V MCU工程时,系统默认会使用GCC8工具链进行编译。但你可能已经听说,新版的GCC12能带来更好的代码优化效…...

STM32CubeMX实战|FATFS文件系统在嵌入式存储中的高效应用

1. 为什么嵌入式设备需要文件系统? 刚接触嵌入式开发时,我经常直接把数据往SD卡里一存了事。直到某次项目需要存储上万条传感器数据时,才发现这种原始方式根本行不通——数据混乱不堪,查找效率极低。这才明白文件系统的重要性。 文…...

【智算中心+数据中心+机房+算力】1300余份AIDC智算中心+IDC数据中心+机房建设+算力方案报告合集

AIDC智算中心是AI时代的关键基础设施,其高功率密度、液冷散热、RDMA网络及算力池化调度等特征,与传统IDC形成显著差异。在政策强力支持、市场需求爆发、技术持续迭代的背景下,我国AIDC产业正迎来规模化、绿色化、普惠化的战略机遇期。企业应把…...

LFLiveKit网络优化秘籍:弱网丢帧与动态码率切换的终极解决方案

LFLiveKit网络优化秘籍:弱网丢帧与动态码率切换的终极解决方案 【免费下载链接】LFLiveKit LaiFeng IOS Live Kit,H264 and AAC Hard coding,support GPUImage Beauty, rtmp transmission,weak network lost frame,Dyn…...

Flutter-WebRTC:跨平台实时音视频通信的终极指南

Flutter-WebRTC:跨平台实时音视频通信的终极指南 【免费下载链接】flutter-webrtc WebRTC plugin for Flutter Mobile/Desktop/Web 项目地址: https://gitcode.com/gh_mirrors/fl/flutter-webrtc Flutter-WebRTC 是一个功能强大的 WebRTC 插件,专…...

如何将Style Dictionary与React无缝集成:打造现代化前端样式管理系统

如何将Style Dictionary与React无缝集成:打造现代化前端样式管理系统 【免费下载链接】style-dictionary A build system for creating cross-platform styles. 项目地址: https://gitcode.com/gh_mirrors/st/style-dictionary Style Dictionary 是一个强大的…...

vis核心架构解析:现代C语言实现的轻量级编辑器设计终极指南

vis核心架构解析:现代C语言实现的轻量级编辑器设计终极指南 【免费下载链接】vis A vi-like editor based on Plan 9s structural regular expressions 项目地址: https://gitcode.com/gh_mirrors/vis/vis vis是一款基于Plan 9结构化正则表达式的类vi编辑器&…...

macos简单配置openclaw幕

1 实用案例 1.1 表格样式生成 本示例用于生成包含富文本样式与单元格背景色的Word表格文档。 模板内容: 渲染代码: # python-docx-template/blob/master/tests/comments.py from docxtpl import DocxTemplate, RichText # data: python-docx-template/bl…...

如何定制ayu主题UI:分隔符、滚动条和原生标题栏配置全指南

如何定制ayu主题UI:分隔符、滚动条和原生标题栏配置全指南 【免费下载链接】ayu 🎨🖌 Modern, bright color theme for Sublime Text 项目地址: https://gitcode.com/gh_mirrors/ay/ayu ayu是一款现代明亮的Sublime Text颜色主题&…...

Ubuntu服务器部署千问3.5-2B:生产环境最佳实践

Ubuntu服务器部署千问3.5-2B:生产环境最佳实践 1. 准备工作与环境检查 在开始部署前,我们需要确保服务器环境满足基本要求。千问3.5-2B作为一款中大规模语言模型,对硬件资源有一定需求。 1.1 硬件要求 建议生产环境配置至少满足以下条件&…...

别再瞎调参了!用Python复现ZDT/DTLZ测试函数,帮你科学评估多目标优化算法

科学评估多目标优化算法:用Python实战ZDT/DTLZ测试函数 在算法研发的世界里,调参常常像是一场没有地图的探险。许多工程师花费大量时间调整算法参数,却缺乏系统的方法来验证改进是否真实有效。这就是为什么我们需要可靠的测试函数——它们如…...

终极指南:async-labs/saas代码架构解析与MobX状态管理最佳实践

终极指南:async-labs/saas代码架构解析与MobX状态管理最佳实践 【免费下载链接】saas Build your own SaaS business with SaaS boilerplate. Productive stack: React, Material-UI, Next, MobX, WebSockets, Express, Node, Mongoose, MongoDB. Written with Type…...

CloudBeaver 云数据库管理器:10个理由让你从传统工具迁移到云端

CloudBeaver 云数据库管理器:10个理由让你从传统工具迁移到云端 【免费下载链接】cloudbeaver Cloud Database Manager 项目地址: https://gitcode.com/gh_mirrors/cl/cloudbeaver CloudBeaver 是一款功能强大的云数据库管理器,采用 Java 后端与 …...

终极指南:如何快速上手AnimateAnyone - 3种角色动画制作方法

终极指南:如何快速上手AnimateAnyone - 3种角色动画制作方法 【免费下载链接】AnimateAnyone Unofficial Implementation of Animate Anyone by Novita AI 项目地址: https://gitcode.com/GitHub_Trending/ani/AnimateAnyone AnimateAnyone是一个基于姿势驱动…...

Apache Lucene-Solr终极指南:为什么它是企业级搜索的首选解决方案

Apache Lucene-Solr终极指南:为什么它是企业级搜索的首选解决方案 【免费下载链接】lucene-solr Apache Lucene and Solr open-source search software 项目地址: https://gitcode.com/gh_mirrors/lu/lucene-solr Apache Lucene和Solr作为Apache软件基金会的…...

AIAgent多租户隔离失效事件复盘(某金融客户千万级SLA违约始末):资源编排、上下文污染、元数据泄漏三重防御体系

第一章:AIAgent架构分布式部署方案 2026奇点智能技术大会(https://ml-summit.org) AI Agent系统在生产环境中需应对高并发推理、多模态任务编排与动态资源伸缩等挑战,分布式部署成为保障可用性与弹性的核心实践。典型架构采用“控制面数据面执行面”三层…...

终极指南:如何利用Flurl构建高效.NET HTTP请求与URL管理

终极指南:如何利用Flurl构建高效.NET HTTP请求与URL管理 【免费下载链接】Flurl Fluent URL builder and testable HTTP client for .NET 项目地址: https://gitcode.com/gh_mirrors/fl/Flurl Flurl是一个为.NET开发者打造的强大开源库,它提供了流…...

别再死记硬背命令了!用PHPStudy本地复现BUUCTF的ACTF2020 Exec命令注入漏洞

从零构建命令注入实验场:PHPStudy实战ACTF2020 Exec漏洞复现与防御 当你第一次听说"命令注入漏洞"时,脑海中浮现的是不是一堆晦涩难懂的符号和命令行操作?作为安全初学者,我完全理解那种面对; | &等符号时的茫然感。…...

《君正T31》9. 应用程序解读

上层应用NFS传输数据sudo apt-get update sudo apt-get install nfs-kernel-server本来想用想用NFS传输数据的,tftp比较麻烦,不过目前我的WSL暂时不支持NFS,就先不捣鼓了,先学习板子把TFTP传输数据cd /tmp tftp -g -r sample-Enco…...

Transformers Trainer实战:从BERT微调到自定义训练流程的5个关键技巧

Transformers Trainer实战:从BERT微调到自定义训练流程的5个关键技巧 在自然语言处理领域,Hugging Face的Transformers库已经成为事实上的标准工具包。而其中的Trainer类,更是让模型训练过程变得前所未有的高效。但很多开发者在实际项目中会发…...

若依系统集成雪花算法:实现分布式ID自动生成的最佳实践

1. 为什么分布式系统需要雪花算法? 在传统的单机系统中,我们通常使用数据库自增ID来作为主键。这种方式简单直接,但在分布式环境下就会暴露出严重问题。想象一下,如果多个服务节点同时往数据库插入数据,自增ID很容易出…...

数据结构(三) 带头双向循环链表 (附完整代码实现)

数据结构(三) 带头双向循环链表 (附完整代码实现) 在链表家族中,带头双向循环链表是综合效率最高、实际工程中最常用的链表结构。它完美解决了单链表查找前驱、尾插尾删效率低、边界判断复杂等问题,是链表学习的核心重点。 本文从结构原理、接口设计、…...