当前位置：首页 > article >正文

【深度解析】Hermes Agent 新版能力：后台 Computer Use、多智能体编排与 /goal 自主任务循环实战

article 2026/5/14 4:21:45

摘要本文解析 Hermes Agent 新版核心能力后台电脑操控、多智能体协同、Kanban 工作流与 /goal 长任务模式并用 Python 实现一个可运行的自主任务编排原型。背景介绍AI Agent 正在从“单轮问答工具”演进为“长期运行的自主工作系统”。传统大模型应用通常依赖用户输入 Prompt然后返回一次性结果而 Agent 系统更强调任务拆解、工具调用、状态管理、长期记忆与持续执行。视频中提到的 Hermes Agent就是当前开源 AI Agent 方向中较有代表性的项目之一。它的定位不是简单的聊天机器人而是一个可以在自有基础设施上 24/7 运行的持久化智能体系统具备以下几个关键特征长期记忆持续积累上下文、项目状态和历史决策可复用技能将执行过的任务沉淀为可复用能力自主循环围绕目标进行计划、执行、复盘和重试多智能体协同多个 Agent 共同处理复杂任务工作区管理通过 Kanban 看板组织任务状态。新版 Hermes 的重点更新包括原生 Computer Use、后台操作能力、多 Agent 编排系统、Kanban 看板升级以及类似 Codex、Claude Code 中的/goal长目标模式。这些能力组合在一起意味着 Agent 不再只是“生成文本”而是开始具备接近“数字员工”的基础形态。核心原理1. 后台 Computer Use从 API 调用到真实环境操作传统 Agent 如果要访问网页或操作应用通常需要组合多种工具Headless BrowserPlaywright / Selenium爬虫脚本搜索 API页面解析器第三方浏览器自动化服务。这种方式的问题是链路复杂、维护成本高页面结构变化后脚本容易失效。Hermes 新版 Computer Use 的价值在于Agent 可以直接对操作系统中的应用进行点击、输入、滚动等动作。视频中特别强调它并不是完全接管用户电脑而是在后台协同运行。用户仍然可以继续使用鼠标、键盘和浏览器Agent 在另一个执行上下文中完成自己的任务。目前该能力主要面向 macOS后续会扩展到 Windows 和 Linux。其核心意义在于Agent 的工具边界从“API 世界”扩展到了“真实桌面环境”。2. 多智能体编排单 Agent 到 Agent Team复杂任务通常无法由一个 Agent 高质量完成。比如“调研竞品并生成技术方案”至少可以拆成Research Agent负责信息检索和资料整理Coding Agent负责原型代码与技术验证Review Agent负责审查输出质量Manager Agent负责拆解目标、分配任务和跟踪状态。Hermes 的新版多智能体系统重点解决的是 Agent 之间如何分工、交接、记忆共享和状态追踪的问题。这也是 Kanban 看板能力升级的原因。看板不是简单 UI而是任务状态机Backlog → Todo → In Progress → Review → Done每一个任务卡片都可以绑定 Agent、目标、上下文、执行记录和当前状态。这样就可以将不可见的智能体执行过程转化为可观察、可管理、可回溯的工程流程。3. /goal 模式长期自主目标循环/goal可以理解为 Agent 的长期目标执行模式。它不同于普通 Prompt。普通 Prompt帮我写一个爬虫脚本/goal模式持续完成一个可运行的数据采集系统包括需求分析、代码实现、测试、异常处理和文档输出其执行逻辑通常是Plan → Execute → Observe → Review → Retry → Complete也就是说Agent 不只是回答问题而是持续推进目标遇到失败时自动复盘并重新规划直到目标完成或达到停止条件。技术资源与工具选型在实际构建 Agent 系统时模型接入层非常关键。我的开发环境中常用薛定猫AIxuedingmao.com作为统一模型网关它采用 OpenAI 兼容模式适合在多模型 Agent 框架中作为底层推理入口。其技术价值主要体现在聚合 500 主流大模型包括 GPT-5.4、Claude 4.6、Gemini 3.1 Pro 等新模型实时首发开发者可以第一时间体验前沿 API统一接入接口降低多模型集成复杂度通过统一 Base URL API Key 方式接入便于在不同 Agent、不同模型之间切换。下面实战代码默认使用claude-opus-4-6。该模型适合复杂推理、任务规划、代码生成和多步骤 Agent 编排在长目标拆解和结构化输出场景中表现很强。实战演示用 Python 实现一个简化版 /goal Kanban 多 Agent 编排器下面的示例实现一个轻量级 Agent Orchestrator输入一个长期目标由 LLM 拆解任务写入 Kanban 状态模拟不同 Agent 执行自动进行总结与下一步规划。安装依赖pipinstallopenai python-dotenv创建.env文件XUEDINGMAO_API_KEY你的_API_KEY完整代码示例importosimportjsonfromdataclassesimportdataclass,fieldfromtypingimportList,Dict,Literalfromdotenvimportload_dotenvfromopenaiimportOpenAI load_dotenv()# 薛定猫AIOpenAI 兼容模式# 如果平台文档要求 /v1请使用 https://xuedingmao.com/v1clientOpenAI(api_keyos.getenv(XUEDINGMAO_API_KEY),base_urlhttps://xuedingmao.com/v1)MODEL_NAMEclaude-opus-4-6TaskStatusLiteral[todo,in_progress,review,done]dataclassclassTask:Kanban 任务卡片id:inttitle:stragent:strstatus:TaskStatustodoresult:strdataclassclassKanbanBoard:简化版 Kanban 看板tasks:List[Task]field(default_factorylist)defadd_task(self,title:str,agent:str)-None:self.tasks.append(Task(idlen(self.tasks)1,titletitle,agentagent))defupdate_status(self,task_id:int,status:TaskStatus,result:str)-None:fortaskinself.tasks:iftask.idtask_id:task.statusstatus task.resultresultreturnraiseValueError(fTask{task_id}not found)defsnapshot(self)-str:输出当前看板状态作为 Agent 上下文returnjson.dumps([task.__dict__fortaskinself.tasks],ensure_asciiFalse,indent2)classGoalOrchestrator:模拟 Hermes /goal 的长期目标编排器def__init__(self,goal:str):self.goalgoal self.boardKanbanBoard()defcall_llm(self,system_prompt:str,user_prompt:str)-str:调用大模型responseclient.chat.completions.create(modelMODEL_NAME,messages[{role:system,content:system_prompt},{role:user,content:user_prompt}],temperature0.2)returnresponse.choices[0].message.contentdefplan_tasks(self)-None:将长期目标拆解为多个 Agent 任务system_prompt 你是一个资深 AI Agent 编排器。请将用户目标拆解为 3 到 5 个可执行任务。输出必须是 JSON 数组每个元素包含 title 和 agent 字段。 agent 只能从 ResearchAgent、CodeAgent、ReviewAgent、DocAgent 中选择。不要输出 Markdown。 user_promptf长期目标{self.goal}rawself.call_llm(system_prompt,user_prompt)try:tasksjson.loads(raw)exceptjson.JSONDecodeError:raiseRuntimeError(f模型输出不是合法 JSON{raw})foritemintasks:self.board.add_task(titleitem[title],agentitem[agent])defexecute_task(self,task:Task)-str:根据不同 Agent 角色执行任务system_promptf 你是{task.agent}。你需要在一个多智能体工作流中完成指定任务。要求 1. 输出执行结果 2. 明确关键结论 3. 如果存在风险请指出 4. 内容保持工程化、可落地。 user_promptf 长期目标{self.goal}当前 Kanban 状态{self.board.snapshot()}请执行任务{task.title}returnself.call_llm(system_prompt,user_prompt)defrun(self)-None:执行 Plan → Execute → Review 的简化闭环print( Step 1: Planning )self.plan_tasks()print(self.board.snapshot())print(\n Step 2: Executing Tasks )fortaskinself.board.tasks:self.board.update_status(task.id,in_progress)resultself.execute_task(task)self.board.update_status(task.id,review,resultresult)print(f\n[Task{task.id}]{task.title})print(result[:800])print(\n Step 3: Final Review )review_promptf 请基于以下 Kanban 执行结果判断长期目标是否已经完成。如果未完成请给出下一轮任务建议。 Kanban{self.board.snapshot()}final_reviewself.call_llm(你是负责验收多智能体任务的 ReviewAgent。,review_prompt)fortaskinself.board.tasks:self.board.update_status(task.id,done,task.result)print(\n Final Review Result )print(final_review)print(\n Final Kanban Board )print(self.board.snapshot())if__name____main__:goal设计一个面向开发者的 AI Agent 项目管理系统包含任务拆解、状态追踪、代码生成和结果验收能力orchestratorGoalOrchestrator(goal)orchestrator.run()这段代码虽然没有直接控制桌面但完整体现了 Hermes/goal与 Kanban 的关键思想目标拆解、Agent 分工、状态追踪、执行结果沉淀和最终复盘。真实工程中可以继续接入 Playwright、浏览器 API、文件系统、数据库或桌面自动化工具将execute_task扩展为真正的工具调用层。注意事项1. Computer Use 必须加入权限边界Agent 一旦具备桌面操作能力就必须设计权限控制例如禁止访问敏感目录高风险操作需要人工确认文件删除、支付、邮件发送等动作必须加审批记录完整操作日志。否则 Agent 的自动化能力越强潜在风险越大。2. 长期记忆要区分事实、偏好和临时上下文长期记忆不是简单把所有历史对话塞进 Prompt。更合理的做法是项目信息进入结构化数据库用户偏好进入 Profile临时上下文进入短期记忆重要决策进入可检索知识库。3. 多 Agent 系统需要可观测性多智能体协同时最常见的问题不是“模型不会做”而是“开发者不知道它做到了哪一步”。因此 Kanban、日志、任务 ID、状态机和执行记录非常重要。4. /goal 模式要设置停止条件长期自主循环必须设置边界最大迭代次数最大 Token 成本最大运行时间失败重试次数人工验收节点。否则 Agent 可能陷入无效循环造成资源浪费。总结Hermes Agent 新版展示了开源 Agent 系统的重要演进方向从单次 Prompt 响应升级为具备长期记忆、后台环境操作、多智能体协作和目标驱动循环的自主工作系统。对开发者而言真正值得关注的不是某一个单点功能而是它背后的工程范式变化LLM → Agent → Multi-Agent Workspace → Autonomous Operating System未来 AI 应用的核心竞争力将不只来自模型能力本身还来自任务编排、工具调用、安全边界、状态管理和长期记忆系统的工程实现。#AI #大模型 #Python #机器学习 #技术实战

【深度解析】Hermes Agent 新版能力：后台 Computer Use、多智能体编排与 /goal 自主任务循环实战

相关文章：

【深度解析】Hermes Agent 新版能力：后台 Computer Use、多智能体编排与 /goal 自主任务循环实战

工业传动避坑：3 个皮带张力调节技巧，杜绝早期失效

OctoSuite代码审查：深入理解GitHub数据模型设计的5个关键要点

构建聚合搜索与阅读工具：一站式信息处理中枢的设计与实践

私域团队如何用企业微信 API 提升客户维护效率？

AI短视频生成引擎：从文章到视频的自动化流水线实战

嵌入式实战：STM32智能温度控制系统的算法优化与工程实现

Loguru性能优化秘籍：10个技巧让你的日志系统快如闪电

Daptin状态机管理：企业级工作流自动化的核心

hover-effect 性能优化：确保你的 WebGL 扭曲效果流畅运行

MQTT-Client-Framework测试策略：单元测试、集成测试与多Broker兼容性

10个必备的Solidity安全技巧：Secureum-mind_map实践经验分享

TrollInstallerX终极指南：iOS 14-16.6.1越狱工具一键部署全解析

Windows 11终极性能调优指南：一键告别卡顿，重获流畅体验 [特殊字符]

Battle City碰撞检测算法：精准命中与躲避的核心技术解析

OpenArk：Windows系统安全检测的终极完整解决方案指南 [特殊字符]️

3步在Windows电脑运行安卓应用的终极指南：APK安装器完全教程

Windows on ARM：从技术预言到生态重塑的十年架构演进

接入taotoken服务后stm32设备端api调用量的可视化分析

使用S32 Design Studio（S32DS）常见问题

NeoPixel灯环故障深度修复：从信号完整性到电源设计的嵌入式实践

使用python快速接入taotoken并调用多模型完成聊天任务

如何用嘎嘎降AI处理理工科论文：公式图表密集的理工科毕业论文降AI免费完整操作流程

SMP架构下RTOS裸机启动的核心挑战与优化策略

零代码部署 OpenClaw：Win11 一键安装与使用教程

如何用嘎嘎降AI处理期刊投稿论文：SCI核心期刊论文全流程降AI4.8元完整操作教程

Java集成ChatGPT实战：PlexPt SDK核心功能与生产部署指南

【Prometheus】如何分析和解读 Prometheus 的日志信息以定位问题？

【Prometheus】如何使用 `promtool` 工具来检查目标端点的指标是否符合规范？

【Prometheus】当 Prometheus 内存使用率过高时，应该从哪些方面入手进行排查和优化？