当前位置：首页 > article >正文

Agent大战，赢家暗自在哪下功夫?

article 2026/5/23 23:34:59

一日子都不好过OpenAI和Anthropic在release note节奏上证明了一件事他们有实力两周抬一次模型能力线。其威力足以消灭掉一批创业公司。这事不展开共识。在这一波里别说小公司大厂也压力山大日子都不好过。谷歌虽然全栈发力但至今未能稳赢微软再也不强势地领先了AWS没有好模型Meta不仅没有好模型还没有好芯片苹果虽然没有好模型但只剩好硬件阿里有好模型好芯片但没有Top1的APP字节有好APP但只有视频模型领先腾讯的模型在大力提高广告营收。百度有好芯片但此前落后太多。看完这一圈你会发现一件事模型本身的牌桌几乎定型了。但这些大厂并没有躺平。每一家都在悄悄做一件事绕道模型背后搭一层别的东西。Anthropic自己也在做。它2026年4月推出CMA突出API服务阿里云4月也推出了JVS Crew把企业级Agent平台架在已有云基础设施上Meta想花20亿买下MANUS但被拦下了。以上每一个动作都不是在抬模型能力。而是模型之外Agent之下那一层infra。二“运行时”是地基很多人只焦虑模型吃应用其实不止我和朋友挨踢小茶聊天他总结了一句非常到位模型变强吃Infra吃Agent吃Harness吃应用。这一看谁都不安全怎么才安全我观察两种活得好的Agent总结除一个规律都自己做一些Agent基础设施的工作第一先看通用Agent赛道的两大标本都是端到端把活干完的产品形态可不绑定任何优秀模型。MANUS的卖点是一个Agent在云端虚拟机里干完活。Genspark的卖点是多个模型互相校验合成一个产品级交付物自研模型路由和多个Agent协同系统。第二垂直Agent有两个代表性智能体Kosmos和Hippocratic典型vertical Agent。首先它们都选对小众市场占据稀缺资源的垂直智能体。其次也都在Agent基础设施下了硬功夫。科学发现赛道上Kosmos是教科书级别的示范。团队为了让Agent能在科研场景下连续跑十几个小时读上千万token专门做出来的一套基础设施。没办法科研的研究背景庞大上下文更长传统做法是全塞进去科研这样处理不行就会有注意力衰减研究目标越跑越偏。于是他们在Agent外面单独搭了一层数据库去解决了模型本身解决不了的问题长程任务的状态管理。其次医疗智能体Hippocratic它护城河是1.8亿次医疗交互且把对话过程做成“可控可验证可审计”这可不是什么“附加功能”而是直接嵌在运行时Runtime里的。不难发现虽然有通用和垂直两种活法但是狠招都一样都在Agent基础设施里下功夫。而其中Agent基础设施里最核心莫过于运行时。但运行时是地基没有它其他都建不起来。想玩好运行时有两个选择选择一自己搭。选择二用别人的。三路线对比在系统设计里任务真正被执行的地方就叫运行时。写一个Agent framework不难。GitHub上几百个framework项目大部分是一个人一个周末写出来的。但写一个生产级的运行时极难。当下Agent是一个长程过程它要调工具要存中间结果要根据反馈继续干要维持多轮上下文要处理工具调用失败要在出错时重试或回滚。这些事全部发生在模型之外全部发生在运行时里。Claude模型本身不知道你的文件系统长什么样不知道你之前那次工具调用返回了什么不知道这个session已经跑了6小时该不该继续。这些状态全部由运行时维护。我找了四个厂商分两条完全不同的运行时路线对比。“自己搭”这个流派Kimi Agent和Multica“别人的”这个流派Anthropic的CMA和阿里云JVS Crew。讲清楚它们你就明白这一层赛道的格局了。这两个流派完全是两套语言。一Kimi Agent运行时交给模型。Kimi Agent不是一个独立的系统而是被训练进了模型的权重里模型本身就是一个多Agent编排器。Kimi K2.6用新训练方法让模型学会自主把一个复杂任务拆解成300个并行子任务动态实例化子Agent去执行最多协调4000步。没有预定义的工作流没有手写的编排框架完全由模型自己决定。一个13小时的工作流通过swarm并行可压缩80%时间。这是截至目前最激进的路线把别人写在框架里的编排逻辑直接训进模型。如果赢了所有外置的Agent framework都失去存在理由。官方文档链接https//www.kimi.com/blog/kimi-k2-5二Multica的运行时为指挥别的Agent而设计。Multica做的是多个Agent之上的一层一个团队调度层。观察这个Agent得从Multica的视角看Multica它不干活只指挥。它是调度层不是执行层自己决定这个任务派给谁几个Agent怎么协作。而Coding Agent去写代码、改文件、跑命令、调工具是干活的。意外的是这些Coding Agent不是用户入口是后端是执行任务的那块。Multica赌的是一个开发团队未来会同时用多家厂商的Agent但缺一个统一的协作和调度层。它的核心判断很硬单个Agent已经够强了问题不在Agent能力在协作开销。十个Agent各自为战产出还不如三个能协作的Agent。所以缺的不是更强的Agent是协作基础设施。官方文档链接https//multica.ai四企业的Agent痛点在哪这里有必要再强调下个人Agent和企业Agent的差距比猫和熊猫的差别还大除了Agent专业能力高超之外企业智能体天然还有几个要求规模化稳定安全可控。公司有1000人这1000个员工能不能同时用这要分布式基座不是单机。公司要有人担责要看出问题谁负责、怎么审计、能不能回溯这要全链路可观测和审计追溯。公司最关心A部门数据不能被B部门看到这是要多租户的逻辑隔离物理沙箱。还有成本怎么核算、预算怎么管控、超支怎么报警这要按使用量计费配额管理。上面几件事手脑一体的本地架构都做不了。我最看好的两个品牌和我的想法很一致。不怕说句得罪人的话这种个人Agent的架构我不看好魔改无论改龙虾还是改爱马仕Hermes无论是头部厂商改还是中腰部厂商魔改。改不好的根本原因就是虽然运行时的部署是从本地电脑到云端都可以但是选项再多也是给个人用的服务一个用户。企业要的是反过来同时服务一千个员工每人一套独立环境互不干扰。这个需求翻译过来在工程上就是一件事运行时和环境彻底解耦。不好改的原因是那种个人Agent架构是一锅烩因为一锅烩就够了没必要分开Agent怎么想、工具怎么调、文件存哪里、出错怎么办全塞在一个进程里。一处改处处要跟着动。企业级Agent就不行需要重新规定它们怎么通信、怎么协作、怎么互相不踩。这种改法改完之后原来的代码基本没什么能留下的。工作量是从头写一遍的级别。所以最实在的一句话领导如果你是在喜欢龙虾又痛下决心改手脑分离不如让团队直接重写一套Agent infra让暴击来的直接点。五Anthropic的CMA和阿里云JVS Crew一CMA的运行时把运行时本身做成APIAnthropic直接做一套生产级的拿出来卖。它的方法是运行时被定义成一个标准化的API服务你调API创建一个Agent再调API创建一个Environment再调API启动Session然后开始用。中间所有的工程细节你都不用管调API成了干活“前奏”运行时是个工程上极难做好的事。每一项都是分布式系统的硬骨头。让每个开发者自己造轮子大部分人做不出来做出来也不安全、不稳。但是你观察CMA四大件里没有任何一个等于运行时如果非要从这四个里挑一个最像运行时的是Environment。但严格说Environment是运行时的配置模板真正在运行的是Session。这正是Anthropic抽象水平高的地方直接叫运行时太粗了会把这些事混在一起于是拆成了四个更精确的概念。Anthropic赌运行时会变成基础设施的标配API。另外把OpenClaw改成CMA这种结构就是要把一锅烩拆成几层重新规定层间通信、层间状态、层间容错这件事的工作量和重写一套Agent infra也是同一个级别的。官方文档链接https//platform.claude.com/docs/en/managed-Agents/overview二JVS Crew的运行时和环境隔离并解耦JVS Crew是阿里云推出的企业级Agent量产基座我认为国内最好的Agent infra或许没有之一。这个东西也是我挖到的甚至拉一位CTO搞一篇测评毕竟我在阿里还是能要到优惠劵的。表面上阿里云JVS Crew和CMA来路完全不同一个云大厂一个模型公司但在架构设计上有诸多共识。其中最重要的是两边都选择把运行时和环境分开。我认为这不是偶然是企业级Agent基础设施的第一性原理被两条独立的路径同时验证。或者换个角度JVS Crew重点设计了两件事怎么算钱、怎么落地。两件事都跪在手脑分离上。第一算钱按使用量后付费席位制SaaS在Agent时代不灵了。Agent用量和员工在不在线无关和干了多少活有关按席位算钱永远错配预付制采购流程两三个月估算错了又得重走。JVS Crew按使用量后付费1积分0.05元。零门槛启动、秒级统计、月末出账。模型推理沙箱执行外部API三类消耗分开计费清清楚楚。第二落地权限和隔离企业上Agent有两件事不解决就上不了线。首先权限不能出错。Agent替张三干活时系统给它戴上张三的身份令牌它调任何工具访问任何数据令牌一路跟着传每一次都校验一次。张三能干的它就能干张三不能干的一步都迈不出去。其次一个出问题不能连锁炸。每一只手是独立的沙箱容器互相不通气、不可逃逸。1000个Agent一个Agent抽风平台层秒级把那个容器干掉其他999个Agent没感觉。算钱、权限和隔离这三件事都跪在同一件事上——手脑分离。脑、手、外部工具是三个独立层消耗才能分开计量身份才能层间传递容器才能各自隔离。手脑一体的架构里这三件物理上做不到。其他能力——多租户、合规、可观测这是云向agent的自然延伸。阿里云做了十几年接进Agent这层是顺带的。官方链接https://help.aliyun.com/zh/jvs/getting-started/quickly-build-an-agent-using-jvs-crew-and-integrate-it-with-the-client?spma2c4g.11186623.help-menu-3028257.d_1_1.62e9771cW2qCoYAgent大战赢家暗自在Agent基础设施下功夫。这设施一天不成熟产品公司就一天得自己搭运行时、做沙箱、写状态管理干本不该他们干的累活。这层一旦成熟产品层才能腾出手来干产品该干的事钻客户、搞行业、抠数据。头部模型一下子攻不破。《AI产品和技术模块》1.Kimi Agent产品很厉害然后呢2.搞懂“记忆”必看吃透Engram坐等Deepseek新模型3.实属踩踏了深水炸弹Seedance掩盖Seed2.04.少瞎吹系列AI智能体基础infra就不基础5.Harness内心OS大模型只管想剩下烂摊子全我的6.纠缠软件是什么Agent还是Harness?7.排行榜是别人的手感是自己的Kimi K2.6体感报告8.Agent才不会赢家通吃证据来了……《具身智能》1.“26年具身智能根本做不过来”含陶大程教授独家2.漫画大模型“强控”具身智能机器人《AI医疗》1.独家深度丨夸克健康大模型调研报告2.熬夜三年肝损害AI博主也靠AI学“续命”医学知识3.为什么AI能预警心脏主动脉“血管炸弹”4.对话作者全球首个开源手术视频大模型SurgMotion第一期《AI算力系列》1.对抗NVLink简史10万卡争端英伟达NVL72超节点挑起2.英伟达『照抄者死』阿里华为AI集群狂飙『全解耦』3.阿里华为『血战』英伟达AI超节点悲观者正确乐观者赚钱4.抢在英伟达护城河合拢前硅光的冲刺与最后窗口5.OCP现场 l 北美AI巨头罕见共识ESUN为利益『握手』6.为什么有些『闪断的锅』硅光不背?7.为了Token阿里云竟然出了一个TPN

Agent大战，赢家暗自在哪下功夫?

相关文章：

Agent大战，赢家暗自在哪下功夫?

Keil C166嵌入式开发中的宽字符实现与优化

原来训大模型，就像开一家小餐馆！

Windows电脑自带软件全部无法使用？亲测有效的解决办法！

Meta裁了8000人，员工拖着行李箱抢可乐

Python、BMA-Stacking融合LightGBM、GBDT、KNN多模型电商交易欺诈风险预警研究|附代码数据

AI赋能绿色未来 —— 华硕重磅亮相第二十八届海峡两岸经贸交易会

WxJava 微信开发包 - 新手入门指南

鸿蒙今日穿搭页面构建：单品清单、一周搭配日历与穿搭提示模块详解

鸿蒙今日穿搭页面构建：衣橱库存、今日配色与场景建议模块详解

关于自指系统与算术障碍的跨领域猜想：一项探索性研究（世毫九实验室学术完善报告）

鸿蒙今日穿搭页面构建：搭配推荐与风格筛选模块详解

【咨询业AI Agent应用成熟度评估模型】：基于217家机构实测数据的4级能力图谱与升级路线图

观察Taotoken按Token计费模式如何帮助项目控制预算

C++虚函数与多态机制

【AI入门知识点】Harness 是什么？为什么 DeepSeek 要组建 Harness 团队？

【AI入门知识点】告别繁琐配置！Claude Code + DeepSeek 直连方案打造最强 VSCode 编程助手

pycryptodome导入失败的四大底层原因与诊断方案

Python爬虫实战：爬取论文期刊文献整理+管理表生成

通过curl命令直接测试Taotoken聊天补全接口的配置与调用方法

AI代理运行时基础设施：从上下文溢出到持久化事件日志

AI绘画中的诡异谷：从技术缺陷到可控美学的跃迁

2026出纳岗位新人如何快速提升能力：从基础上手到能力跃升的最快路径

Mythos架构解析：大模型的可编程推理能力与Gated Release机制

SSH安全加固：禁用弱加密算法的实操指南

Claude Mythos：AI驱动的自动化漏洞挖掘与攻防范式跃迁

Python自动化登录：破解验证码与Cookie会话维持实战

工业AI落地：从数据冷启动到高质数据工程实战

DeepSeek总结的从 DuckDB 迁移到 chDB基准测试

工业级房价预测实战：从数据清洗到可解释模型部署