当前位置: 首页 > article >正文

Agent大战,赢家暗自在哪下功夫?

一日子都不好过OpenAI和Anthropic在release note节奏上证明了一件事他们有实力两周抬一次模型能力线。其威力足以消灭掉一批创业公司。这事不展开共识。在这一波里别说小公司大厂也压力山大日子都不好过。谷歌虽然全栈发力但至今未能稳赢微软再也不强势地领先了AWS没有好模型Meta不仅没有好模型还没有好芯片苹果虽然没有好模型但只剩好硬件阿里有好模型好芯片但没有Top1的APP字节有好APP但只有视频模型领先腾讯的模型在大力提高广告营收。百度有好芯片但此前落后太多。看完这一圈你会发现一件事模型本身的牌桌几乎定型了。但这些大厂并没有躺平。每一家都在悄悄做一件事绕道模型背后搭一层别的东西。Anthropic自己也在做。它2026年4月推出CMA突出API服务阿里云4月也推出了JVS Crew把企业级Agent平台架在已有云基础设施上Meta想花20亿买下MANUS但被拦下了。以上每一个动作都不是在抬模型能力。而是模型之外Agent之下那一层infra。二“运行时”是地基很多人只焦虑模型吃应用其实不止我和朋友挨踢小茶聊天他总结了一句非常到位模型变强吃Infra吃Agent吃Harness吃应用。这一看谁都不安全怎么才安全我观察两种活得好的Agent总结除一个规律都自己做一些Agent基础设施的工作第一先看通用Agent赛道的两大标本都是端到端把活干完的产品形态可不绑定任何优秀模型。MANUS的卖点是一个Agent在云端虚拟机里干完活。Genspark的卖点是多个模型互相校验合成一个产品级交付物自研模型路由和多个Agent协同系统。第二垂直Agent有两个代表性智能体Kosmos和Hippocratic典型vertical Agent。首先它们都选对小众市场占据稀缺资源的垂直智能体。其次也都在Agent基础设施下了硬功夫。科学发现赛道上Kosmos是教科书级别的示范。团队为了让Agent能在科研场景下连续跑十几个小时读上千万token专门做出来的一套基础设施。没办法科研的研究背景庞大上下文更长传统做法是全塞进去科研这样处理不行就会有注意力衰减研究目标越跑越偏。于是他们在Agent外面单独搭了一层数据库去解决了模型本身解决不了的问题长程任务的状态管理。其次医疗智能体Hippocratic它护城河是1.8亿次医疗交互且把对话过程做成“可控可验证可审计”这可不是什么“附加功能”而是直接嵌在运行时Runtime里的。不难发现虽然有通用和垂直两种活法但是狠招都一样都在Agent基础设施里下功夫。而其中Agent基础设施里最核心莫过于运行时。但运行时是地基没有它其他都建不起来。想玩好运行时有两个选择选择一自己搭。选择二用别人的。三路线对比在系统设计里任务真正被执行的地方就叫运行时。写一个Agent framework不难。GitHub上几百个framework项目大部分是一个人一个周末写出来的。但写一个生产级的运行时极难。当下Agent是一个长程过程它要调工具要存中间结果要根据反馈继续干要维持多轮上下文要处理工具调用失败要在出错时重试或回滚。这些事全部发生在模型之外全部发生在运行时里。Claude模型本身不知道你的文件系统长什么样不知道你之前那次工具调用返回了什么不知道这个session已经跑了6小时该不该继续。这些状态全部由运行时维护。我找了四个厂商分两条完全不同的运行时路线对比。“自己搭”这个流派Kimi Agent和Multica“别人的”这个流派Anthropic的CMA和阿里云JVS Crew。讲清楚它们你就明白这一层赛道的格局了。这两个流派完全是两套语言。一Kimi Agent运行时交给模型。Kimi Agent不是一个独立的系统而是被训练进了模型的权重里模型本身就是一个多Agent编排器。Kimi K2.6用新训练方法让模型学会自主把一个复杂任务拆解成300个并行子任务动态实例化子Agent去执行最多协调4000步。没有预定义的工作流没有手写的编排框架完全由模型自己决定。一个13小时的工作流通过swarm并行可压缩80%时间。这是截至目前最激进的路线把别人写在框架里的编排逻辑直接训进模型。如果赢了所有外置的Agent framework都失去存在理由。官方文档链接https//www.kimi.com/blog/kimi-k2-5二Multica的运行时为指挥别的Agent而设计。Multica做的是多个Agent之上的一层一个团队调度层。观察这个Agent得从Multica的视角看Multica它不干活只指挥。它是调度层不是执行层自己决定这个任务派给谁几个Agent怎么协作。而Coding Agent去写代码、改文件、跑命令、调工具是干活的。意外的是这些Coding Agent不是用户入口是后端是执行任务的那块。Multica赌的是一个开发团队未来会同时用多家厂商的Agent但缺一个统一的协作和调度层。它的核心判断很硬单个Agent已经够强了问题不在Agent能力在协作开销。十个Agent各自为战产出还不如三个能协作的Agent。所以缺的不是更强的Agent是协作基础设施。官方文档链接https//multica.ai四企业的Agent痛点在哪这里有必要再强调下个人Agent和企业Agent的差距比猫和熊猫的差别还大除了Agent专业能力高超之外企业智能体天然还有几个要求规模化稳定安全可控。公司有1000人这1000个员工能不能同时用这要分布式基座不是单机。公司要有人担责要看出问题谁负责、怎么审计、能不能回溯这要全链路可观测和审计追溯。公司最关心A部门数据不能被B部门看到这是要多租户的逻辑隔离物理沙箱。还有成本怎么核算、预算怎么管控、超支怎么报警这要按使用量计费配额管理。上面几件事手脑一体的本地架构都做不了。我最看好的两个品牌和我的想法很一致。不怕说句得罪人的话这种个人Agent的架构我不看好魔改无论改龙虾还是改爱马仕Hermes无论是头部厂商改还是中腰部厂商魔改。改不好的根本原因就是虽然运行时的部署是从本地电脑到云端都可以但是选项再多也是给个人用的服务一个用户。企业要的是反过来同时服务一千个员工每人一套独立环境互不干扰。这个需求翻译过来在工程上就是一件事运行时和环境彻底解耦。不好改的原因是那种个人Agent架构是一锅烩因为一锅烩就够了没必要分开Agent怎么想、工具怎么调、文件存哪里、出错怎么办全塞在一个进程里。一处改处处要跟着动。企业级Agent就不行需要重新规定它们怎么通信、怎么协作、怎么互相不踩。这种改法改完之后原来的代码基本没什么能留下的。工作量是从头写一遍的级别。所以最实在的一句话领导如果你是在喜欢龙虾又痛下决心改手脑分离不如让团队直接重写一套Agent infra让暴击来的直接点。五Anthropic的CMA和阿里云JVS Crew一CMA的运行时把运行时本身做成APIAnthropic直接做一套生产级的拿出来卖。它的方法是运行时被定义成一个标准化的API服务你调API创建一个Agent再调API创建一个Environment再调API启动Session然后开始用。中间所有的工程细节你都不用管调API成了干活“前奏”运行时是个工程上极难做好的事。每一项都是分布式系统的硬骨头。让每个开发者自己造轮子大部分人做不出来做出来也不安全、不稳。但是你观察CMA四大件里没有任何一个等于运行时如果非要从这四个里挑一个最像运行时的是Environment。但严格说Environment是运行时的配置模板真正在运行的是Session。这正是Anthropic抽象水平高的地方直接叫运行时太粗了会把这些事混在一起于是拆成了四个更精确的概念。Anthropic赌运行时会变成基础设施的标配API。另外把OpenClaw改成CMA这种结构就是要把一锅烩拆成几层重新规定层间通信、层间状态、层间容错这件事的工作量和重写一套Agent infra也是同一个级别的。官方文档链接https//platform.claude.com/docs/en/managed-Agents/overview二JVS Crew的运行时和环境隔离并解耦JVS Crew是阿里云推出的企业级Agent量产基座我认为国内最好的Agent infra或许没有之一。这个东西也是我挖到的甚至拉一位CTO搞一篇测评毕竟我在阿里还是能要到优惠劵的。表面上阿里云JVS Crew和CMA来路完全不同一个云大厂一个模型公司但在架构设计上有诸多共识。其中最重要的是两边都选择把运行时和环境分开。我认为这不是偶然是企业级Agent基础设施的第一性原理被两条独立的路径同时验证。或者换个角度JVS Crew重点设计了两件事怎么算钱、怎么落地。两件事都跪在手脑分离上。第一算钱按使用量后付费席位制SaaS在Agent时代不灵了。Agent用量和员工在不在线无关和干了多少活有关按席位算钱永远错配预付制采购流程两三个月估算错了又得重走。JVS Crew按使用量后付费1积分0.05元。零门槛启动、秒级统计、月末出账。模型推理沙箱执行外部API三类消耗分开计费清清楚楚。第二落地权限和隔离企业上Agent有两件事不解决就上不了线。首先权限不能出错。Agent替张三干活时系统给它戴上张三的身份令牌它调任何工具访问任何数据令牌一路跟着传每一次都校验一次。张三能干的它就能干张三不能干的一步都迈不出去。其次一个出问题不能连锁炸。每一只手是独立的沙箱容器互相不通气、不可逃逸。1000个Agent一个Agent抽风平台层秒级把那个容器干掉其他999个Agent没感觉。算钱、权限和隔离这三件事都跪在同一件事上——手脑分离。脑、手、外部工具是三个独立层消耗才能分开计量身份才能层间传递容器才能各自隔离。手脑一体的架构里这三件物理上做不到。其他能力——多租户、合规、可观测这是云向agent的自然延伸。阿里云做了十几年接进Agent这层是顺带的。官方链接https://help.aliyun.com/zh/jvs/getting-started/quickly-build-an-agent-using-jvs-crew-and-integrate-it-with-the-client?spma2c4g.11186623.help-menu-3028257.d_1_1.62e9771cW2qCoYAgent大战赢家暗自在Agent基础设施下功夫。这设施一天不成熟产品公司就一天得自己搭运行时、做沙箱、写状态管理干本不该他们干的累活。这层一旦成熟产品层才能腾出手来干产品该干的事钻客户、搞行业、抠数据。头部模型一下子攻不破。《AI产品和技术模块》1.Kimi Agent产品很厉害然后呢2.搞懂“记忆”必看吃透Engram坐等Deepseek新模型3.实属踩踏了深水炸弹Seedance掩盖Seed2.04.少瞎吹系列AI智能体基础infra就不基础5.Harness内心OS大模型只管想剩下烂摊子全我的6.纠缠软件是什么Agent还是Harness?7.排行榜是别人的手感是自己的Kimi K2.6体感报告8.Agent才不会赢家通吃证据来了……《具身智能》1.“26年具身智能根本做不过来”含陶大程教授独家2.漫画大模型“强控”具身智能机器人《AI医疗》1.独家深度丨夸克健康大模型调研报告2.熬夜三年肝损害AI博主也靠AI学“续命”医学知识3.为什么AI能预警心脏主动脉“血管炸弹”4.对话作者全球首个开源手术视频大模型SurgMotion第一期《AI算力系列》1.对抗NVLink简史10万卡争端英伟达NVL72超节点挑起2.英伟达『照抄者死』阿里华为AI集群狂飙『全解耦』3.阿里华为『血战』英伟达AI超节点悲观者正确乐观者赚钱4.抢在英伟达护城河合拢前硅光的冲刺与最后窗口5.OCP现场 l 北美AI巨头罕见共识ESUN为利益『握手』6.为什么有些『闪断的锅』硅光不背?7.为了Token阿里云竟然出了一个TPN

相关文章:

Agent大战,赢家暗自在哪下功夫?

(一)日子都不好过OpenAI和Anthropic在release note节奏上,证明了一件事:他们有实力两周抬一次模型能力线。其威力,足以消灭掉一批创业公司。这事不展开,共识。在这一波里,别说小公司&#xff0c…...

Keil C166嵌入式开发中的宽字符实现与优化

1. 宽字符支持问题解析在嵌入式C语言开发中,Unicode支持是一个常见需求。最近我在使用Keil C166开发工具时遇到了一个关于宽字符(wchar_t)定义的有趣问题。打开标准库头文件stdlib.h时,发现其中对wchar_t的定义如下:#ifndef _WCHAR_T_DEFINED…...

原来训大模型,就像开一家小餐馆!

你是不是一直觉得,训练大语言模型是 OpenAI、百度这种大厂才能干的事?要几万张显卡,要花几个亿,普通人想都不敢想? 错了!我用自己开发机上的 8 张 H20 显卡,花了点时间,从零开始训了…...

Windows电脑自带软件全部无法使用?亲测有效的解决办法!

Windows电脑自带软件全部无法使用?亲测有效的解决办法! 最近在使用电脑的时候,我突然遇到了一个非常离谱的问题: Windows 系统自带的软件几乎全部无法正常打开! 包括但不限于: 计算器相机录音机截屏工具画图…...

Meta裁了8000人,员工拖着行李箱抢可乐

昨天凌晨4点,Meta很多员工的邮箱同时响了。是裁员邮件。这一次,Meta裁掉了全球约10%的员工,规模大约8000人。分手大礼包:16周基础薪资 每满1年工龄额外2周薪资 18个月全家医保。真正让硅谷炸锅的,反而是裁员前几天&a…...

Python、BMA-Stacking融合LightGBM、GBDT、KNN多模型电商交易欺诈风险预警研究|附代码数据

全文链接:https://tecdat.cn/?p45916原文出处:拓端数据部落公众号封面:关于分析师在此对 Haoyang Ke 对本文所作的贡献表示诚挚感谢。他在浙江财经大学完成了数理统计专业的学习,专注机器学习、数据采集领域。他擅长 Python、R 语…...

AI赋能 绿色未来 —— 华硕重磅亮相第二十八届海峡两岸经贸交易会

当AI浪潮席卷全球,绿色低碳成为时代共识,一场汇聚两岸智慧、共探产业新机的盛会如约而至。5月21日第二十八届海峡两岸经贸交易会于福州海峡会展中心盛大启幕。这场由国务院台办、福建省人民政府联合主办的国家级盛会,深耕两岸经贸交流多年&am…...

WxJava 微信开发包 - 新手入门指南

WxJava 微信开发包 - 新手入门指南项目概览项目名称Binary Wang/WxJavaStarsGVP ⭐⭐⭐⭐⭐组织Binary Wang语言Java标签GVP, Java, 微信开发, 微信公众号, 微信支付项目简介WxJava 是一个基于 Java 的微信开发工具包,支持微信公众号、微信支付、小程序、企业微信等…...

鸿蒙今日穿搭页面构建:单品清单、一周搭配日历与穿搭提示模块详解

鸿蒙今日穿搭页面构建:单品清单、一周搭配日历与穿搭提示模块详解 前言 在 HarmonyOS 6.0 应用开发中,穿搭类页面的单品管理、周计划安排和温馨提醒是完善用户体验的重要补充模块。本文将以“今日穿搭”应用中的“单品清单”网格模块、“一周搭配日历”周…...

鸿蒙今日穿搭页面构建:衣橱库存、今日配色与场景建议模块详解

鸿蒙今日穿搭页面构建:衣橱库存、今日配色与场景建议模块详解 前言 在 HarmonyOS 6.0 应用开发中,穿搭类页面的衣橱管理、配色方案和场景化建议是提升用户实用性的关键功能模块。本文将以“今日穿搭”应用中的“衣橱库存”进度条模块、“今日配色”色彩盘…...

关于自指系统与算术障碍的跨领域猜想:一项探索性研究(世毫九实验室学术完善报告)

关于自指系统与算术障碍的跨领域猜想:一项探索性研究(世毫九实验室学术完善报告) 作者:方见华 单位:世毫九实验室 核心摘要 本报告针对世毫九实验室原创的探索性跨领域论文《关于自指系统与算术障碍的跨领域猜想&#…...

鸿蒙今日穿搭页面构建:搭配推荐与风格筛选模块详解

鸿蒙今日穿搭页面构建:搭配推荐与风格筛选模块详解 前言 在 HarmonyOS 6.0 应用开发中,穿搭类页面的核心挑战在于如何展示搭配灵感、风格筛选和衣橱管理。本文将以“今日穿搭”应用的主页面为例,深入解析如何在鸿蒙平台上构建时尚穿搭类应用的…...

【咨询业AI Agent应用成熟度评估模型】:基于217家机构实测数据的4级能力图谱与升级路线图

更多请点击: https://codechina.net 第一章:【咨询业AI Agent应用成熟度评估模型】:基于217家机构实测数据的4级能力图谱与升级路线图 本模型基于对全球217家管理咨询、战略咨询与数字化转型服务商的实地调研与系统性能力测评,覆…...

观察Taotoken按Token计费模式如何帮助项目控制预算

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 观察Taotoken按Token计费模式如何帮助项目控制预算 对于依赖大模型API进行开发的团队和个人而言,成本控制是一个贯穿项…...

C++虚函数与多态机制

C虚函数与多态机制虚函数是C实现运行时多态的核心机制。通过虚函数表和虚函数指针,C能够在运行时根据对象的实际类型调用相应的函数实现。虚函数的基本语法使用virtual关键字声明,派生类可以重写基类的虚函数。#include #include #includeclass Animal {…...

【AI入门知识点】Harness 是什么?为什么 DeepSeek 要组建 Harness 团队?

最近,DeepSeek 招聘信息中出现了一个越来越高频的关键词——Harness 团队。 很多人第一反应是: Harness 是什么?一种新模型?还是某个框架?为什么 DeepSeek 专门成立团队来做这个?如果你第一次听到这个词&am…...

【AI入门知识点】告别繁琐配置!Claude Code + DeepSeek 直连方案打造最强 VSCode 编程助手

在 AI 编程领域,Claude Code 凭借其强大的 Agent 能力(自动读写文件、执行命令)一直是开发者的梦中情“器”。然而,官方 API 的高昂费用和网络限制,让许多国内开发者望而却步。 这篇文章我们不通过 cc-switch 转发请求…...

pycryptodome导入失败的四大底层原因与诊断方案

1. 这不是pycryptodome的问题,而是你没看清它真正依赖的底层逻辑“ImportError: No module named Crypto”、“AttributeError: module Crypto.Cipher has no attribute AES”、“ModuleNotFoundError: No module named Cryptography_cffi...”——这些报错我过去三…...

Python爬虫实战:爬取论文期刊 文献整理+管理表生成

写论文的时候最烦什么?不是写内容,是找文献和整理文献。相信每个研究生都有过这样的经历:打开十几个浏览器标签页,一篇一篇复制论文标题、作者、期刊、发表时间、摘要,然后粘贴到Excel里,一不小心还会复制错…...

通过curl命令直接测试Taotoken聊天补全接口的配置与调用方法

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 通过curl命令直接测试Taotoken聊天补全接口的配置与调用方法 在开发或调试大模型应用时,有时你可能希望绕过高级SDK&am…...

AI代理运行时基础设施:从上下文溢出到持久化事件日志

1. 这不是新赛道,是 runtime 层的“操作系统时刻”来了你有没有在深夜调试一个跑了三小时的 AI 代理,突然发现它开始胡言乱语?不是模型崩了,不是 prompt 写错了,而是——它的“记忆”被挤掉了。上下文窗口就那么大&…...

AI绘画中的诡异谷:从技术缺陷到可控美学的跃迁

1. 项目概述:当AI画笔开始颤抖——我们为什么该认真对待“诡异谷”里的美你有没有盯着一张AI生成的肖像画,越看越不对劲?眼睛太亮、皮肤太滑、手指多了一节,或者笑容弧度精准得像用圆规画出来的——那种说不上来哪里怪&#xff0c…...

2026出纳岗位新人如何快速提升能力:从基础上手到能力跃升的最快路径

2026年,出纳岗位已经不再只是“收付款、跑银行、登记现金日记账”这么简单。随着企业财务数字化、业财一体化和AI工具普及,新人想快速成长,必须同时具备规范意识、系统操作能力、数据思维和风险意识。这也是为什么越来越多财务新人会关注像CD…...

Mythos架构解析:大模型的可编程推理能力与Gated Release机制

1. 项目概述:一次被刻意“锁住”的能力跃迁如果你最近关注大模型前沿动态,大概率在技术社区、AI从业者群或邮件列表里见过“TAI #200”这个编号——它不是某篇论文的DOI,也不是某个开源项目的Release Tag,而是The AI Alignment Ne…...

SSH安全加固:禁用弱加密算法的实操指南

1. 为什么禁用弱加密算法不是“可选项”,而是SSH上线前的必过门槛我第一次在客户现场接手一台刚部署的CentOS 7跳板机时,安全扫描报告里赫然标红了三条:ssh-rsa签名算法被标记为CRITICAL,diffie-hellman-group1-sha1密钥交换被判定…...

Claude Mythos:AI驱动的自动化漏洞挖掘与攻防范式跃迁

1. 项目概述:一场静默却震耳欲聋的AI能力跃迁这周,整个AI安全圈没有爆炸性新闻稿,没有铺天盖地的发布会直播,只有一份措辞克制、数据密集的系统卡片(System Card)和一份由英国AI安全研究所(AISI…...

Python自动化登录:破解验证码与Cookie会话维持实战

1. 这不是“绕过验证”,而是理解会话机制的起点很多人看到“跳过验证码登陆”第一反应是:这合规吗?会不会被封?其实这个问题本身就暴露了一个关键误区——我们不是在“绕过”什么,而是在还原真实用户登录时浏览器自动完…...

工业AI落地:从数据冷启动到高质数据工程实战

1. 为什么“数据为中心”不是口号,而是工程现场的真实压力去年冬天,我帮一家做工业缺陷检测的初创公司做模型交付。他们拿来的数据集只有237张标注图,全是产线停机时人工拍的——光照不均、角度单一、连螺丝孔都只拍正面。当时团队信心满满&a…...

DeepSeek总结的从 DuckDB 迁移到 chDB基准测试

来源: https://github.com/chdb-io/cookbook/tree/main/migration-from-duckdbBENCHMARK.md 迁移基准测试 —— 深度探讨 本文是从 DuckDB 迁移到 chDB指南的配套文档。指南的第 5 节将环境/场景/结果/摘要内联呈现;本文件则包含不适合指南风格流程的部分&#xf…...

工业级房价预测实战:从数据清洗到可解释模型部署

1. 这不是“调个模型就完事”的房价预测——而是一次完整的工业级回归建模实战复盘你打开Kaggle,下载一个带“house price”字样的CSV文件,pandas读进来,train_test_split切两刀,RandomForestRegressor.fit()跑完,R显示…...