当前位置：首页 > article >正文

智谱CEO张鹏：将推理性能压榨至极限不为短期盈利，而是为高质量Token消耗指数曲线

article 2026/4/1 23:54:39

雷递网乐天 3月31日智谱CEO张鹏今日在智谱2025年年报沟通会上表示智谱曾经历过质疑经历过挫折但无数事实反复验证了一个判断——智能上界的提升是大模型AGI时代唯一的第一性。张鹏说AGI时代的商业价值可以归结为一个简洁的公式智能上界 × Token消耗规模。智能上界决定了定价权Token消耗规模决定了价值体量。以OpenClaw为代表的应用引爆Token消耗狂潮面对2月以来供不应求的市场智谱将继续加大投入国产芯片软硬一体化调优将推理性能压榨至极限不是为了短期盈利而是为了支撑那条不断上扬的、高质量Token消耗的指数曲线。在这场关于算力、数据与智能的马拉松里胜负手永远在于对这个公式的极致执行。张鹏指出在大模型时代当大模型具备长程任务执行的闭环能力后核心竞争力将重塑为 TACToken Architecture CapabilityToken 架构能力。TAC 智能调用量 x 智能质量 x 经济转化效率。未来衡量一个个体或组织价值的标准不再是掌握了多少信息而是其作为Token 架构师在给定预算下构建复杂 Agent 系统并驱动大模型完成复杂Agent系统的自主运行。智谱的目标是成为提升全社会 TAC 的基础设施让每一滴 Token 都能转化为可交付的经济增量。据悉智谱今日发布2025年全年业绩这是其上市后首份财报。智谱2025年营收7.24亿较上年同期的3.12亿增131.9%。MaaS商业飞轮全面运转MaaS API平台实现ARR 17亿约2.5亿美元同比提升60倍且盈利能力大幅改善MaaS API平台毛利率同比提升近5倍至18.9%。以下是智谱CEO张鹏在电话会议上讲述的内容张鹏今天我想和大家分享三件事我们如何坚定地走在AGI的道路上MaaS商业模式如何验证了我们的战略判断以及我们探索智能上界的下一个突破。一、坚定追求AGI智能上界的持续突破智谱自2019年创立起就将“让机器像人一样思考”作为公司唯一的战略目标。六年来这个目标从未动摇。我们也曾经历过质疑经历过挫折但无数事实反复验证了一个判断——智能上界的提升是大模型AGI时代唯一的第一性。在这个第一性原理之上我们进一步认识到让智能普惠大众的载体是Token。每个人、每个组织都可以通过Token调用智能产生价值。因此AGI时代的商业价值可以归结为一个简洁的公式智能上界 × Token消耗规模。智能上界决定了定价权Token消耗规模决定了价值体量。过去一年智谱的关键词叫做“智能上界”。2025至26年我们完成了GLM-4.5、4.6、4.7到GLM-5、5-Turbo的模型迭代。每一代模型的发布都在国际最具影响力的评测中刷新纪录——保持全球开源模型第一、中国模型第一在全球模型中仅次于GPT、Claude和Gemini。换句话说我们已经稳定地进入了全球AI的第一梯队与世界上最顶尖的三家公司同台竞技。a16z引用GLM-5与Claude Opus 4.6作为开源与闭源差距明显收窄的论据。GLM-5在Artificial Analysis Intelligence Index榜单达到50分这是开放权重模型首次达到这一分数。智谱始终坚持GLM自研架构2025年智谱是Vibe Coding氛围编程的先行者模型Coding能力在全行业取得广泛认可。随着旗舰模型GLM-5的发布我们再次率先完成从Vibe Coding到Agentic Engineering智能体工程的跨越——AI不再是简单的代码生成器而是具备自主规划、测试与迭代能力的“工程师”。在架构底层我们通过 Muon Split 优化策略及 MLA-256 改进实现了稳定的模型训练在和 GQA-8 相同性能的情况下显著减少了 KVCache 占用通过动态稀疏注意力机制攻克了长序列推理的计算量难题实现部署成本降低到原来的 50% 且性能无损。我们还推出Slime框架实现异步强化学习的效率革命解决了智能体长时序任务的空转痛点实现了生成与训练的完全解耦。通过Prefill-Decode (PD) 分离与心跳容错机制Slime最大化了GPU利用率并确保了大模型训练的鲁棒性。配合我们独创的直接双面重要性采样算法我们克服了异步训练中的动作-奖励对齐难题使模型能从超1万个真实软件工程环境中高效学习。这套体系支撑了GLM-5-Turbo作为全球首款OpenClaw基座模型的诞生实现长链路安全执行。我们深知算力自主的重要性GLM-5的国产化适配已超越简单的算子移植进入了Co-design软硬协同设计阶段。在底层内核层面通过Lightning Indexer等定制化融合内核与FlashComm通信优化我们最大限度隐藏了内存访问与通信延迟。这种深度调优让GLM系列在国产芯片上跑出了比肩国际顶级芯片的推理效率实现了“智能上界自主计算底座”的技术闭环。进入2026年我们的关键词叫做“token量”。以OpenClaw为代表的应用引爆Token消耗狂潮面对2月以来供不应求的市场我们将继续加大投入国产芯片软硬一体化调优将推理性能压榨至极限不是为了短期盈利而是为了支撑那条不断上扬的、高质量Token消耗的指数曲线。我们坚信在这场关于算力、数据与智能的马拉松里胜负手永远在于对这个公式的极致执行。二、MaaS驱动的商业飞轮从模型能力到商业化Scaling接下来汇报核心业绩。在展开数据之前我想先请各位关注一个全球性的范式变化。过去一年Anthropic是全球AI行业最受关注的公司之一它的增长逻辑非常清晰专注于把最强的模型通过API交付给企业和开发者让智能参与创造经济价值。Anthropic的ARR从24年底ARR 10亿美金到25年底90亿美金这证明了一件事当模型足够强API本身就是最好的商业模式。智能的质量创造定价权企业和用户的深度使用创造增长的Scaling。同样的商业模式与增长正在智谱身上发生。2025年公司总收入7.24亿人民币同比增长131.9%是国内收入规模最大的大模型公司超出我们自己年初设定的目标这是市场对我们长期坚持“基座模型API平台生态”战略的最好印证。截至目前我们的编程、智能体及企业级大模型与超过400万中小企业及开发者共建生态覆盖全球218个国家和地区。核心增长极是智谱MaaS平台也就是开放平台及API业务的全面爆发。当前智谱的MaaS平台ARR约17亿元在过去12个月提升60倍。通过对推理侧的极致工程优化我们大幅度降低token单位成本实现业务盈利水平的大幅改善MaaS平台毛利率提升近5倍至18.9%远超行业水准。Anthropic的早期增长依靠模型被全球开发者高频使用智谱的增长同样如此——开发者是感知智能上界最敏锐的群体。2025年智谱在国内第一家推出编程套餐“GLM Coding Plan”迅速覆盖全球付费开发者规模快速突破24.2万Token调用量6个月涨了15倍。Anthropic约80%的收入来自企业级API调用服务与其类似依托BigModel.cn智谱MaaS平台已成为连接基础模型与400万企业应用及开发者的枢纽。中国前10大互联网公司中已有9家每天深度调用GLM每一代模型发布后24小时内即获得字节、阿里、腾讯等头部大厂的官方接入。基于高阶智能带来的底气我们的API调用定价在一季度提升83%即便如此市场依然呈现出供不应求的情况调用量增长400%再次印证了高质量token是当下的稀缺资源谁掌握了智能上界谁就掌握了定价权。除了聚焦Coding以外智谱也是国内Agent布局最早的模型厂商从全球首个手机Agent AutoGLM到国内首个一键安装的AutoClaw。2026年3月继Coding Plan之后我们推出Claw Plan上线仅两天订阅用户即破10万上线20天订阅用户突破40万这验证了智能体长链路任务的巨大商业空间。在全球化维度上我们实现了Token在全球范围内的价值变现屡次模型发布在国际市场广受关注目前GLM模型已全面部署于Google Vertex AI、AWS Bedrock、Fireworks、Cerebras等全球顶尖云服务商并入驻OpenRouter、Vercel等国际主流模型聚合平台是OpenRouter付费模型排名NO.1。GLM已成为国际知名Coding平台如Windsurf、知名CodingAgent平台如OpenCode的默认模型。以智能上界为壁垒以API为主要产品形态这是Anthropic和智谱正在兑现的商业路径。公司已成为国内付费Token消耗量最高的厂商之一更关键的是智能上界的突破推动Token消耗量的指数级增加——随着模型越强、用户的使用场景越深度和复杂、Token调用量随之越来越大。Anthropic过去1年ARR的10倍增长、智谱API平台的60倍增长均反映增长不再是线性的。同时商业上的正反馈支撑我们投入更大的算力和研发进一步抬升智能上界这一飞轮已经转动起来。三、面向未来智能上界突破与社会生产力智谱不是一家传统意义上的软件公司我们是一个以 AGI 为信仰的原生智能实验室。我们的护城河不在于算力的堆砌而在于对智能本质的底层解构以及将这种理解转化为社会生产力的定力。展望 2026智能范式将从轻量化的 Vibe Coding氛围编程向工业级的 Agentic Engineering智能体工程演变再进化为具备自主规划、环境感知与自我迭代能力的数字工程师最终实现跨越多步迭代、具备逻辑一致性的 Long-horizon Task长程任务闭环执行这将进一步带来智能上界的突破与 Token 调用的指数级增长。进入 TAC 时代人人都是“Token 架构师”在大模型时代当大模型具备长程任务执行的闭环能力后核心竞争力将重塑为 TACToken Architecture CapabilityToken 架构能力。TAC 智能调用量 x 智能质量 x 经济转化效率。未来衡量一个个体或组织价值的标准不再是掌握了多少信息而是其作为Token 架构师在给定预算下构建复杂 Agent 系统并驱动大模型完成复杂Agent系统的自主运行。智谱的目标是成为提升全社会 TAC 的基础设施让每一滴 Token 都能转化为可交付的经济增量。从“对话接口”到“大模型操作系统”LLM-OS传统的 OS操作系统是硬件资源的调度者而 LLM-OS大模型操作系统是智能的调度者。大模型正在吞噬软件未来的计算平台将不再是 App 的堆叠而是 API 商店与 Agent 矩阵的协同。在 LLM-OS 架构下模型直接理解模糊意图、拆解长程任务并调度全栈资源。谁的模型进入了系统内核谁就掌握了下一代计算的定义权。我们致力于将 GLM 打造为这一自治系统的核心引擎实现从云端 API 到设备级原生智能的位势跃迁。智能输出革命高质量 Token 的“全球工厂”随着 OpenClaw等应用驱动的 Token 消耗进入指数级轨道一场智能输出革命正在发生首先是推理再中心化凭借超大规模集群的规模经济与极致的推理优化云端大参数基模的效率将进一步提高。其次高质量 Token 出海依托中国在能源、芯片适配及 IDC 运维上的全产业链优势我们正在实现从“中国制造”向“中国智能”的跨越。Token 出海不是低价竞争而是基于 GLM-5 等顶级智能水平的“高质优价”输出。我们要向全球供应的是代表认知智能上界的、具有极致性价比的生产要素。回顾2025年智谱交出了一份不错的成绩单收入规模行业第一开放平台及API业务ARR增长60倍。全集团综合毛利率41%并且拥有在行业中罕见的定价权。展望2026年我将继续沿着中国的Anthropic这条商业路径以模型智能为根基以API平台为引擎做TAC时代高价值的智能基座。通往AGI的征途漫长我们将继续脚踏实地用极致的基座能力探寻未知的边界。——————————————雷递由媒体人雷建平创办若转载请写明来源。

智谱CEO张鹏：将推理性能压榨至极限不为短期盈利，而是为高质量Token消耗指数曲线

相关文章：

智谱CEO张鹏：将推理性能压榨至极限不为短期盈利，而是为高质量Token消耗指数曲线

Nunchaku-flux-1-dev模型服务监控：使用Node.js搭建性能仪表盘

intv_ai_mk11镜像部署教程：3条命令完成服务启动、状态检查、日志监控

C++笔记继承关系中构造和析构顺序（面向对象）

爬虫自动化（DrissionPage）

Omni-Vision Sanctuary 企业级部署架构设计：高可用与弹性伸缩

Phi-4-mini-reasoning助力Java安装与环境配置：从JDK到IDE的智能指引

3步快速上手！终极缠论量化工具：基于TradingView本地SDK的几何交易可视化完整指南

基于西门子PLC的空压机组储气风冷机组自动控制系统：“手动自动切换、多机控制及实时监测报警系统

感知损失（Perceptual Loss）在图像风格迁移中的关键作用与实现

算法部署设计，Sm3国密算法的硬件ip设计，纯v手写代码，图一为ip接口，图二为资源消耗

告别‘千人千脑’：用DMMR模型搞定EEG情感识别的跨被试难题（附PyTorch代码）

西门子SMART200 PLC梯形图，SR20，昆仑通态触摸屏组态画面，常压电热水锅炉比例模糊...

秒杀系统主库宕机不丢单方案-03-本地消息表

Akagi技术深度解析：开源雀魂AI辅助工具完全实战指南

秒杀系统主库宕机不丢单方案-02-半同步AFTER_SYNC

一站式AI应用开发：在PyTorch 2.8环境中集成Dify与Ollama部署大模型

技术洞察：zyfun如何重构跨平台视频播放体验

HsMod：炉石传说个性化增强工具玩家的全方位游戏体验优化方案

GNU Radio滤波器设计实战指南：从原理到高性能实现

【数据结构】红黑树(Red-Black Tree)

微信好友检测神器：一键识别谁删了你，轻松管理社交圈

3步打造高效右键菜单：让Windows操作提速50%

Qwen-Edit-2509多角度切换技术：如何用单张图片生成全视角内容？

抑制素A抗体如何提升妊娠中期唐氏综合征筛查的效能？

Vue2项目构建优化实战：时间戳防缓存与资源压缩的配置详解

数字记忆自主化：GetQzonehistory技术架构与数据保护实践指南

Windows驱动存储深度管理：从问题诊断到系统优化的完整解决方案

Kandinsky-5.0-I2V-Lite-5s实战：基于Dify平台构建无代码视频生成应用

魔兽争霸3终极优化指南：如何解锁180fps帧率限制并解决现代硬件兼容性问题