当前位置: 首页 > article >正文

智谱CEO张鹏:将推理性能压榨至极限 不为短期盈利,而是为高质量Token消耗指数曲线

雷递网 乐天 3月31日智谱CEO张鹏今日在智谱2025年年报沟通会上表示智谱曾经历过质疑经历过挫折但无数事实反复验证了一个判断——智能上界的提升是大模型AGI时代唯一的第一性。张鹏说AGI时代的商业价值可以归结为一个简洁的公式智能上界 × Token消耗规模。智能上界决定了定价权Token消耗规模决定了价值体量。以OpenClaw为代表的应用引爆Token消耗狂潮面对2月以来供不应求的市场智谱将继续加大投入国产芯片软硬一体化调优将推理性能压榨至极限不是为了短期盈利而是为了支撑那条不断上扬的、高质量Token消耗的指数曲线。在这场关于算力、数据与智能的马拉松里胜负手永远在于对这个公式的极致执行。张鹏指出在大模型时代当大模型具备长程任务执行的闭环能力后核心竞争力将重塑为 TACToken Architecture CapabilityToken 架构能力。TAC 智能调用量 x 智能质量 x 经济转化效率。未来衡量一个个体或组织价值的标准不再是掌握了多少信息而是其作为Token 架构师在给定预算下构建复杂 Agent 系统并驱动大模型完成复杂Agent系统的自主运行。智谱的目标是成为提升全社会 TAC 的基础设施让每一滴 Token 都能转化为可交付的经济增量。据悉智谱今日发布2025年全年业绩这是其上市后首份财报。智谱2025年营收7.24亿较上年同期的3.12亿增131.9%。MaaS商业飞轮全面运转MaaS API平台实现ARR 17亿约2.5亿美元同比提升60倍且盈利能力大幅改善MaaS API平台毛利率同比提升近5倍至18.9%。以下是智谱CEO张鹏在电话会议上讲述的内容张鹏今天我想和大家分享三件事我们如何坚定地走在AGI的道路上MaaS商业模式如何验证了我们的战略判断以及我们探索智能上界的下一个突破。一、坚定追求AGI智能上界的持续突破智谱自2019年创立起就将“让机器像人一样思考”作为公司唯一的战略目标。六年来这个目标从未动摇。我们也曾经历过质疑经历过挫折但无数事实反复验证了一个判断——智能上界的提升是大模型AGI时代唯一的第一性。在这个第一性原理之上我们进一步认识到让智能普惠大众的载体是Token。每个人、每个组织都可以通过Token调用智能产生价值。因此AGI时代的商业价值可以归结为一个简洁的公式智能上界 × Token消耗规模。智能上界决定了定价权Token消耗规模决定了价值体量。过去一年智谱的关键词叫做“智能上界”。2025至26年我们完成了GLM-4.5、4.6、4.7到GLM-5、5-Turbo的模型迭代。每一代模型的发布都在国际最具影响力的评测中刷新纪录——保持全球开源模型第一、中国模型第一在全球模型中仅次于GPT、Claude和Gemini。换句话说我们已经稳定地进入了全球AI的第一梯队与世界上最顶尖的三家公司同台竞技。a16z引用GLM-5与Claude Opus 4.6作为开源与闭源差距明显收窄的论据。GLM-5在Artificial Analysis Intelligence Index榜单达到50分这是开放权重模型首次达到这一分数。智谱始终坚持GLM自研架构2025年智谱是Vibe Coding氛围编程的先行者模型Coding能力在全行业取得广泛认可。随着旗舰模型GLM-5的发布我们再次率先完成从Vibe Coding到Agentic Engineering智能体工程的跨越——AI不再是简单的代码生成器而是具备自主规划、测试与迭代能力的“工程师”。在架构底层我们通过 Muon Split 优化策略及 MLA-256 改进实现了稳定的模型训练在和 GQA-8 相同性能的情况下显著减少了 KVCache 占用通过动态稀疏注意力机制攻克了长序列推理的计算量难题实现部署成本降低到原来的 50% 且性能无损。我们还推出Slime框架实现异步强化学习的效率革命解决了智能体长时序任务的空转痛点实现了生成与训练的完全解耦。通过Prefill-Decode (PD) 分离与心跳容错机制Slime最大化了GPU利用率并确保了大模型训练的鲁棒性。配合我们独创的直接双面重要性采样算法我们克服了异步训练中的动作-奖励对齐难题使模型能从超1万个真实软件工程环境中高效学习。这套体系支撑了GLM-5-Turbo作为全球首款OpenClaw基座模型的诞生实现长链路安全执行。我们深知算力自主的重要性GLM-5的国产化适配已超越简单的算子移植进入了Co-design软硬协同设计阶段。在底层内核层面通过Lightning Indexer等定制化融合内核与FlashComm通信优化我们最大限度隐藏了内存访问与通信延迟。这种深度调优让GLM系列在国产芯片上跑出了比肩国际顶级芯片的推理效率实现了“智能上界自主计算底座”的技术闭环。进入2026年我们的关键词叫做“token量”。以OpenClaw为代表的应用引爆Token消耗狂潮面对2月以来供不应求的市场我们将继续加大投入国产芯片软硬一体化调优将推理性能压榨至极限不是为了短期盈利而是为了支撑那条不断上扬的、高质量Token消耗的指数曲线。我们坚信在这场关于算力、数据与智能的马拉松里胜负手永远在于对这个公式的极致执行。二、MaaS驱动的商业飞轮从模型能力到商业化Scaling接下来汇报核心业绩。在展开数据之前我想先请各位关注一个全球性的范式变化。过去一年Anthropic是全球AI行业最受关注的公司之一它的增长逻辑非常清晰专注于把最强的模型通过API交付给企业和开发者让智能参与创造经济价值。Anthropic的ARR从24年底ARR 10亿美金到25年底90亿美金这证明了一件事当模型足够强API本身就是最好的商业模式。智能的质量创造定价权企业和用户的深度使用创造增长的Scaling。同样的商业模式与增长正在智谱身上发生。2025年公司总收入7.24亿人民币同比增长131.9%是国内收入规模最大的大模型公司超出我们自己年初设定的目标这是市场对我们长期坚持“基座模型API平台生态”战略的最好印证。截至目前我们的编程、智能体及企业级大模型与超过400万中小企业及开发者共建生态覆盖全球218个国家和地区。核心增长极是智谱MaaS平台也就是开放平台及API业务的全面爆发。当前智谱的MaaS平台ARR约17亿元在过去12个月提升60倍。通过对推理侧的极致工程优化我们大幅度降低token单位成本实现业务盈利水平的大幅改善MaaS平台毛利率提升近5倍至18.9%远超行业水准。Anthropic的早期增长依靠模型被全球开发者高频使用智谱的增长同样如此——开发者是感知智能上界最敏锐的群体。2025年智谱在国内第一家推出编程套餐“GLM Coding Plan”迅速覆盖全球付费开发者规模快速突破24.2万Token调用量6个月涨了15倍。Anthropic约80%的收入来自企业级API调用服务与其类似依托BigModel.cn智谱MaaS平台已成为连接基础模型与400万企业应用及开发者的枢纽。中国前10大互联网公司中已有9家每天深度调用GLM每一代模型发布后24小时内即获得字节、阿里、腾讯等头部大厂的官方接入。基于高阶智能带来的底气我们的API调用定价在一季度提升83%即便如此市场依然呈现出供不应求的情况调用量增长400%再次印证了高质量token是当下的稀缺资源谁掌握了智能上界谁就掌握了定价权。除了聚焦Coding以外智谱也是国内Agent布局最早的模型厂商从全球首个手机Agent AutoGLM到国内首个一键安装的AutoClaw。2026年3月继Coding Plan之后我们推出Claw Plan上线仅两天订阅用户即破10万上线20天订阅用户突破40万这验证了智能体长链路任务的巨大商业空间。在全球化维度上我们实现了Token在全球范围内的价值变现屡次模型发布在国际市场广受关注目前GLM模型已全面部署于Google Vertex AI、AWS Bedrock、Fireworks、Cerebras等全球顶尖云服务商并入驻OpenRouter、Vercel等国际主流模型聚合平台是OpenRouter付费模型排名NO.1。GLM已成为国际知名Coding平台如Windsurf、知名CodingAgent平台如OpenCode的默认模型。以智能上界为壁垒以API为主要产品形态这是Anthropic和智谱正在兑现的商业路径。公司已成为国内付费Token消耗量最高的厂商之一更关键的是智能上界的突破推动Token消耗量的指数级增加——随着模型越强、用户的使用场景越深度和复杂、Token调用量随之越来越大。Anthropic过去1年ARR的10倍增长、智谱API平台的60倍增长均反映增长不再是线性的。同时商业上的正反馈支撑我们投入更大的算力和研发进一步抬升智能上界这一飞轮已经转动起来。三、面向未来智能上界突破与社会生产力智谱不是一家传统意义上的软件公司我们是一个以 AGI 为信仰的原生智能实验室。我们的护城河不在于算力的堆砌而在于对智能本质的底层解构以及将这种理解转化为社会生产力的定力。展望 2026智能范式将从轻量化的 Vibe Coding氛围编程向工业级的 Agentic Engineering智能体工程演变再进化为具备自主规划、环境感知与自我迭代能力的数字工程师最终实现跨越多步迭代、具备逻辑一致性的 Long-horizon Task长程任务闭环执行这将进一步带来智能上界的突破与 Token 调用的指数级增长。进入 TAC 时代人人都是“Token 架构师”在大模型时代当大模型具备长程任务执行的闭环能力后核心竞争力将重塑为 TACToken Architecture CapabilityToken 架构能力。TAC 智能调用量 x 智能质量 x 经济转化效率。未来衡量一个个体或组织价值的标准不再是掌握了多少信息而是其作为Token 架构师在给定预算下构建复杂 Agent 系统并驱动大模型完成复杂Agent系统的自主运行。智谱的目标是成为提升全社会 TAC 的基础设施让每一滴 Token 都能转化为可交付的经济增量。从“对话接口”到“大模型操作系统”LLM-OS传统的 OS操作系统 是硬件资源的调度者而 LLM-OS大模型操作系统 是智能的调度者。大模型正在吞噬软件未来的计算平台将不再是 App 的堆叠而是 API 商店与 Agent 矩阵的协同。在 LLM-OS 架构下模型直接理解模糊意图、拆解长程任务并调度全栈资源。谁的模型进入了系统内核谁就掌握了下一代计算的定义权。我们致力于将 GLM 打造为这一自治系统的核心引擎实现从云端 API 到设备级原生智能的位势跃迁。智能输出革命高质量 Token 的“全球工厂”随着 OpenClaw等应用驱动的 Token 消耗进入指数级轨道一场智能输出革命正在发生首先是推理再中心化凭借超大规模集群的规模经济与极致的推理优化云端大参数基模的效率将进一步提高。其次高质量 Token 出海依托中国在能源、芯片适配及 IDC 运维上的全产业链优势我们正在实现从“中国制造”向“中国智能”的跨越。Token 出海不是低价竞争而是基于 GLM-5 等顶级智能水平的“高质优价”输出。我们要向全球供应的是代表认知智能上界的、具有极致性价比的生产要素。回顾2025年智谱交出了一份不错的成绩单收入规模行业第一开放平台及API业务ARR增长60倍。全集团综合毛利率41%并且拥有在行业中罕见的定价权。展望2026年我将继续沿着中国的Anthropic这条商业路径以模型智能为根基以API平台为引擎做TAC时代高价值的智能基座。通往AGI的征途漫长我们将继续脚踏实地用极致的基座能力探寻未知的边界。——————————————雷递由媒体人雷建平创办若转载请写明来源。

相关文章:

智谱CEO张鹏:将推理性能压榨至极限 不为短期盈利,而是为高质量Token消耗指数曲线

雷递网 乐天 3月31日智谱CEO张鹏今日在智谱2025年年报沟通会上表示,智谱曾经历过质疑,经历过挫折,但无数事实反复验证了一个判断——智能上界的提升,是大模型AGI时代唯一的"第一性"。张鹏说,AGI时代的商业价…...

Nunchaku-flux-1-dev模型服务监控:使用Node.js搭建性能仪表盘

Nunchaku-flux-1-dev模型服务监控:使用Node.js搭建性能仪表盘 你是不是也遇到过这种情况?自己部署的AI模型服务,用着用着突然就变慢了,或者干脆没响应了,用户反馈过来才知道出了问题。等到发现的时候,可能…...

intv_ai_mk11镜像部署教程:3条命令完成服务启动、状态检查、日志监控

intv_ai_mk11镜像部署教程:3条命令完成服务启动、状态检查、日志监控 1. 快速了解intv_ai_mk11 intv_ai_mk11是一款基于7B参数Llama架构的AI对话机器人,它能帮助你完成各种任务: 回答各类问题(技术、生活、知识等)辅…...

C++笔记 继承关系中构造和析构顺序(面向对象)

在C面向对象编程中,继承是实现代码复用和类层次设计的核心特性。当存在基类与派生类的继承关系时,构造函数和析构函数的调用顺序有严格的规则——这不仅是面试高频考点,更是避免内存泄漏、保证对象正确初始化/清理的关键。核心结论先明确&…...

爬虫自动化(DrissionPage)

目录 ?一.介绍: 下载DrissionPage,还是我们熟悉的pip: 环境准备: ?二.基本代码: 它对于的导包和类使用: 窗口的设置: 和获取的页面的滑动: 3.进一步认识DrissionPage: 浏览器可以多开…...

Omni-Vision Sanctuary 企业级部署架构设计:高可用与弹性伸缩

Omni-Vision Sanctuary 企业级部署架构设计:高可用与弹性伸缩 1. 企业级AI部署面临的挑战 当企业决定在生产环境中部署Omni-Vision Sanctuary这类AI服务时,通常会遇到几个关键挑战。首先是服务可用性问题,任何计划外停机都可能直接影响业务…...

Phi-4-mini-reasoning助力Java安装与环境配置:从JDK到IDE的智能指引

Phi-4-mini-reasoning助力Java安装与环境配置:从JDK到IDE的智能指引 1. 为什么需要智能指引来安装Java? 刚接触Java开发的朋友们,十有八九会在环境配置这一步卡壳。我见过太多初学者在JDK版本选择、环境变量配置这些环节反复折腾&#xff0…...

3步快速上手!终极缠论量化工具:基于TradingView本地SDK的几何交易可视化完整指南

3步快速上手!终极缠论量化工具:基于TradingView本地SDK的几何交易可视化完整指南 【免费下载链接】chanvis 基于TradingView本地SDK的可视化前后端代码,适用于缠论量化研究,和其他的基于几何交易的量化研究。 缠论量化 摩尔缠论 缠…...

基于西门子PLC的空压机组储气风冷机组自动控制系统:“手动自动切换、多机控制及实时监测报警系统

基于西门子plc的空压机组储气风冷机组自动控制系统 可以实现手动自动切换 三组空压机分别自动控制,自动检测三路压力 风冷机运行实时检测 报警查寻,参数设置等上周刚把车间那套跑了快十年的空压机组控制系统给换了,用的是西门子S7-1200&#…...

感知损失(Perceptual Loss)在图像风格迁移中的关键作用与实现

1. 为什么感知损失能让AI画出更像艺术家的画? 第一次用传统MSE损失做风格迁移时,我盯着生成的"梵高星空"直挠头——颜色位置都对,但怎么看都像小学生涂鸦。直到尝试了感知损失,画面突然有了笔触的韵律感。这背后的秘密…...

算法部署设计,Sm3国密算法的硬件ip设计,纯v手写代码,图一为ip接口,图二为资源消耗

算法部署设计,Sm3国密算法的硬件ip设计,纯v手写代码,图一为ip接口,图二为资源消耗,图三四为封装为axilite接口并在开发版下板测试,图五为开发版实测结果 直接联系内容包括:sm3的软件python实现代码&#xf…...

告别‘千人千脑’:用DMMR模型搞定EEG情感识别的跨被试难题(附PyTorch代码)

突破脑电情感识别的个体差异壁垒:DMMR模型实战指南与PyTorch实现 当你在实验室里看着屏幕上跳动的脑电波形时,是否曾为不同受试者数据间的巨大差异而头疼?这种被称为"脑电指纹"的个体特异性,一直是情感识别领域最棘手的…...

西门子SMART200 PLC梯形图,SR20,昆仑通态触摸屏组态画面,常压电热水锅炉比例模糊...

西门子SMART200 PLC梯形图,SR20,昆仑通态触摸屏组态画面,常压电热水锅炉比例模糊控制追目标温度,PLC源触摸屏源CAD原理图图纸全套常压电热水锅炉那种“冰火两重天”的加热体验谁懂?茶水间或者小烘干池边上,…...

秒杀系统主库宕机不丢单方案-03-本地消息表

秒杀系统主库宕机不丢单方案:本地消息表(事务分离补偿机制) 方案概述 本地消息表方案通过在应用层引入消息表机制,将事务操作与消息发送分离,实现最终一致性。该方案是秒杀系统主库宕机不丢单的兜底设计,即…...

Akagi技术深度解析:开源雀魂AI辅助工具完全实战指南

Akagi技术深度解析:开源雀魂AI辅助工具完全实战指南 【免费下载链接】Akagi 支持雀魂、天鳳、麻雀一番街、天月麻將,能夠使用自定義的AI模型實時分析對局並給出建議,內建Mortal AI作為示例。 Supports Majsoul, Tenhou, Riichi City, Amatsuk…...

秒杀系统主库宕机不丢单方案-02-半同步AFTER_SYNC

秒杀系统主库宕机不丢单方案:半同步AFTER_SYNC(主从确认再提交) 方案概述 半同步复制AFTER_SYNC方案是MySQL 5.7版本引入的高级复制机制,通过主从节点之间的确认机制确保数据不丢失。该方案在主库提交事务前,等待至少一…...

一站式AI应用开发:在PyTorch 2.8环境中集成Dify与Ollama部署大模型

一站式AI应用开发:在PyTorch 2.8环境中集成Dify与Ollama部署大模型 1. 企业级AI开发的新范式 想象一下这样的场景:你的开发团队需要在两周内上线一个智能客服系统,要求能理解专业术语、生成高质量回复,还要能与企业现有系统无缝…...

技术洞察:zyfun如何重构跨平台视频播放体验

技术洞察:zyfun如何重构跨平台视频播放体验 【免费下载链接】zyfun 跨平台桌面端视频资源播放器,免费高颜值. 项目地址: https://gitcode.com/gh_mirrors/zy/zyfun 在数字娱乐快速发展的今天,跨平台视频播放器面临着系统兼容性、性能优化和用户体…...

HsMod:炉石传说个性化增强工具 玩家的全方位游戏体验优化方案

HsMod:炉石传说个性化增强工具 玩家的全方位游戏体验优化方案 【免费下载链接】HsMod Hearthstone Modify Based on BepInEx 项目地址: https://gitcode.com/GitHub_Trending/hs/HsMod 你是否曾因炉石传说中繁琐的操作流程而感到沮丧?是否希望拥有…...

GNU Radio滤波器设计实战指南:从原理到高性能实现

GNU Radio滤波器设计实战指南:从原理到高性能实现 【免费下载链接】gnuradio GNU Radio – the Free and Open Software Radio Ecosystem 项目地址: https://gitcode.com/gh_mirrors/gn/gnuradio GNU Radio作为开源软件定义无线电生态系统,提供了…...

【数据结构】红黑树(Red-Black Tree)

前言在上一篇博客中,我们学习了 AVL 树,为了保持绝对的平衡,它在插入和删除时会疯狂地进行左旋和右旋。但在现代的Java集合框架中(如 TreeMap、TreeSet,以及 Java 8 之后的 HashMap),并没有选择…...

微信好友检测神器:一键识别谁删了你,轻松管理社交圈

微信好友检测神器:一键识别谁删了你,轻松管理社交圈 【免费下载链接】WechatRealFriends 微信好友关系一键检测,基于微信ipad协议,看看有没有朋友偷偷删掉或者拉黑你 项目地址: https://gitcode.com/gh_mirrors/we/WechatRealFr…...

3步打造高效右键菜单:让Windows操作提速50%

3步打造高效右键菜单:让Windows操作提速50% 【免费下载链接】ContextMenuManager 🖱️ 纯粹的Windows右键菜单管理程序 项目地址: https://gitcode.com/gh_mirrors/co/ContextMenuManager 你是否也曾在右键点击文件时,面对长达20个选项…...

Qwen-Edit-2509多角度切换技术:如何用单张图片生成全视角内容?

Qwen-Edit-2509多角度切换技术:如何用单张图片生成全视角内容? 【免费下载链接】Qwen-Edit-2509-Multiple-angles 项目地址: https://ai.gitcode.com/hf_mirrors/dx8152/Qwen-Edit-2509-Multiple-angles 在视觉创作领域,你是否曾为拍…...

抑制素A抗体如何提升妊娠中期唐氏综合征筛查的效能?

一、为何抑制素A成为妊娠期的重要生物标志物?抑制素A是一种由α和βA亚基通过二硫键连接形成的异源二聚体糖蛋白。在非妊娠期,它主要由卵巢颗粒细胞分泌,作为反馈调节因子,选择性地抑制垂体前叶分泌卵泡刺激素。进入妊娠状态后&am…...

Vue2项目构建优化实战:时间戳防缓存与资源压缩的配置详解

1. 为什么Vue2项目需要构建优化 最近接手了一个老项目的维护工作,发现每次前端更新后总有用户反馈页面显示异常。排查后发现是浏览器缓存惹的祸——用户访问的仍然是旧版本的静态资源。这让我意识到构建优化的重要性,特别是对于需要频繁更新的业务系统。…...

数字记忆自主化:GetQzonehistory技术架构与数据保护实践指南

数字记忆自主化:GetQzonehistory技术架构与数据保护实践指南 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 一、技术演进视角下的数据脆弱性危机 数字存储技术的迭代速度与…...

Windows驱动存储深度管理:从问题诊断到系统优化的完整解决方案

Windows驱动存储深度管理:从问题诊断到系统优化的完整解决方案 【免费下载链接】DriverStoreExplorer Driver Store Explorer [RAPR] 项目地址: https://gitcode.com/gh_mirrors/dr/DriverStoreExplorer 问题发现:驱动管理中的隐形痛点与风险 系…...

Kandinsky-5.0-I2V-Lite-5s实战:基于Dify平台构建无代码视频生成应用

Kandinsky-5.0-I2V-Lite-5s实战:基于Dify平台构建无代码视频生成应用 1. 引言:让图片动起来的零门槛方案 最近遇到不少朋友在问:有没有什么简单的方法,能让静态图片变成动态视频?传统方案要么需要专业视频编辑技能&a…...

魔兽争霸3终极优化指南:如何解锁180fps帧率限制并解决现代硬件兼容性问题

魔兽争霸3终极优化指南:如何解锁180fps帧率限制并解决现代硬件兼容性问题 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 魔兽争霸3作为经…...