当前位置: 首页 > article >正文

曝GPT-5.5用上“全球最快芯片”,Claude慌了

120B模型飙到2000 token/秒CFO更放话已在跑GPT-5.5Cerebras 560亿美元IPO首日暴涨68%但SemiAnalysis万字拆解直指死穴。SemiAnalysis硅谷最硬核的芯片分析机构4月份光是AI工具的订阅费就烧到了年化1000万美元。其中80%花在同一个地方Anthropic的Opus 4.6 fast模式。它比标准模式贵6倍但token输出速度快2.5倍然后Opus 4.7来了。更聪明跑分全面碾压上一代但工程师集体拒绝升级。理由只有一个4.7没有fast模式。他们宁可用更笨的模型也要更快的token而这个趋势的最大受益者是一家刚刚以560亿美元估值登陆纳斯达克的芯片公司Cerebras。2000 token/秒怎么来的OpenAI今年2月甩出了GPT-5.3-Codex-Spark。名字挂着GPT-5.3的招牌但底层是一个从完整版GPT-5.3 Codex蒸馏出来的小模型参数量只有原版的十分之一120B。虽然是用智能换来的但速度确实夸张到离谱——2000 token/秒。作为对比Anthropic最快的Opus 4.6 fast大约70-100 token/秒GPT-5系列在英伟达GPU上是大约130 token/秒。而Codex-Spark一脚油门踩到了一个数量级开外。让它跑这么快的正是Cerebras的WSE-3一块餐盘大小的晶圆级芯片。这件事直接引爆了一笔246亿美元的合同也把Cerebras一路推进了纳斯达克。5月14日首日暴涨68%2026年至今最大科技IPO。但Cerebras CFO Bob Komin说这还只是开胃菜。IPO前夜他在采访中亮了一张没人预料到的牌——我们服务所有模型对模型大小没有限制。今天我们正在跑万亿参数的模型。我们正在跑OpenAI内部的GPT-5.4和GPT-5.5。如果这是真的Cerebras就不只是一个「小模型快跑」的玩家了IPO当天的疯狂涨幅立刻站得住脚。但SemiAnalysis偏偏在同一周甩出了一篇两万字的技术拆解报告直接把这个故事撕开了一道口子。Cerebras公开云上最大的生产模型是GPT-OSS总参数120B预览模型最大355B。曾经上过的Llama 70B和405B后来也被悄悄下了架。2025年最火但体量也更大的开源模型比如DeepSeek从头到尾就没出现在Cerebras Cloud上。CFO口中的那个数字目前只存在于「OpenAI内部」外界无法验证。要搞清楚这中间的裂缝有多大得先看看这块晶圆到底是怎么回事。一整块硅的赌注半导体行业干了50年的事情就是切硅片。一整块晶圆刻出几十颗芯片切割封装各干各的。英伟达的B300已经把单颗芯片撑到了858平方毫米基本上是光刻的极限了。相比之下Cerebras却反其道而行——它不切。整块晶圆就是一颗芯片。46,225平方毫米比英伟达的GPU大58倍大约一个餐盘的尺寸。上面集成了4万亿个晶体管、90万个计算核心和44GB的SRAM内存。重点来了SRAM。GPU用的是HBM高带宽内存容量大但速度相对慢。一块B300配了288GB的HBM带宽在TB/秒级别。WSE-3只有44GB的SRAM但内存带宽高达21PB/秒。Cerebras速度碾压的秘密就在这里。SRAM带宽大到解码时几乎可以把全部计算核心喂饱。GPU的计算核心只能饿着等内存。而推理的瓶颈正是解码。模型一个token一个token往外吐的时候每吐一个就要把全部权重从内存里读一遍。带宽越高读得越快token出得越快。SemiAnalysis做了一个很直观的对比。同样只给一个用户生成token的场景下GPU能实际利用的算力只有理论峰值的零头。WSE-3理论上可以把全部15.6 PFLOPS的FP16算力吃满。差距不是百分之几十而是数量级的。用他们的原话形容这就像是公交车和F1的区别。GPU是公交车一次拉很多人但每个人都慢。WSE-3是F1赛车一次只拉一个人但飞快。想用赛车的客户甚至愿意付6倍价格来买速度。Opus 4.6 fast已经证明了这一点。但这辆「车」有一个致命问题——它的「油箱」只有44升。对于小模型来说WSE-3的44GB SRAM绰绰有余但放到今天的大模型面前根本不够看。DeepSeek V4有1.6万亿参数即使用最激进的压缩方式FP8量化光权重就要490GB。一块WSE-3装不下要切成至少12块塞进12块晶圆。分布就要通信而这也是Cerebras最致命的短板。每块WSE-3对外带宽只有150GB/秒。英伟达一块Blackwell GPU通过NVLink5能跑到900GB/秒是Cerebras的6倍。被英伟达收购的Groq更夸张单颗LPU3就有9.6Tb/秒8倍。带宽加不了。这是物理层面的死结。WSE-3的制造方式决定了一切。整块晶圆用同一套模板反复曝光12列7行84个完全相同的die拼成一颗芯片。想加高速通信端口SerDes就得在每个die里都加。但84个die里只有边缘的能接到外面中间的全是摆设纯粹浪费硅面积。更要命的是SerDes是模拟电路面积大还会干扰旁边的数字逻辑。在die中间放SerDes等于在自家的高速公路上挖坑。所以Cerebras被困在了一个岛屿上。岛上的高速公路四通八达但通往外界的桥只有一座单车道。如此一来Cerebras跑大模型只剩一条路把模型按层切开每块晶圆放几层晶圆之间只传中间计算结果比完整的模型权重小得多。但流水线越长延迟越高。SemiAnalysis算了一笔账12块晶圆跑DeepSeek V4光是层间传输的固定延迟就要叠加12次缓存数据的搬运时间高达数毫秒。所以CFO在CNBC上说的那番话至少目前更像是路线图上的故事。但在120B以下这个区间Cerebras交出的成绩单没什么好挑的。代价是什么呢知名评测机构Artificial Analysis用Llama 4 Maverick做过实测Cerebras 2400 token/秒英伟达Blackwell 1040 token/秒直接碾了一倍多。AI编程工具Devin背后的Cognition已经把Cerebras接进了产品快速模式下1000 token/秒。Notion、LiveKit、GSK等也已经在用。但代价是公开云跑得动的上限就是GPT-OSS级别最大上下文只有128K。根据SemiAnalysis从Claude Code、Cursor等工具中采集的43.2万条真实请求其中有将近50%都超过了128K。而Agent时代的上下文只会越来越长128K很快就是瓶颈。速度快但模型小、上下文短、选择少。这就是开发者今天拿到手的Cerebras。但这里藏着一个很多人还没注意到的细节足以改变整个竞争格局。Cerebras与OpenAI的协议里写着一条排他条款合同期内不得向「特定OpenAI竞争对手」出售产品。CEO Feldman没有点名但所有人都知道指的是谁Anthropic。12%股权、10亿美元贷款、246亿美元订单锁定。Cerebras已经被牢牢绑在了OpenAI的战车上。推理战争OpenAI刚刚换了一把枪如今AI军备竞赛的主战场已经变了。训练只做一次推理每天做数十亿次。2026年三分之二的AI算力消耗在推理上到2027年预计达到80%。根据OpenAI的计划AWS的Trainium负责理解用户输入Cerebras负责生成输出tokenGPU负责训练和长上下文三套硬件各管一段。这套组合拳只为一件事成本打下来速度拉上去。对比之下Opus 4.6 fast的速度已经从100 token/秒退化到了70 token/秒Cerebras也在合同里把它锁在了门外。那么问题来了Anthropic的极速推理方案在哪里原文链接曝GPT-5.5用上“全球最快芯片”Claude慌了-36氪

相关文章:

曝GPT-5.5用上“全球最快芯片”,Claude慌了

120B模型飙到2000 token/秒,CFO更放话已在跑GPT-5.5!Cerebras 560亿美元IPO首日暴涨68%,但SemiAnalysis万字拆解直指死穴。 SemiAnalysis,硅谷最硬核的芯片分析机构,4月份光是AI工具的订阅费就烧到了年化1000万美元。…...

3分钟告别Windows桌面混乱:这款免费工具让你的图标瞬间变整齐

3分钟告别Windows桌面混乱:这款免费工具让你的图标瞬间变整齐 【免费下载链接】NoFences 🚧 Open Source Stardock Fences alternative 项目地址: https://gitcode.com/gh_mirrors/no/NoFences 还在为Windows桌面上那些杂乱无章的图标头疼吗&…...

商业空间吸音地毯怎么选?16 年品牌雅尔居靠谱

商业空间装修,噪音控制是刚需。办公室人声嘈杂、酒店走廊脚步声扰客、工装大堂回音重,都会直接影响空间体验与使用效率。选对吸音地毯,既能高效降噪,又能提升空间质感,是商业空间地面材料的优选。今天就来聊聊吸音地毯…...

为AI智能体项目选择与接入高性价比大模型API服务

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 为AI智能体项目选择与接入高性价比大模型API服务 在构建AI智能体或自动化工作流时,开发者面临的核心挑战往往集中在两个…...

进程管理器大横评:从 PM2 到 Systemd 的选型与实战

一、为什么需要进程管理器? 在服务器运维的世界里,“进程管理器”(Process Manager)是一个看似基础却极其关键的角色。它的核心使命可以概括为:确保你的应用程序在服务器重启、进程崩溃、资源耗尽等意外情况下&#xf…...

实测:JD匹配度从50%到90%,面试邀约直接翻倍,我才发现简历写错了10年!

“简历投出去就石沉大海,每天海投几十份,零回复。”“好不容易收到面试,结果聊了几句就没下文了,感觉岗位根本不适合我。”“JD看了又看,觉得自己的经验挺符合啊,为啥总是卡在第一关?”这些&…...

零经验想投运营?3分钟AI生成高匹配简历,告别海投无效!

“我一个零经验小白,简历怎么写才能打动运营岗HR啊?!!” “海投了快100份简历,一个面试都没有,我是不是不适合运营?” 相信这是大部分想转行或者刚毕业,对运营岗有点心动但完全没经…...

打卡信奥刷题(3292)用C++实现信奥题 P8976 「DTOI-4」排列

P8976 「DTOI-4」排列 题目背景 Update on 2023.2.1:新增一组针对 yuanjiabao 的 Hack 数据,放置于 #21。 Update on 2023.2.2:新增一组针对 CourtesyWei 和 bizhidaojiaosha 的 Hack 数据,放置于 #22。 构造一个排列 ppp&…...

转行简历不会衔接?AI一键生成,自然过渡无违和感,邀约率飙升3倍!

“我以前是做销售的,想转行产品经理,简历上怎么写才能不让HR觉得我风马牛不相及?” “干了几年运营,现在想尝试开发,简历里除了写熟悉Word、Excel,还能写啥?” “裸辞转行,简历一片…...

RK3588开发板Ubuntu系统深度解析:架构设计与性能优化指南

RK3588开发板Ubuntu系统深度解析:架构设计与性能优化指南 【免费下载链接】ubuntu-rockchip Ubuntu for Rockchip RK35XX Devices 项目地址: https://gitcode.com/gh_mirrors/ub/ubuntu-rockchip 在嵌入式开发领域,Rockchip RK3588处理器凭借其强…...

FlashAttention 深度解读:让大模型注意力机制“一口气算完“

FlashAttention:让大模型注意力机制"一口气算完" 想象你在厨房做菜。冰箱在远处(HBM,高带宽内存),料理台在面前(SRAM,片上缓存)。每次要切菜,都得走过去开冰箱…...

实战测试10款降AIGC软件:只选真正管用的那一款!

随着AI写作工具的普及,论文撰写和内容创作变得前所未有的高效,许多学生和职场人都从中受益。然而,随着AIGC检测技术的不断升级,越来越多的人开始面临新的挑战:原本流畅自然的AI生成内容,如今很容易被系统识…...

【期刊征稿 | 录用后最快当月见刊,刊后1个月检索,且检索稳定】第九届艺术、教育与管理国际学术会议(ICAEM 2026) - 第二期

录用后最快当月见刊,刊后1个月检索,且检索稳定 | 含ISSN号,DOI,封面目录 第九届艺术、教育与管理国际学术会议(ICAEM 2026) - 第二期 2026 9th International Conference on Arts, Education and Management 2026年…...

从入门到发烧:2026 Linux 必装 13 款播放器(VLC/MPV/Kodi 全覆盖)

Linux视频播放器选择多样,如榛名、MPlayer、VLC等,功能强大、支持多格式,满足各类用户需求 一、榛名视频播放器 榛名视频播放器是一款基于Qt的开源视频播放器,提供了许多基本功能。其特点包括支持Youtube-dl、控制播放速度、丰富…...

【案例共创】CodeArts+SKILL 双引擎:AI 驱动 WEB 服务器极速部署

本案例由开发者:JeffDing提供,华为开发者空间案例中心优化并收录。 最新案例动态,请查阅【案例共创】CodeArtsSKILL 双引擎:AI 驱动 WEB 服务器极速部署小伙伴们快来进行实操吧! 一、概述 1.1 案例介绍 华为云码道…...

如何在跨平台场景下实现高效远程桌面控制?BilldDesk Pro的现代化解决方案

如何在跨平台场景下实现高效远程桌面控制?BilldDesk Pro的现代化解决方案 【免费下载链接】billd-desk 基于Vue3 WebRTC Nodejs Flutter搭建的远程桌面控制、游戏串流 项目地址: https://gitcode.com/gh_mirrors/bi/billd-desk 在远程办公和技术支持日益普…...

3步搞定:m4s-converter让你的B站缓存视频重获新生

3步搞定:m4s-converter让你的B站缓存视频重获新生 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾经遇到过这样的困境&#…...

Flink 2.2集成Flink CDC 3.6

1 、部署Flink CDC tar -zxf flink-cdc-3.6.0-2.2-bin.tar.gz -C /usr/bigtop/3.3.0/usr/libln -s /usr/bigtop/3.3.0/usr/lib/flink-cdc-3.6...

三步解锁全网盘极速下载:免登录直链解析完整教程

三步解锁全网盘极速下载:免登录直链解析完整教程 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘 …...

网盘直链解析工具:多平台文件下载的实用解决方案

网盘直链解析工具:多平台文件下载的实用解决方案 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘 …...

GitHub资源精准下载:3分钟掌握DownGit的完整使用指南

GitHub资源精准下载:3分钟掌握DownGit的完整使用指南 【免费下载链接】DownGit github 资源打包下载工具 项目地址: https://gitcode.com/gh_mirrors/dow/DownGit 还在为下载GitHub上单个文件而烦恼吗?DownGit是你的终极解决方案!这个…...

技术人的收入结构优化:工资、副业、投资的三支柱模型

在软件测试的世界里,我们熟知一个真理:没有任何单一测试策略能保证系统的绝对健壮。一个高质量的系统,必然建立在单元测试、集成测试、系统测试和验收测试所构成的稳固金字塔上。同样的逻辑,也适用于我们技术人的财务健康。过度依…...

实力入选丨全知科技荣登嘶吼2026网络安全产业图谱

近日,嘶吼安全产业研究院正式发布《嘶吼2026网络安全产业图谱》。全知科技凭借在数据安全赛道的长期深耕积淀、持续技术创新能力与规模化行业落地实践,成功入选图谱数据安全核心板块,强势入围开发与应用安全、数据安全两大核心板块&#xff0…...

9大网盘直链解析:免费高效的完整下载解决方案

9大网盘直链解析:免费高效的完整下载解决方案 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘 / 迅…...

B-H 曲线 vs B-P 曲线|磁芯材料两大核心曲线详解

一、B-H 曲线:描述磁芯 “能不能导磁、会不会饱和” 1. 它是什么? 全称:B-H 磁化曲线 定义:磁感应强度 B(单位:T)与磁场强度 H(单位:A/m)的关系曲线 物理意义:反映磁芯材料在磁场中的磁化特性,决定磁导率、饱和磁通密度。 2. 核心作用 计算磁路磁阻、电感值; 判断…...

我见过最聪明的技术人,都在偷偷培养这3种“非技术能力”

在软件测试行业摸爬滚打这些年,我见过太多天赋异禀的技术从业者:有人能一夜吃透新的自动化测试框架,有人能对着流量日志半小时定位出隐藏半年的内存泄漏问题,有人能把性能测试指标优化到远超行业标准。可几年过去,真正…...

软件测试职业天花板真相:不是岗位不行,是你没找对方向

在软件行业高速发展的今天,打开任何一个技术论坛,总能刷到软件测试从业者的焦虑:“干了5年功能测试,薪资卡在15k再也上不去”“35岁还在写测试用例,是不是要被淘汰了”“AI都能自动生成测试脚本了,我们还有…...

别再盯着大厂了,这3类“隐形冠军”公司才是技术人的归宿

在软件测试行业求职的浪潮中,几乎所有从业者的第一求职目标都锚定了互联网大厂:从BAT到新一代的字节、拼多多,从美团滴滴到华为阿里,大厂开出的高薪、响亮的title和完善的福利体系,始终吸引着一波又一波测试人挤破了头…...

技术人的黄金十年:软件测试从业者25到35岁每一年该怎么规划?

对于每一位进入软件行业的技术人而言,25岁到35岁这十年几乎决定了整个职业生涯的上限,而软件测试作为产品质量的最后一道防线,这个岗位的能力积累、职业路径选择,更需要在这黄金十年里做好清晰的规划。不同于开发岗的技术迭代焦虑…...

利用 AI 导出鸭将 DeepSeek 内容一键转为 PDF

在日常使用 AI 助手进行技术调研或文档整理时,我们常常会遇到一个痛点:生成的优质内容往往停留在网页对话框中,难以直接转化为便于归档、打印或离线阅读的格式。尤其是像 DeepSeek 这样输出结构清晰、代码片段丰富的长文,如果只能…...