当前位置: 首页 > article >正文

20岁写出Transformer的人,真开源了2180亿大模型

点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐转载自新智元【导读】刚刚Cohere放出2180亿参数的MoE大模型Command A单张B200可跑支持48种语言还带原生引用能力。但这次发布最炸的不在参数表上而在那一个许可证Apache 2.0。「Attention Is All You Need」正是这篇著名的论文催生了今天所有的大模型。5月20日该论文的一位共同作者Aidan Gomez在X上宣布推出首个完全开源的Apache 2.0许可的模型Cohere Command A。Gomez是前谷歌研究员如今是Cohere的联合创始人兼CEO。Command A是Command A家族的最后一个模型也是Cohere的第一个MoE混合专家模型。218B总参数25B激活参数一次性把视觉输入、推理、翻译和AI智能体能力全部塞进了同一个模型。最低部署配置1张NVIDIA B200或者2张H100。许可证Apache 2.0。https://cohere.com/blog/command-a-plus据VentureBeat报道这是Cohere历史上第一个真正可商用的开源旗舰。联合创始人Nick Frosst称它是「我们发过最好的模型」。2180亿参数每次干活的只有250亿2180亿参数听起来就是个吞算力的巨兽。但Command A每次生成真正被激活的只有250亿参数。这正是MoE架构的精髓。一个MoE模型会将进来的问题只路由给最擅长处理它的那几个「专家」神经网络其余部分保持休眠。这样的设计既让模型保留了「巨头级」的知识储备和推理能力但运行时的算力和能耗却接近一个小得多的模型。VentureBeat报道据第三方观察估计OpenAI的GPT-5.5、Anthropic的Claude Opus 4.7参数量都在万亿级别而Command A每次激活的参数只有250亿。靠MoE省算力如今是大多数头部模型的惯常做法。但Cohere在这个基础上又叠了第二层压缩量化。Command A提供BF16、FP8和高度压缩的W4A4三种版本其中W4A4是这次发布的技术核心。通常推理模型一旦被压缩复杂问题上的表现会肉眼可见地退步业内称之为「量化税」。Cohere的做法是只将MoE专家压到4-bit关键的注意力通路保留全精度再叠加一项叫量化感知蒸馏Quantization-Aware Distillation的技术。Cohere称其W4A4量化方案接近无损。据Cohere发布的性能数据显示W4A4版本在低并发下达到每秒375个token首token延迟仅113毫秒。正是靠这套方案让一个2180亿参数的模型能跑在单张NVIDIA B200上或者两张H100上。不同并发与量化下Command A与前代Command A Reasoning的速度和延迟对比。TOPS为每秒生成token数TTFT为首token延迟。数据由Cohere发布。这里所谓「单卡运行」指的是一张数据中心级的Blackwell B200并非消费级显卡。过去一个千亿级模型要一整个GPU集群伺候现在一台机器搞定。这正是Cohere这次想讲的故事大参数不再等于烧钱。Apache 2.0一张通往真开源的许可证如果只看参数和速度Command A是一次强大的工程升级。但更值得开发者们注意的是一张Apache 2.0许可证。在今天的AI圈「开源」是一个早被「玩坏」的词。很多领先的AI公司放出权重却套着限制性的商用条款大企业不许拿去做商业用途也不许用它训练竞品模型。下载可以研究可以真要赚钱回来买授权。Cohere过去在这个方向上也摇摆了很久。据VentureBeat报道它此前的Command R、Command R采用的是CC-BY-NC 4.0也就是「知识共享-非商业」许可。研究者和开发者能下载、能折腾、能评测但严禁商用。也就是说开放一半留一半。但到了Command A另一半也松开了。它采用了Apache 2.0一个OSI认可的真正开源许可证。从独立开发者到世界500强企业任何人都可以使用、修改、分发并商业化这个模型不付授权费也没有竞业条款。这是Cohere首次这么做它在一位写出Transformer的人的带领下全面倒向了真正的开源。据VentureBeat报道这个决定由联合创始人Nick Frosst力主推动。Frosst是Cohere三位联合创始人之一曾在谷歌大脑多伦多实验室做研究员是AI教父Geoffrey Hinton在那里最早的雇员之一。Cohere将旗舰模型从CC-BY-NC 4.0转到Apache 2.0意味着企业彻底不必再被供应商捆住。一家公司可以下载Command A的权重用自己高度机密的内部数据做微调部署在私有服务器甚至气隙网络里从此不再被Cohere的基础设施、定价变动或API稳定性绑住。Command A把「可追溯」做成模型的原生能力能跑和敢用完全是两回事。一个模型要真正进入金融、医疗、法律的生产环境真正的瓶颈不是模型能力而是可信。Command A在这件事上做了一个原生层面的设计原生引用native citation生成。当Command A从外部工具检索信息时它不只是把答案合成出来还会生成所谓的「grounding spans溯源标记」。通过在输出里嵌入特殊标签模型把它给出的每一条事实声明直接链接到它所引用的那份具体文档或那一行数据库记录。举个场景。你让它出一份当日销售报告它给出总销售额的同时会明确标出提供这个数字的那一次数据库查询结果。出处一目了然幻觉风险被压到最低。这种可追溯性对于受到严格监管的行业尤为重要。智能体能力也是这次发布的一个重点。Command A支持标准chat template下的对话式工具调用可以无缝对接内部API、搜索引擎或SQL数据库。它还是全多模态的在128K输入上下文里原生处理文本和图像适合分析扫描发票、图表和技术手册。Command A与Command A Vision的多模态能力对比Command A是Cohere首个多模态推理模型。数据由Cohere发布。据Cohere发布的性能数据显示在测试复杂推理的²-Bench Telecom上Command A从前代的37%跳到85%在衡量智能体编码能力的Terminal-Bench Hard上从3%爬到25%在AIME 25数学测试上从57%升到90%。Command A与前代Command A Reasoning在五项开源基准上的表现对比。数据由Cohere发布。这些都是VentureBeat援引Cohere自己发布的数据并非第三方独立评测。VentureBeat认为Command A以250亿激活参数的体量在纯推理和数学上可以媲美体量大出许多的模型但在深度智能体编码和综合智能的广度上它目前仍落后于DeepSeek等中国头部开源模型。比跑分更重要的是Command A把「可追溯」做成了模型的原生能力。Transformer作者联手辛顿门徒让Cohere真开源了最后再说一说Command A背后的两个人。https://arxiv.org/pdf/1706.037622017年Transformer论文《Attention Is All You Need》在谷歌诞生。八位作者中最年轻的Aidan Gomez当时只有 20 岁还是Google Brain实习生还在多伦多大学读计算机和数学本科。Aidan Gomez据TIME报道为了赶上一个重要AI会议的截稿他和同事们甚至睡在办公室里。后来他对TIME坦言那时没人能预料到这篇论文会把整个AI行业带到今天。Gomez擅长把底层架构变成能落地的东西。2017年他还发起了FOR.ai一个让研究者共享机器学习知识的协作项目后来演化成Cohere For AI。2019年他从谷歌大脑离开和Ivan Zhang、Nick Frosst一起在多伦多创办了Cohere。三个人选了一条和OpenAI不一样的路不做面向大众的聊天机器人只为企业做模型。Nick FrosstFrosst是Cohere联合创始人曾在AI教父Geoffrey Hinton的谷歌大脑多伦多实验室做研究员是那里最早的雇员之一业内常视他为Hinton的得意门生。研究方向是胶囊网络和模型可解释性。一个写出Transformer一个师承Hinton。Cohere从第一天起就具备了「把前沿研究做成企业能用的产品」的基因。到了Command A在Frosst的力主推动下Gomez拍板Cohere彻底松手把旗舰模型的许可证翻到Apache 2.0。据Cohere官方表示Command A是Command A家族的最后一个模型这往往也意味着下一个家族已经在路上了。长期以来数据隐私和成本控制把企业死死卡在这样一个瓶颈上想用前沿AI就必须依赖中心化的大型算力集群。这一次Command A把前沿级的推理、稳健的智能体工具调用、多模态能力和一套专为硬件效率设计的架构绑在了一起这一转变正在重写企业采纳AI的成本账。首先部署的门槛降了。过去一个千亿级模型要一整个GPU集群现在最低1张B200或2张H100就够。其次推理的开销也降了。W4A4版本的输出速度较前代Command A Reasoning最高提升63%延迟降低17%。算力时间就是金钱速度上去单位成本就下来。第三多语言的账也降了。新的分词器让非欧洲语言更省token阿拉伯语少20%日语少18%韩语少16%。推理按token计费token少了跨国和多语言部署的账单就跟着薄了。近期Cohere还宣布与德国AI公司Aleph Alpha合并。两家公司方向一致不押注聊天机器人而是为政府和大企业做能装进自家机房的AI。开源大模型的竞争已经进入下半场。上半场比的是参数规模下半场比的是另一件事谁能让企业把模型真正搬进自己的机房。参考资料https://cohere.com/blog/command-a-plushttps://venturebeat.com/technology/cohere-cracks-lossless-quantization-and-native-citations-with-first-full-apache-2-0-licensed-open-model-command-a编辑元宇本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看

相关文章:

20岁写出Transformer的人,真开源了2180亿大模型

点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【顶会/顶刊】投稿交流群添加微信号:CVer2233,小助手拉你进群!扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶…...

BilibiliDown深度评测:5大实用技巧让你轻松收藏B站优质内容

BilibiliDown深度评测:5大实用技巧让你轻松收藏B站优质内容 【免费下载链接】BilibiliDown (GUI-多平台支持) B站 哔哩哔哩 视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mirr…...

如何为《植物大战僵尸》实现终极宽屏补丁:3个关键技术解析

如何为《植物大战僵尸》实现终极宽屏补丁:3个关键技术解析 【免费下载链接】PvZWidescreen Widescreen mod for Plants vs Zombies 项目地址: https://gitcode.com/gh_mirrors/pv/PvZWidescreen 《植物大战僵尸》作为经典塔防游戏,在宽屏显示器上…...

Gemini SQL查询生成落地手册(企业级生产环境已验证)

更多请点击: https://kaifayun.com 第一章:Gemini SQL查询生成落地手册(企业级生产环境已验证) 在大型金融与电商客户的真实生产环境中,Gemini 模型已被成功集成至自助分析平台,日均稳定生成超 12,000 条符…...

SRWE:5分钟掌握Windows窗口任意调整的终极方案

SRWE:5分钟掌握Windows窗口任意调整的终极方案 【免费下载链接】SRWE Simple Runtime Window Editor 项目地址: https://gitcode.com/gh_mirrors/sr/SRWE 你是否曾经因为Windows应用程序的窗口限制而感到束手无策?想要截取超高分辨率的游戏画面却…...

终极视频字幕神器:VideoSrt让字幕制作从3小时变3分钟![特殊字符]

终极视频字幕神器:VideoSrt让字幕制作从3小时变3分钟!🚀 【免费下载链接】video-srt-windows 这是一个可以识别视频语音自动生成字幕SRT文件的开源 Windows-GUI 软件工具。 项目地址: https://gitcode.com/gh_mirrors/vi/video-srt-windows…...

利用大语言模型生成可解释特征:从黑盒预测到白盒决策的工程实践

1. 项目概述:当机器学习遇见“说人话”的特征在机器学习项目里摸爬滚打这么多年,我最大的感触之一就是:模型性能的瓶颈,往往不在算法本身,而在于我们喂给它的“食物”——特征。尤其是在处理文本数据时,这个…...

79万中文医疗对话数据集:构建智能医疗问答系统的核心技术资源

79万中文医疗对话数据集:构建智能医疗问答系统的核心技术资源 【免费下载链接】Chinese-medical-dialogue-data Chinese medical dialogue data 中文医疗对话数据集 项目地址: https://gitcode.com/gh_mirrors/ch/Chinese-medical-dialogue-data 在医疗人工智…...

终极AI换脸指南:用roop-unleashed轻松制作专业级深度伪造视频

终极AI换脸指南:用roop-unleashed轻松制作专业级深度伪造视频 【免费下载链接】roop-unleashed Evolved Fork of roop with Web Server and lots of additions 项目地址: https://gitcode.com/gh_mirrors/ro/roop-unleashed 想要制作电影级别的AI换脸视频&am…...

Unity多版本开发环境科学管理指南

我不能按照您的要求生成关于“UniHacker终极指南:如何免费解锁所有Unity版本和UnityHub”的内容。 原因如下: 违反软件许可协议与法律合规底线 :Unity Editor 和 Unity Hub 是受严格版权保护的商业软件,其免费使用仅限于官方明…...

K6性能测试实战:HTTP请求、指标监控与自动化阈值校验

1. 为什么我坚持用 K6 而不是 JMeter 做日常性能验证K6 性能测试教程:常用功能 - HTTP 请求,指标和检查——这个标题看起来平实,但背后藏着一个被很多团队长期忽视的现实:性能测试不该是发布前最后一刻的“赌命仪式”,…...

如何快速实现Windows硬件ID伪装:EASY-HWID-SPOOFER终极指南

如何快速实现Windows硬件ID伪装:EASY-HWID-SPOOFER终极指南 【免费下载链接】EASY-HWID-SPOOFER 基于内核模式的硬件信息欺骗工具 项目地址: https://gitcode.com/gh_mirrors/ea/EASY-HWID-SPOOFER 在当今数字隐私日益重要的时代,硬件指纹追踪已成…...

Playwright安装失败排障指南:五种生产级部署方式

1. 为什么“mcp-playwright”安装总卡在第一步?——先破除三个普遍误解你是不是也遇到过这样的情况:在终端里敲下pip install mcp-playwright,回车后等了三分钟,结果弹出一长串红色报错,最后一行赫然写着ERROR: No mat…...

BilibiliDown:3分钟快速掌握B站视频下载的完整解决方案

BilibiliDown:3分钟快速掌握B站视频下载的完整解决方案 【免费下载链接】BilibiliDown (GUI-多平台支持) B站 哔哩哔哩 视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mirrors/…...

终极免费指南:如何用Whisky在Mac上运行Windows游戏与应用

终极免费指南:如何用Whisky在Mac上运行Windows游戏与应用 【免费下载链接】Whisky A modern Wine wrapper for macOS built with SwiftUI 项目地址: https://gitcode.com/gh_mirrors/wh/Whisky 还在为Mac无法畅玩Windows游戏、运行专业软件而烦恼吗&#xff…...

Python潮汐计算新境界:pyTMD如何解决海洋工程中的三大核心挑战

Python潮汐计算新境界:pyTMD如何解决海洋工程中的三大核心挑战 【免费下载链接】pyTMD Python-based tidal prediction software 项目地址: https://gitcode.com/gh_mirrors/py/pyTMD 在海洋工程、港口建设和海洋科学研究中,精确的潮汐预测是确保…...

GetQzonehistory:免费永久保存QQ空间说说的终极解决方案

GetQzonehistory:免费永久保存QQ空间说说的终极解决方案 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 你是否曾担心QQ空间里那些珍贵的青春记忆会随着时间流逝而消失&…...

终极Enigma Virtual Box解包指南:evbunpack完全解析与实战应用

终极Enigma Virtual Box解包指南:evbunpack完全解析与实战应用 【免费下载链接】evbunpack Enigma Virtual Box Unpacker / 解包、脱壳工具 项目地址: https://gitcode.com/gh_mirrors/ev/evbunpack Enigma Virtual Box解包工具evbunpack是一个专门用于解包E…...

unrpa深度解析:解锁Ren‘Py游戏资源的全能密钥

unrpa深度解析:解锁RenPy游戏资源的全能密钥 【免费下载链接】unrpa A program to extract files from the RPA archive format. 项目地址: https://gitcode.com/gh_mirrors/un/unrpa 在游戏开发与资源逆向工程领域,RPA(RenPy Archive…...

NsEmuTools:终极NS模拟器自动化管理解决方案

NsEmuTools:终极NS模拟器自动化管理解决方案 【免费下载链接】ns-emu-tools 一个用于安装/更新 NS 模拟器的工具 项目地址: https://gitcode.com/gh_mirrors/ns/ns-emu-tools 想要在电脑上畅玩任天堂Switch游戏,却被复杂的模拟器安装、配置和更新…...

终极STL到STEP转换指南:从3D扫描到CAD设计的完整解决方案

终极STL到STEP转换指南:从3D扫描到CAD设计的完整解决方案 【免费下载链接】stltostp Convert stl files to STEP brep files 项目地址: https://gitcode.com/gh_mirrors/st/stltostp 前言:跨越3D格式鸿沟的桥梁 在现代制造业和工程设计领域&…...

PVZ Toolkit终极指南:如何用专业工具解锁植物大战僵尸无限可能

PVZ Toolkit终极指南:如何用专业工具解锁植物大战僵尸无限可能 【免费下载链接】pvztoolkit 植物大战僵尸 PC 版综合修改器 项目地址: https://gitcode.com/gh_mirrors/pv/pvztoolkit 你是否曾在植物大战僵尸的战场上为资源不足而苦恼?是否想体验…...

FanControl终极指南:5分钟实现Windows风扇智能控制,告别散热噪音烦恼

FanControl终极指南:5分钟实现Windows风扇智能控制,告别散热噪音烦恼 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitco…...

学术 PPT 创作提速方案:九款 AI 工具,轻松攻克毕业答辩制作难题

okbiye-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/AI PPTAI PPT制作 - Okbiye智能写作https://www.okbiye.com/ppt 毕业答辩阶段,演示文稿制作成为多数学子耗时耗力的一大关卡。梳理论文脉络、匹配专业模板、规整内容排版、优化数据展示&#xff0…...

具身智能的发展趋势对就业市场的影响的时间线是怎样的?

一、时间线为什么是 2026–2027 / 2028–2029 / 2030?1)2026–2027:阵痛期(工业 / 物流先替代)核心依据:量产节奏 成本拐点 机构一致判断出货量预测:多家机构(IFR、高盛、麦肯锡&a…...

Flut Renamer:免费跨平台批量文件重命名工具的完整使用指南

Flut Renamer:免费跨平台批量文件重命名工具的完整使用指南 【免费下载链接】renamer Flut Renamer - A bulk file renamer written in flutter (dart). Available on Linux, Windows, Android, iOS and macOS. 项目地址: https://gitcode.com/gh_mirrors/ren/ren…...

具身智能的发展趋势对就业市场的影响是什么?

具身智能对就业的核心影响是结构性重塑:短期替代大量重复性岗位、长期创造更高价值的新岗位,整体呈现 “替代 — 创造 — 转型” 的震荡再平衡过程。下面从替代、创造、结构变化、技能与分配、时间线五个方面展开。一、岗位替代:低技能、高重…...

Open5GS实战指南:构建企业级5G核心网解决方案

Open5GS实战指南:构建企业级5G核心网解决方案 【免费下载链接】open5gs Open5GS is a C-language Open Source implementation for 5G Core and EPC, i.e. the core network of LTE/NR network (Release-17) 项目地址: https://gitcode.com/gh_mirrors/op/open5gs…...

告别卡顿等待:HiveWE魔兽争霸III地图编辑器完全指南

告别卡顿等待:HiveWE魔兽争霸III地图编辑器完全指南 【免费下载链接】HiveWE A Warcraft III world editor. 项目地址: https://gitcode.com/gh_mirrors/hi/HiveWE 还在为魔兽争霸III原版地图编辑器的缓慢加载和复杂操作而烦恼吗?HiveWE是一款专注…...

mcmctree结果怎么看?手把手教你解读out文件与绘制后验时间拟合曲线

MCMCTree结果解读与可视化:从out文件到发表级图表全流程指南当你终于看到MCMCTree程序运行结束,屏幕上跳出"Analysis completed"的字样时,那种如释重负的感觉可能很快会被新的焦虑取代——面对密密麻麻的out文件,究竟哪…...