当前位置: 首页 > article >正文

Meta亿元天团首个大模型交卷!余家辉宋飏Jason Wei耗时九个月,一雪Llama前耻

一水 发自 凹非寺量子位 | 公众号 QbitAI再见了所有的羊驼。亚历山大王带队9个月从零重构Meta所有AI技术栈在不断的质疑中交出超级智能实验室第一个模型主打原生多模态的Muse Spark。模型发布后Meta股价火速拉升约7%中间一度涨超近10%当日整体上涨6%左右。市场的反应可谓相当热烈。随手一扒你就会发现这款模型背后藏着不少我们熟悉的高手思维链作者Jason Wei、o1核心贡献者Hyung Won Chung、被小扎天价挖来的余家辉、扩散模型核心人物宋飏……嗯当这群人凑在一起很明显你就会找到一个关键词推理。没错据Jason Wei爆料9个月前他们坐在一起讨论时首先写下的就是一款用于推理的llama模型脚本而现在完全体终于诞生。而顶尖高手耗时9个月打磨Muse Spark也总算让Meta在第三方测评中赶上第一梯队一雪llama 4带来的前耻。而且很有意思的一点是Meta这次一反常态没有反复强调自己拿了多少SOTA而是稍显克制地表示Muse Spark在多模态感知、推理、健康和自主任务方面表现不错但在编程和长时间自主运行方面仍与对家的顶尖模型存在差距。咳咳看来之前llama 4确实给Meta留下了心理阴影doge。另外Muse Spark的出生也终于让长期以来有关“Meta开闭源”的讨论盖棺定论这次是真闭源了。目前这款模型已上线Meta网站和APPAPI仅向部分合作伙伴开放。不过亚历山大王还是留了个口子表示“计划未来开源后续版本”“Meta回来了”老规矩先看一波测评成绩。作为Meta迄今最强大的模型Muse Spark这次主要在三个方面表现突出一是多模态理解能力。不管是看论文图表还是屏幕各项得分要么第一、要么和Gemini 3.1 Pro、GPT 5.4等不相上下。从网友们的测试来看它好像尤为擅长图片转代码。当然文本能力也不差doge在网友的激情测试中它就火速通过了新版弱智吧风格的洗车测试。100米外有个洗车店我该开车去还是走路去。Muse Spark洗车当然要把车开过去但没必要搞得跟上下班通勤似的。当然也不排除是数据污染的问题毕竟问题出来也挺久了…再一个就是工具调用能力测评情况也和多模态理解能力类似。以及这次Muse Spark着重强调的医学能力。由于和1000医生展开了合作它不仅在开放式健康问答HealthBench Hard上拿到42.8的最高分而且在多模态医学问答MedXpertQA MM中位居前列。不过短板我们开头也说了Muse Spark仍在编程和Agent类任务上与其他顶尖选手存在差距。可能也是为了尽量弥补这一点他们这次还专门推出了Contemplating沉思模式。主要是让多个Agent同时思考同一个问题然后汇总结果找出最好的。在这套打法下Muse Spark就能和Gemini Deep Think、 GPT Pro这类极限推理模式展开正面PK了。比如在“人类最后的考试”中Muse Spark明显压过一头不过在物理奥赛理论题中还是略逊一筹。目前沉思模式正在Meta网站灰度测试另外值得一提的是Meta这次无预告直接上线了“购物模式”。亚历山大王表示模型会结合用户在ins、Facebook、Threads上关注的创作者和品牌偏好做个性化的购物推荐。好好好这次也不给你讨论的机会了之前OpenAI可没少因为广告挨骂。目前随着Muse Spark测评一同出炉的还有第三方机构的测评。他们拿到Muse Spark的早期访问权测了一波然后给出了一个结论Meta回来了在关键指标人工智能分析指数上其得分仅次于Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6。这也和Muse Spark自己给出的测评成绩差不多。对外界而言初步来看Muse Spark确实把Meta重新带回了人工智能第一梯队。背后训练细节至于Muse Spark是如何做到这一点的Meta也公布了背后的训练细节。核心其实就是亚历山大王提到的9个月重构一切。新的基础设施、新的架构、新的数据管道。具体可以看网友给大家划的重点在预训练阶段能够以比Llama 4 少10倍以上的计算量达到相同的性能水平。强化学习训练展现出平滑且可预测的改进具有良好的泛化能力和可扩展性。Test-time阶段在加入长度惩罚机制后“思维压缩”开始生效模型学会了用更少的token解决问题。Meta在博客中介绍过去9个月他们对Muse Spark的预训练技术栈进行了全面升级。所有改进的目标都是为了让每一分算力都能产生更大的价值。为了验证效果他们做了一个对比实验先用一系列小模型拟合出一条“算力-能力”的Scaling曲线然后计算要达到某个性能水平具体需要多少算力。结果发现相比Llama 4Muse Spark达到同样水平所需要的计算量低了一个数量级以上10.3倍。预训练完成后他们进一步用强化学习来提升模型能力。虽然大规模RL训练通常很不稳定但他们声称自己的新架构做到了“稳中有进”。如下图所示随着RL训练步数增加模型在训练数据上的成功率无论是单次尝试还是16次中至少成功一次呈现对数线性增长。这说明RL在提升可靠性的同时没有破坏推理的多样性。而且在模型从未见过的任务上准确率同样在稳步提升——这说明RL带来的能力提升是可预测、可泛化的不是死记硬背。以及为了让模型在回答复杂问题之前先“想一想”团队仍用强化学习训练它具备这种“测试时推理”能力。不过需要注意实践证明Test-time阶段的推理尤为耗费token所以如何精打细算也是这一阶段的重点。对此他们用了两个关键手段来平衡效果与效率一是思考时间惩罚。鼓励模型用更短的推理路径得出正确答案倒逼它学会“思维压缩”。二是多智能体协作。让多个模型或模块协同工作在保证响应速度不降的前提下提升整体表现。然后在AIME这类高难度评测集上他们观察到了一个有趣的“三阶段变化”模型一开始会不自觉延长思考希望通过拉长推理过程来提高正确率。但这会马上触发“思考时间惩罚”于是模型被迫精简推理学会用更少的token解决问题。而在精简之后模型还表现出了扩展性能——在高效的基础上继续优化解法最终实现用更少的资源获得更强的性能表现。也不乏翻车的不过前面也说了Muse Spark虽然将Meta带回了第一梯队但在编程、Agent类任务上仍有不足。这不模型刚发布翻车集锦也来了……有人想用它生成网站结果3个请求一个都没实现而且连最基本的前端都无。不过后来贴主发现可能是偶然错误模型正常情况下做出来的前端是这样的。一个简单的编程任务Muse Spark虽生成了一大堆东西但根本跑不通。在一个Python文件里实现自动微分autograd和神经网络。网友甚至调侃模型根本没在学训练了1800个epoch损失函数却一直卡在同一个值上没动过。白白浪费算力了……正常情况下随着训练进行损失应该逐步下降表明模型在“学习”所以问题来了有试过的朋友觉得亚历山大王的首个模型如何https://ai.meta.com/blog/introducing-muse-spark-msl/参考链接[1]https://x.com/_jasonwei/status/2041930482179567966?s20[2]https://x.com/jhyuxm/status/2041913529033486468?s20[3]https://x.com/DrYangSong/status/2041911869934596214?s20一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完— 谁会代表2026年的AI龙虾爆火带动一波Agent与衍生产品浪潮。但真正值得长期关注的AI公司和产品或许不止于此。如果你正在做或见证着这些变化欢迎申报。让更多人看见你。 https://wj.qq.com/s2/25829730/09xz/一键关注 点亮星标

相关文章:

Meta亿元天团首个大模型交卷!余家辉宋飏Jason Wei耗时九个月,一雪Llama前耻

一水 发自 凹非寺量子位 | 公众号 QbitAI再见了,所有的羊驼。亚历山大王带队9个月从零重构Meta所有AI技术栈,在不断的质疑中交出超级智能实验室第一个模型:主打原生多模态的Muse Spark。模型发布后,Meta股价火速拉升约7%&#xff…...

Hermes Agent vs OpenClaw:我花了一周对比,说说真实感受

先说结论Hermes Agent 的核心卖点是"会自己变聪明"——完成任务后会自动提炼技能、积累记忆,用得越久越好用。OpenClaw 的核心卖点是"生态大"——50 平台接入、13000 社区技能,开箱即用。两个都是 MIT 开源。选哪个,取决…...

南航学位论文LaTeX模板:3分钟快速上手专业排版

南航学位论文LaTeX模板:3分钟快速上手专业排版 【免费下载链接】nuaathesis LaTeX document class for NUAA, supporting bachelor/master/PH.D thesis in Chinese/English/Japanese. 南航本科、硕士、博士学位论文 LaTeX 模板 项目地址: https://gitcode.com/gh_…...

NVIDIA显卡风扇控制终极指南:从零转速到高效散热完全掌握

NVIDIA显卡风扇控制终极指南:从零转速到高效散热完全掌握 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending…...

3 分钟搞定答辩 PPT!PaperXie AI:本科生的学术汇报「开挂」神器

paperxie-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/AIPPThttps://www.paperxie.cn/ppt/createhttps://www.paperxie.cn/ppt/create 一、 答辩 PPT 的「血泪史」:你是不是也卡在这一步? 毕业论文写到定稿,以为能松口气&…...

Qwen3-Reranker-0.6B应用场景:AI芯片技术文档语义检索与优先级排序

Qwen3-Reranker-0.6B应用场景:AI芯片技术文档语义检索与优先级排序 1. 引言:AI芯片文档检索的痛点与解决方案 在AI芯片技术领域,工程师和研究人员每天需要查阅大量的技术文档、设计规范、测试报告和研究成果。传统的文档检索方式往往面临这…...

2024最新版:Python3环境下sqlmap安装避坑指南(附快捷启动配置)

2024最新版:Python3环境下sqlmap安装避坑指南(附快捷启动配置) 如果你还在为sqlmap与Python3的兼容性问题头疼,这篇文章就是为你准备的。作为安全测试领域的瑞士军刀,sqlmap在2024年已经全面拥抱Python3生态&#xff0…...

5个智能功能让原神游戏体验效率倍增:BetterGI自动化助手深度解析

5个智能功能让原神游戏体验效率倍增:BetterGI自动化助手深度解析 【免费下载链接】better-genshin-impact 📦BetterGI 更好的原神 - 自动拾取 | 自动剧情 | 全自动钓鱼(AI) | 全自动七圣召唤 | 自动伐木 | 自动刷本 | 自动采集/挖矿/锄地 | 一条龙 | 全…...

做自媒体一年,我靠这3个方法解决了“选题荒”

刚开始做自媒体的时候,我最怕的不是写稿,而是“今天写什么”。每天早上打开文档,脑子里一片空白。上周写了什么?前天写了什么?今天该写什么?完全没方向。有时候坐一个小时,标题都没憋出来。后来…...

线性回归——工龄与平均工资关系分析

项目实训:工龄与平均工资关系分析 项目实训 1. 实训目的 (1)理解数据分析的过程。 (2)掌握机器学习常用库(NumPy、Pandas、Matplotlib)的使用方法。 (3)掌握使用Sklearn训…...

STM32 HAL库下Modbus通讯卡死?别急着清标志位,先查查这个隐藏的AD采样循环

STM32 HAL库下Modbus通讯卡死?别急着清标志位,先查查这个隐藏的AD采样循环 当你的Modbus通讯突然卡死,而所有常规排查手段都指向"标志位未清除"时,先别急着在串口中断里打转。我最近在工业传感器项目中踩过一个坑&#…...

STM32串口玩转SYN6288语音合成:从CubeMX配置到中文播报避坑指南

STM32与SYN6288语音合成实战:从硬件对接到中文播报全流程解析 在智能家居和物联网设备快速发展的今天,语音交互已成为提升用户体验的重要方式。对于嵌入式开发者而言,如何在资源有限的微控制器上实现高质量的语音输出是一个常见需求。SYN6288…...

AD域环境管理实操手册

第一章 域用户账户管理 1.1 域用户账户基础 域用户账户是AD域环境中身份验证的核心载体,主要有两个核心作用: 验证用户的身份合法性 授权或拒绝用户对域资源的访问 注意:域用户在客户机登录后,默认仅属于本地Users组,无管理员权限,如需提升权限可将域用户加入本地Power…...

发那科机器人速度倍率再启动设置详解(附PLC联动避坑指南)

发那科机器人速度倍率再启动设置详解(附PLC联动避坑指南) 在工业自动化产线中,发那科机器人凭借其高精度和稳定性成为众多制造企业的首选。然而,在实际操作过程中,工程师们常常会遇到一个令人头疼的问题——机器人在暂…...

低代码平台的API集成能力:决定你的数字化能否真正打通数据

数字化转型的核心诉求,从来不是搭建多少个孤立的业务应用,而是实现数据的自由流转与价值挖掘。当企业投入大量资源上线ERP、OA、CRM、MES等系统后,却常常陷入“数据孤岛”的困境——销售数据无法同步至财务核算,人事审批流程与业务…...

密码学知识点梳理

密码学知识点梳理 目录 第一章 概论 第二章 古典密码 第三章 分组密码 第四章 流密码 第五章 杂凑函数 第六章 公钥密码 第一章 概论 密码学发展历史: 经历了五个发展阶段。 (1)从远古到二战之前为第一阶段,以手工和简单器械…...

Mathematica三维绘图实战:从基础函数到复杂曲面

1. Mathematica三维绘图初体验 第一次打开Mathematica时,你可能被它简洁的界面迷惑了——这个看似普通的软件,其实藏着惊人的三维绘图能力。记得我刚开始用Mathematica画三维图时,连最基本的Plot3D函数都用不利索,但现在回头看&am…...

等保测评知多少?等保测评规定几年做一次

等保测评知多少?等保测评规定几年做一次 随着网络信息技术的快速发展,为了进一步规范对网站的管理,国家要求商家及企业进行等保测评。那等保测评是什么意思?下面,就跟龙翊信安一起来看看吧。 一、等保测评是什么含义 等…...

网络安全:4个热门有用的开源网络入侵检测系统

网络安全:4个热门有用的开源网络入侵检测系统 入侵检测系统可以分为两种类型:网络入侵检测系统(Network IDS,NIDS)和主机入侵检测系统(Host IDS,HIDS)。NIDS监测网络流量&#xff0…...

深度解析Beyond Compare 5密钥生成器:3种高效激活方案揭秘

深度解析Beyond Compare 5密钥生成器:3种高效激活方案揭秘 【免费下载链接】BCompare_Keygen Keygen for BCompare 5 项目地址: https://gitcode.com/gh_mirrors/bc/BCompare_Keygen 在软件开发和文件管理领域,Beyond Compare 5作为业界领先的文件…...

G-Helper深度解析:华硕笔记本性能控制的革命性开源方案

G-Helper深度解析:华硕笔记本性能控制的革命性开源方案 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Strix, S…...

5分钟打造专属AI声优:RVC语音变声完整指南

5分钟打造专属AI声优&#xff1a;RVC语音变声完整指南 【免费下载链接】Retrieval-based-Voice-Conversion-WebUI Easily train a good VC model with voice data < 10 mins! 项目地址: https://gitcode.com/GitHub_Trending/re/Retrieval-based-Voice-Conversion-WebUI …...

智能散热新境界:如何用FanControl精准掌控电脑风扇与温度优化

智能散热新境界&#xff1a;如何用FanControl精准掌控电脑风扇与温度优化 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Tren…...

Go 调度器实现原理简析

Go 调度器实现原理简析 Go语言凭借其高效的并发模型成为现代编程语言中的佼佼者&#xff0c;而调度器&#xff08;Scheduler&#xff09;作为其并发能力的核心组件&#xff0c;负责管理成千上万的Goroutine在有限线程上的高效执行。本文将深入浅出地解析Go调度器的实现原理&am…...

Kandinsky-5.0-I2V-Lite-5s开源大模型应用:新闻配图→事件动态还原短视频

Kandinsky-5.0-I2V-Lite-5s开源大模型应用&#xff1a;新闻配图→事件动态还原短视频 1. 从静态到动态的新闻革命 想象一下这样的场景&#xff1a;当你看到一则突发新闻的配图时&#xff0c;不仅能了解事件的基本情况&#xff0c;还能通过短短5秒的视频动态还原关键瞬间。这正…...

TranslucentTB的Microsoft.VCLibs.140.00缺失错误:技术诊断与多维度解决方案

TranslucentTB的Microsoft.VCLibs.140.00缺失错误&#xff1a;技术诊断与多维度解决方案 【免费下载链接】TranslucentTB A lightweight utility that makes the Windows taskbar translucent/transparent. 项目地址: https://gitcode.com/gh_mirrors/tr/TranslucentTB …...

Air8101工业引擎:显示、通信与控制的一体化

工业场景中&#xff0c;传统按键屏已逐步被高灵敏度、支持多点触控的电容屏替代&#xff0c;但电容屏开发存在 RGB 接口匹配、触摸 IC 调试等难点&#xff0c;需额外投入工程成本。Air8101 工业引擎可直接适配各类工业电容屏&#xff0c;集成接口匹配、触控调试等功能&#xff…...

Anything V5图像生成服务实测:512x512分辨率下的惊艳效果展示

Anything V5图像生成服务实测&#xff1a;512x512分辨率下的惊艳效果展示 1. 开篇&#xff1a;认识Anything V5 Anything V5是基于Stable Diffusion技术构建的专用图像生成模型&#xff0c;专注于提供高质量的动漫风格图像生成能力。作为"万象熔炉"系列的最新版本&…...

瑜伽博主必备!雯雯的后宫-造相Z-Image-瑜伽女孩生成小红书封面图教程

瑜伽博主必备&#xff01;雯雯的后宫-造相Z-Image-瑜伽女孩生成小红书封面图教程 1. 为什么选择这个瑜伽女孩生成工具&#xff1f; 作为一名瑜伽博主或内容创作者&#xff0c;你是否经常遇到这些困扰&#xff1a; 找不到符合瑜伽主题的高质量配图商用图库价格昂贵且风格单一…...

PvZ Toolkit:解锁植物大战僵尸终极游戏体验的必备神器

PvZ Toolkit&#xff1a;解锁植物大战僵尸终极游戏体验的必备神器 【免费下载链接】pvztoolkit 植物大战僵尸 PC 版综合修改器 项目地址: https://gitcode.com/gh_mirrors/pv/pvztoolkit 还在为植物大战僵尸中阳光不足而烦恼吗&#xff1f;PvZ Toolkit这款开源修改工具将…...