当前位置: 首页 > article >正文

Meta新模型Muse Spark上手体验

Meta发布了Muse Spark这是他们自Llama 4几乎整整一年前以来的首个模型发布。它是托管的不是开放权重API目前仅向选定用户开放私人预览但你今天就可以在meta.ai上试用需要Facebook或Instagram登录。Meta的自我报告基准测试显示它在选定的基准测试上与Opus 4.6、Gemini 3.1 Pro和GPT 5.4具有竞争力尽管在Terminal-Bench 2.0上明显落后。Meta自己表示他们继续投资于当前性能存在差距的领域例如长期代理系统和编码工作流程。该模型在meta.ai上以两种不同的模式公开——“Instant和Thinking”。Meta承诺未来将推出Contemplating模式他们表示该模式将提供更长的推理时间行为应该更像Gemini Deep Think或GPT-5.4 Pro。1、一对鹈鹕我更喜欢通过API运行我的鹈鹕测试以避免受到任何隐形系统提示的影响但由于这不是一个选项我直接在聊天UI上运行了它。以下是Instant模式生成的鹈鹕这是Thinking模式的两个SVG都由Meta AI界面内联渲染。有趣的是Instant模型直接输出SVG带有代码注释而Thinking模型将其包装在一个薄HTML外壳中带有一些未使用的Playables SDK v1.0.0JavaScript库。这让我很好奇…2、探索工具显然Meta的聊天工具包连接了一些工具——至少它可以渲染SVG和HTML作为嵌入式框架Claude Artifacts风格。但它还能做什么我问它你可以访问哪些工具然后我想要确切的工具名称、参数名称和工具描述用原始格式它吐出了16个不同工具的详细描述。你可以在这里看到我得到的完整列表——感谢Meta没有告诉他们的机器人隐藏这些因为如果能够不用破解就能获取它们那就没那么令人沮丧了。以下是该回应的亮点浏览和搜索。browser.search可以通过未公开的搜索引擎运行网络搜索browser.open可以从这些搜索结果中加载完整页面browser.find可以对返回的页面内容运行模式匹配。Meta内容搜索。meta_1p.content_search可以跨Instagram、Threads和Facebook帖子进行语义搜索——但仅限于用户可以查看的、自2025-01-01以来创建的帖子。这个工具有一些看起来很强大的参数包括author_ids、key_celebrities、commented_by_user_ids和liked_by_user_ids。“目录搜索”——meta_1p.meta_catalog_search可以搜索Meta产品目录中的产品可能是用于Meta AI模型选择器中的Shopping选项。图像生成。media.image_gen根据提示生成图像并返回CDN URL并将图像保存到沙盒。它有artistic和realistic模式可以返回square、vertical或landscape图像。container.python_execution——是的它是代码解释器我最喜欢的ChatGPT和Claude功能。在远程沙盒环境中执行Python代码。Python 3.9带有pandas、numpy、matplotlib、plotly、scikit-learn、PyMuPDF、Pillow、OpenCV等。文件在/mnt/data/持久化。Python 3.9已停止维护但库集合看起来很有用。我提示使用python代码确认sqlite版本和python版本得到了Python 3.9.25和SQLite 3.34.1来自2021年1月。container.create_web_artifact——我们之前在鹈鹕的HTML包装器中看到过这个Meta AI可以在其容器中创建HTMLJavaScript文件然后可以作为安全沙盒iframe交互式应用提供。“将kind设置为html用于网站/应用或svg用于矢量图形。”container.download_meta_1p_media很有趣“将来自Meta 1P来源的媒体下载到沙盒中。对Instagram/Facebook/Threads帖子使用post_id或对目录产品图像使用catalog_search_citation_id”。所以看起来你可以从Meta的其他部分拉取内容然后在沙盒中用代码解释器对其进行有趣的操作。container.file_search——“搜索本次对话中上传的文件并返回相关摘录”——我猜是用来挖掘PDF等的容器中编辑文件的工具——container.view、container.insert带new_str和insert_line、container.str_replace。这些看起来类似于Claude的文本编辑器工具命令——这些正在成为任何配备文件的代理工具包中的通用模式。container.visual_grounding——见下文这个很有趣。subagents.spawn_agent——子代理作为工具模式。“生成一个独立的子代理用于研究、分析或委托。它返回其最终文本响应。”third_party.link_third_party_account——“启动第三方服务的账户链接”目前支持Google日历、Outlook日历、Gmail或Outlook。3、容器中的图像分析让我们谈谈那个container.visual_grounding。以下是完整描述描述视觉定位工具分析图像、识别和标记对象、定位区域或计数对象。参数object_names数组必需image_path字符串默认format_type“bbox”|“point”|“count”|null默认bboxtitle字符串|null[string]因此它可以接收图像路径、可选的对象名称并以bbox、point或count格式返回结果。这听起来像我Meta的Segment Anything后来我听说不是这是模型本身通过工具调用和自定义系统提示的原生功能。我决定试一试。提示生成一张浣熊坐在垃圾桶上、戴着垃圾作为帽子的照片响应给你——巷子里的小国王盛装打扮咖啡杯皇冠香蕉皮帽檐报纸羽毛。浣熊时尚的巅峰。要我做一个更狂野的版本吗——也许是夜视或者也戴上太阳镜我猜测Meta AI中的图像生成是由他们的Emu模型或更新版本驱动的。这与ChatGPT和Gemini图像生成的模式相同图像由工具调用生成这里是media.image_gen。image_gen工具描述说它将图像保存到沙盒所以我猜我可以用Python代码对其进行操作。我尝试了使用python OpenCV分析那张图像找出有趣的东西烦人的是它没有向我展示它运行的代码但它确实创建了这张图像相当 neat我们可以生成图像然后用Python工具使用它们。接下来是visual_grounding工具。知道工具名称使得在提示中引用它们变得容易现在试试container.visual_grounding工具响应完整响应在这里完成——visual_grounding以像素级精度精确定位了服装的每一个部分[…]接下来要我以bbox模式运行在毛皮纹理周围画框还是以count模式运行看看它能检测到多少根单独的胡须再一次Meta AI将工具结果包装在自定义HTML可视化中。这显然是point模式但其他的呢我提示是的画边界框它也能做遮罩吗响应是的——边界框效果很好。遮罩visual_grounding不直接输出它只返回三种格式point、bbox和count。没有像素级分割遮罩。这是bbox输出你看到的是浣熊从(270,240)到(892,845)的大框——覆盖62%的宽度基本上是整个动物咖啡杯(424,115)-(610,273)——位置最高在0-1000空间中158像素高香蕉皮(472,215)-(667,291)——与杯底重叠确认它搭在侧面报纸(305,223)-(548,315)——左耳覆盖垃圾桶盖(107,800)-(1000,998)——在底部几乎横跨整个图像宽度脸部(305,283)-(750,537)——面具周围的紧密裁剪眼睛两个约40×37像素的框在y379处完全水平注意框如何嵌套脸部在浣熊内部眼睛在脸部内部帽子碎片相互重叠但保持在脸部框上方。该工具正在进行真正的对象定位而不仅仅是猜测中心。**关于遮罩**由于visual_grounding不输出它们我可以在容器中用OpenCV伪造它们。两个快速选项GrabCut——我给它浣熊的bbox它迭代地将毛皮与背景分割并返回二进制遮罩SAM风格颜色阈值——使用bbox加k-means来隔离咖啡杯或香蕉皮想让我为浣熊从巷子中剪出来生成实际的alpha遮罩或者分别为垃圾帽碎片生成大约10秒我可以给你透明的PNG。这是该bbox可视化的HTML。最后我让它输出了point模式、bbox模式和count模式的原始JSON。你可以在这里看到所有内容。count模式特别有趣——以下是完整内容[ { object_name: raccoon whisker, points: [ {x: 403, y: 445}, {x: 397, y: 458}, {x: 392, y: 472}, {x: 391, y: 485}, {x: 398, y: 497}, {x: 415, y: 512}, {x: 618, y: 446}, {x: 622, y: 461}, {x: 625, y: 475}, {x: 628, y: 488}, {x: 635, y: 501}, {x: 651, y: 518} ], count: 12 }, { object_name: raccoon paw claw, points: [ {x: 406, y: 845}, {x: 424, y: 847}, {x: 441, y: 842}, {x: 473, y: 833}, {x: 596, y: 830}, {x: 635, y: 844}, {x: 660, y: 843}, {x: 679, y: 838} ], count: 8 }, { object_name: trash item on head, points: [ {x: 514, y: 191}, {x: 568, y: 263}, {x: 392, y: 274} ], count: 3 }, { object_name: eye, points: [ {x: 462, y: 395}, {x: 582, y: 398} ], count: 2 }, { object_name: ear, points: [ {x: 359, y: 313}, {x: 680, y: 294} ], count: 2 } ]因此Meta AI具有将计数浣熊胡须的能力内置于默认工具集中。这意味着…它也能计数鹈鹕这是导出为HTML的叠加层。更新Meta的Jack Wu确认这些工具是他们随新模型一起推出的新工具包的一部分。4、也许将来会开放权重在Twitter上Alexandr Wang说这是第一步。更大的模型已经在开发中基础设施正在扩展以匹配。今天向选定合作伙伴开放私人API预览计划在未来版本中开源。我真的希望他们能回到开源模型。Llama 3.1/3.2/3.3是优秀的笔记本规模模型系列Muse Spark的介绍性博客文章对效率有以下说法[…]我们可以用比我们之前的模型Llama 4 Maverick少一个数量级以上的计算达到相同的能力。这一改进也使Muse Spark比可供比较的领先基础模型显著更高效。那么Meta回到了前沿模型游戏吗Artificial Analysis认为是——他们给Meta Spark打了52分“仅次于Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6”。去年的Llama 4 Maverick和Scout分别得了18分和13分。我正在等待API访问——虽然meta.ai上的工具集合相当强大但这种模型的真正测试仍然是我们可以在其上构建什么。原文链接: Meta’s new model is Muse Spark, and meta.ai chat has some interesting tools汇智网翻译整理转载请标明出处原文链接Meta新模型Muse Spark上手体验 - 汇智网

相关文章:

Meta新模型Muse Spark上手体验

Meta发布了Muse Spark,这是他们自Llama 4几乎整整一年前以来的首个模型发布。它是托管的,不是开放权重,API目前"仅向选定用户开放私人预览",但你今天就可以在meta.ai上试用(需要Facebook或Instagram登录&…...

AIAgent联邦学习架构设计核心矛盾解析(通信开销×模型收敛×合规边界三重博弈)

第一章:AIAgent联邦学习架构设计核心矛盾解析(通信开销模型收敛合规边界三重博弈) 2026奇点智能技术大会(https://ml-summit.org) 在AI Agent驱动的联邦学习系统中,各参与方既是智能体又是数据孤岛守护者,其架构设计天…...

线上 CPU 暴涨 99%!MySQL只用了这一招,回表次数竟然减半?

周一早高峰,手机疯狂振动。 线上 CPU 报警 99.9%,慢查询日志塞满了磁盘。 小开发在一旁满头大汗:“Fox 哥,明明加了组合索引,回表次数怎么还是这么高?” 我端起咖啡,淡定一笑:“兄弟…...

Unsloth量化指南:手把手教你压缩模型,速度提升2倍

Unsloth量化指南:手把手教你压缩模型,速度提升2倍 1. Unsloth量化技术概述 1.1 什么是模型量化 模型量化是一种通过降低模型参数的数值精度来减小模型体积和加速推理的技术。想象一下,当你需要搬运一堆书籍时,把精装本换成平装…...

SystemVerilog 中浅拷贝与深拷贝的实战应用与陷阱解析

1. 从生活中的复印机说起:理解拷贝的基本概念 想象一下办公室里的复印机。当你把一张纸放进去复印,会得到一张看起来一模一样的新纸。这就是拷贝的基本概念——创建一个与原对象相同的新对象。在SystemVerilog中,我们处理类对象时也经常需要这…...

操作系统中的资源管理与调度算法

操作系统中的资源管理与调度算法 现代操作系统作为计算机系统的核心,负责协调硬件与软件资源的高效利用。资源管理与调度算法是操作系统的关键组成部分,直接影响系统性能、响应速度及用户体验。无论是多任务处理、内存分配,还是磁盘I/O调度&…...

ClaudeCode 中子 Agent 的权限机制

概述 如果子 Agent 尝试使用未在 allowed-tools 中声明的工具或 Skill,会经历两层拦截,最终被拒绝执行: 第一层拦截:工具集过滤(Tool Pool Filtering) 子 Agent 启动时,resolveAgentTools() 会根据 allowed-tools 白名单从 availableTools 中过滤出 resolvedTools。不…...

qy2格式怎么转成MP3?7种方法一次讲清楚(附详细步骤)

很多人在使用 爱奇艺 下载音频或缓存内容时,可能会遇到一种比较少见的格式——QY2。这种格式属于平台专用的加密音频文件,主要用于版权保护,在官方APP内可以正常播放,但一旦导出到其他设备,就会出现无法识别、无法播放…...

OntoKG:Schema-First 知识图谱构建新范式

📌 一句话总结: 本工作提出 OntoKG,一种以本体(ontology)为核心的知识图谱构建框架,通过 intrinsic-relational routing 实现 schema-first 的结构化建模与下游可复用性。 🔍 背景问题&#x…...

SITS2026正式发布:5个被92%企业忽略的AIAgent部署关键指标(附Gartner验证清单)

第一章:SITS2026正式发布:AIAgent最佳实践指南 2026奇点智能技术大会(https://ml-summit.org) SITS2026(Smart Intelligent Task System 2026)是面向生产级AI Agent系统设计与落地的权威实践框架,由ML Summit联合Open…...

图像描述生成不再依赖大模型:2026奇点大会首发轻量化多模态对齐引擎(参数量<1.2B,BLEU-4提升21.6%)

第一章:2026奇点智能技术大会:图像描述生成 2026奇点智能技术大会(https://ml-summit.org) 本届大会首次设立“视觉语义协同”专项赛道,聚焦图像描述生成(Image Captioning)在多模态大模型驱动下的范式跃迁。与传统基…...

C语言分支与循环学习笔记

一、分支语句1. if 语句多分支:例题:判断奇偶数注意: 条件要用 比较,不要写成 (赋值)即使只有一条语句,也建议加 {},避免后面加语句时出错2. switch 语句适合同一个表达式与多个固…...

扩展异常对象的批量处理脚本

该PL/SQL脚本可自动识别扩展使用率≥95%的段对象(表、索引、分区等),并批量将其MAX_EXTENTS设置为UNLIMITED,解决“段无法扩展”的核心问题,避免手动逐个修改的低效与遗漏。 一、批量处理脚本 SET SERVEROUTPUT ON; DECLARE-- 定义变量:存储对象信息V_SEGMENT_NAME …...

Python 循环基础:for、while、break、continue

文章目录前言一、循环到底是干嘛的?先把逻辑搞明白二、for循环:Python里最常用的“批量工具”2.1 for循环基础语法2.2 最简单的for循环示例2.3 遍历字符串:for循环也能拆文字2.4 遍历字典:键、值、键值对全拿下2.5 for循环嵌套&am…...

大模型窗口越来越大,为什么 Agent 还是总会失控?

前端出身,跨进智能体这个坑已经有一段时间了。写这个系列,是想把自己摸索的过程留下来,不是教程,是记录。 很多刚开始接触 Agent 的人,都会有一个直觉: 现在模型的上下文窗口不是已经越来越大了吗&#x…...

应届生面试:3分钟搞定自我介绍

文章目录前言一、为什么应届生面试,自我介绍这么重要?1.1 面试官的真实目的:3秒筛选,3分钟定印象1.2 3分钟不是上限,是“黄金区间”1.3 2026年校招趋势:更看重“务实”,不看“空喊口号”二、90%…...

uniapp中uview组件库的NoticeBar滚动通知进阶配置与实战技巧

1. NoticeBar组件核心功能解析 滚动通知栏作为移动端高频使用的UI组件,在uniapp生态中通过uView的NoticeBar实现了开箱即用的解决方案。这个看似简单的组件实际上隐藏着不少值得深挖的特性。先说说它的基础能力:支持水平和垂直两种滚动模式,水…...

Springboot常见内存溢出与线程报错分析

Springboot内存溢出与线程报错分析 Spring Boot 应用在生产环境中常见的内存溢出(OOM)和线程相关报错,主要源于 JVM 内存模型、线程模型与应用代码/配置的交互。以下是系统性整理:一、常见 内存溢出(OutOfMemoryError&…...

Kotlin密封类实战指南:如何优雅地处理受限类层次结构

1. 密封类是什么?为什么你需要它 第一次看到Kotlin的密封类时,我也有点懵——这不就是个加强版的枚举吗?直到在一个电商项目中踩了坑才恍然大悟。想象你正在开发一个订单状态系统:订单可能是"待支付"、"已发货&quo…...

SQL触发器定义在不同版本间的兼容性_使用标准SQL语法编写

MySQL 5.7与8.0的CREATE TRIGGER差异主要在DEFINER权限处理、严格模式对非法数据的中断行为;PostgreSQL强制函数绑定且返回TRIGGER;SQL Server的INSTEAD OF需手动处理伪表;各数据库触发器语法均不兼容ANSI标准。MySQL 5.7 和 8.0 的 CREATE T…...

CSS 毛玻璃效果:从基础实现到高级应用

1. 毛玻璃效果基础实现 毛玻璃效果(Frosted Glass Effect)是近年来网页设计中非常流行的一种视觉效果,它能让界面元素呈现出半透明的磨砂质感,就像我们常见的磨砂玻璃一样。这种效果最大的特点就是既能保持背景内容的可见性&#…...

ShardingSphere 5.2.1 启动报错 SPI-00001?别慌,试试降级到 5.1.1 的完整避坑指南

ShardingSphere 5.2.1 启动报错 SPI-00001 的深度解决方案与版本选择策略 最近在技术社区看到不少开发者反馈,在使用 ShardingSphere 5.2.1 版本时遇到了一个棘手的启动错误:SPI-00001: No implementation class load from SPI。这个错误看似简单&#x…...

基于LLM的高校招生智能问答系统

一、 研究目的 本研究旨在利用大语言模型(LLM)强大的自然语言理解与生成能力,解决当前高校招生咨询工作中存在的痛点与瓶颈。随着高等教育普及化程度的加深,每年招生季高校需面对海量、重复且时效性极强的咨询需求。传统的人工客服模式受限于人力成本、工作时间及答复一致…...

从NeRF到ConvONet:手把手教你用Python和PyTorch搭建自己的三维重建模型(附代码)

从NeRF到ConvONet:手把手教你用Python和PyTorch搭建自己的三维重建模型(附代码) 三维重建技术正在彻底改变我们与数字世界的交互方式。想象一下,仅凭几张照片就能重建出精细的3D模型,或者通过简单的视频输入实时生成三…...

从入门到精通:Java 编程语言全解析 —— 夯实编程基础,开启开发之旅

从入门到精通:Java 编程语言全解析 —— 夯实编程基础,开启开发之旅 在编程世界里,Java 凭借其跨平台、安全稳定、生态完善的优势,稳居主流编程语言榜首数十年。无论是桌面应用、后端开发、移动安卓程序,还是大数据、云…...

分析和存储日志知识点问答

1.RHEL日志文件保存在哪个目录中? 保存在/var/log目录下。 2.什么是syslog消息和非syslog消息? syslog消息是格式标准统一的日志,非syslog消息是各个程序自己定义的格式标准不统一的日志。 3.哪两个服务处理RHEL中的syslog消息? s…...

BGE Reranker-v2-m3部署案例:离线考试阅卷系统中实现主观题参考答案语义匹配

BGE Reranker-v2-m3部署案例:离线考试阅卷系统中实现主观题参考答案语义匹配 1. 项目背景与需求场景 在传统的考试阅卷系统中,主观题评分一直是个让人头疼的问题。特别是像简答题、论述题这类题目,学生的答案五花八门,但表达的意…...

绿色机器学习系统综述:(四)讨论、未来方向与结论

摘要 本文是对发表在《Artificial Intelligence Review》期刊上的论文"A systematic review of Green Machine Learning: practices and challenges for sustainability"的文献精读第四篇,也是本系列的最后一篇。该论文由Samara Santos、Andr L. C. Otto…...

MySQL触发器实战避坑指南:如何巧妙绕过错误1442的陷阱

1. 为什么你的MySQL触发器会报错1442? 最近在帮朋友排查一个MySQL数据库问题时,遇到了经典的错误1442。当时他正在开发一个员工考勤系统,触发器里写着:"当员工状态更新为离职时,自动删除一年前的旧记录"。听…...

【YOLO11性能跃迁】MSCAA注意力模块实战:从理论到代码,打造高效目标检测新范式

1. MSCAA模块:目标检测领域的注意力新范式 如果你正在使用YOLO系列做目标检测,一定遇到过小目标漏检、复杂背景干扰这些头疼问题。传统卷积神经网络就像拿着固定放大镜找东西,而MSCAA模块给检测器装上了"智能变焦镜头"。这个源自语…...