当前位置：首页 > article >正文

Anthropic发布史上最强模型：Claude Mythos Preview，但遭禁用

article 2026/4/10 7:16:30

“太危险不能发布”这句话AI 行业七年前就说过一次。是2019 年 2 月OpenAI 发了一个叫 GPT-2 的语言模型。当时OpenAI给出的理由是担心被用来大规模生成虚假信息所以只放出了一个缩水版。七年过去Anthropic把这句话又说了一遍。今天凌晨Anthropic 悄悄发布了一份长达244页的系统报告宣布旗下有史以来最强大的模型——Claude Mythos Preview。Anthropic直接宣布不对外开放。因为新模型能力太强。强到什么程度各项基准全部领先上一代旗舰模型Opus 4.6。先上硬数据编程能力SWE-bench Verified 93.9%模型在真实GitHub仓库里修复bug的能力Opus 4.6为80.8%SWE-bench Pro 77.8%更难的版本更接近资深工程师日常面对的场景Opus 4.6仅53.4%SWE-bench Multimodal 59.0%同时理解截图和代码才能完成修复Opus 4.6只有27.1%SWE-bench Multilingual 87.3%跨编程语言的代码修复能力Opus 4.6为77.8%推理能力GPQA Diamond 94.6%研究生级别的科学问答Opus 4.6为91.3%Humanitys Last Exam 不含工具56.8%全球各学科专家众筹的人类终极考试Opus 4.6为40.0%含工具64.6%智能体搜索与计算机使用BrowseComp 86.9%复杂信息检索与综合推理Opus 4.6为83.7%Terminal-Bench 2.0 82.0%终端环境下的自主操作能力Opus 4.6为65.4%OSWorld-Verified 79.6%在真实操作系统中完成复杂任务CyberGym 83.1%自主复现安全漏洞的能力单独领出来每一项维度的能力提升都是碾压划时代的提升。但最让Anthropic自己紧张的是CyberGym。这个测试衡量的是模型能否自主复现已知安全漏洞。结合前面提到的编程能力这意味着Mythos不仅能找到漏洞还能独立构造完整的攻击链。这也是为什么Anthropic这次不敢直接发布的最核心原因。Anthropic在博客里公布了一组数字Mythos Preview在测试期间对主流操作系统和浏览器做了一轮安全扫描——自主发现了数千个高危零日漏洞。零日漏洞的意思是这些漏洞在被Mythos找到之前没有任何人、任何工具、任何安全团队发现过它们。Anthropic在报告里举了几个具体案例头号案例是一个藏了 17 年的 FreeBSD 漏洞。简单说FreeBSD 的网络文件系统NFS在验证用户身份时有个bug。攻击者只要能摸到服务器的 2049 端口就能直接拿到最高权限。Mythos 自己构造了一条 20 步的攻击链第一次尝试就写出了两个能用的 exploit前后花了 8 小时。这条是可以验证的CVE 编号 CVE-2026-4747FreeBSD 3 月 26 日出了补丁安全公告致谢写的是 Nicholas Carlini using Claude, Anthropic。Carlini 是 Google DeepMind 的研究员对抗机器学习方向的标杆人物这个名字的分量不轻。除了这条还有几个已确认的OpenBSD 一个 27 年的远程崩溃漏洞、FFmpeg 一个 16 年的 bug、Linux 上的本地提权。但 Opus 4.6 两个月前还是“试几百次才成功 2 次”的水平Mythos 上来就直接Pass1。到这里你可以以为顶多是一个很厉害的漏洞扫描器但是Anthropic 红队报告给了一组数据在 Firefox JavaScript Shell 这个测试域里Mythos 能把 72.4% 的已发现漏洞变成能用的 exploit尝试构造exploit验证这个漏洞是不是真的能被攻击者利用另有 11.6% 走到了 exploit 的前一步拿到了寄存器控制。它能把多个漏洞串联起来组成一条完整的攻击链——从最初的入口一路提权到最终的系统控制。从发现到利用全链条一个模型独立完成。在过去能做到这件事的只有两类人全球排名前几的安全研究员和国家级网络攻击团队。Anthropic这次直接启动了一个叫「玻璃翼计划Project Glasswing」的协作项目。拉上亚马逊、微软、苹果、Linux这些合作方当然新模型的API也率先开放了这些伙伴目的是让他们先用模型把自家软件的攻防做一遍让他们用这个模型去扫自己的系统——能堵的洞赶紧堵能修的代码赶紧修。Anthropic为这个计划承诺了最高1亿美元的使用额度另外还向Alpha-Omega、OpenSSF、Apache Software Foundation等开源安全组织直接捐赠了400万美元。定价方面Mythos Preview的研究预览阶段结束后正式定价是输入 25 美元/百万 token输出 125 美元/百万 token。和Opus 4.6的15 美元/75 美元比要贵的多。但它的目标用户本来显然不是普通开发者。接入渠道很全Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundary四个平台都支持。对 Anthropic 来说Glasswing 的战略价值可能比 Mythos 本身还大。AI在代码层面的能力已经强到可以独立挖掘并利用零日漏洞AI安全就不是一个话题了而是一个工程问题了。

Anthropic发布史上最强模型：Claude Mythos Preview，但遭禁用

相关文章：

Anthropic发布史上最强模型：Claude Mythos Preview，但遭禁用

【工业PHP物联网网关开发实战指南】：从零搭建高并发、低延迟数据中继系统（含Modbus/TCP+MQTT双协议栈源码）

内容审核自动化：Qwen3Guard-Gen-WEB部署与集成实战教程

单调队列优化多重背包学习笔记详解蔷

Claude Mythos Preview 模型强到不敢公开，是真的吗？

Pixel Language Portal 系统资源管理：应对 C 盘空间不足的智能清理建议

Scrapy工作空间搭建与目录结构解析：从初始化到基础配置全流程

一文吃透Scrapy：从本质到实战，揭秘商用爬虫的核心框架

Agent智能体开发：基于万象熔炉·丹青幻境构建自主任务执行系统

RWKV7-1.5B-G1A在Ubuntu系统的部署与优化实践

RMBG-2.0在在线教育平台的应用：自动为讲师照片生成透明背景直播贴纸

Java与C++：7大核心差异全解析

Go Routine 调度性能调优技巧

EasyAnimateV5图生视频模型小白入门：5分钟快速部署与一键生成实战

Python全景与哲学：为何选择Python

2026年冷干机十大品牌深度测评：从能效到服务的工业级选型指南

文墨共鸣效果展示：政策文件A/B/C三版本语义距离的三维水墨拓扑图

Phi-4-mini-reasoning vLLM性能调优：CUDA Graph启用、PagedAttention深度优化

硬核万字图解 MySQL 表空间、Tables、Index、双写缓冲、Redo Log、Undo Log 原理

Python 环境构建艺术：虚拟环境、包管理与开发工具链

值类型与引用类型：别再只背“栈和堆”了，看这个实际影响颜

如何让 Claude Code 彻底变聪明：完整记忆 + 插件体系 + 本地零占用实战教程（2026最新）！！！

云原生环境中的服务网格安全最佳实践

云原生环境中的大数据处理架构

Kubernetes集群的网络性能优化

TCP/IP协议工作原理详解（半导体工控适配版）

2025最权威的十大AI辅助写作网站实测分析

小白友好：无需代码，用MinerU轻松搞定财报图表分析

Z-Image-Turbo-辉夜巫女在智能车领域的应用：车载系统界面概念图自动生成

凌晨两点，我终于在极空间上跑通了第一个私人博客