当前位置：首页 > article >正文

Claude Opus 4.7 发布：更像一个真正能干活的模型了

article 2026/4/24 13:40:42

Claude Opus 4.7 发布更像一个真正能干活的模型了Opus 4.7终于发布了。官方把它定位为“目前能力最强的通用可用模型”重点强化了编码、Agent 长程任务、视觉、多步复杂工作流、记忆相关任务。虽然这一次模型升级了但是价格很公道。新版本的价格维持在与 Opus 4.6 相同的输入每百万 token 5 美元、输出每百万 token 25 美元。Opus 4.7 发布时同时带上了自动识别并拦截高风险网络安全用途请求的防护措施会帮助他们为未来更强的“Mythos 级”模型做广泛发布准备。从整体的效果来看它具备了四个方面的优点指令遵循更强。一些为早期模型编写的提示词放到 Opus 4.7 上可能会出现意料之外的结果。因为旧模型往往会宽松理解甚至直接忽略部分指令而 Opus 4.7 更倾向于严格按字面执行所以提示词也需要随之调整。多模态能力进一步提升。Opus 4.7 对高分辨率图像的处理更强长边最高支持2576 像素约375 万像素是此前 Claude 模型的三倍以上。这让它更适合处理依赖细节的视觉任务比如读取密集截图、解析复杂图表以及需要像素级定位的场景。更贴近真实工作。除了在财务代理评测中取得领先表现Anthropic 的内部测试也显示Opus 4.7 相比 Opus 4.6 在分析严谨性、模型构建、演示质量和跨任务整合上都有提升。同时它也是第三方高价值知识工作评测GDPval-AA的最新最佳结果。记忆能力更实用。Opus 4.7 在基于文件系统的记忆使用上表现更好能够在长周期、多轮任务中保留关键笔记并在新任务中继续利用这些信息从而减少反复补充背景的成本。在视觉识别能力上它能看到更高分辨率的图像。在完成专业任务时它更具品味和创意制作出更高质量的界面、幻灯片和文档。虽然它的能力还没有Claude Mythos Preview强但在多个基准测试中表现优于Opus 4.6从上面这个效果来看。它的提升重点集中在编程、工具调用、视觉推理、Agent 长链路执行更强第一4.7 相比 4.6最大提升就是“Agentic coding”。SWE-bench Pro53.4% → 64.3%SWE-bench Verified80.8% → 87.6%在真实软件工程任务上有比较明显的一档升级。Anthropic 官方也明确把 Opus 4.7 的主要升级点描述为在高级软件工程、复杂长任务、需要较少监督的编码工作上更强。第二它在终端型 Agent 执行上也更稳了但还不是全场第一。TerminalBench 2.0 这一项里图上是Opus 4.769.4%GPT-5.475.1%Mythos Preview82.0%这意味着 Opus 4.7 的确适合做“会写代码、会跑命令、会串工具”的执行型 Agent但在终端实操闭环这件事上至少还是不能够超越自己的Mythos 模型。搞得我以为Anthropic 一直在宣传Mythos 第三它在工具使用能力上进步也是有的。图里 MCP-Atlas 这一项Opus 4.777.3%Opus 4.675.8%GPT-5.468.1%Gemini 3.1 Pro73.9%4.7 更像一个会调工具干活的模型。Claude系列模型一直在强化 tool use、computer use、agent workflow 能力。官方模型总览也把 Claude 系列定位成适合推理、视觉分析、工具使用、computer use的一类模型。其他方面的优化文档推理上和长上下文推理上Opus4.7都是最高的。这意味着它真正具备了在超长材料中持续抓住重点、理清结构并输出结论的能力。面对长篇报告、复杂代码库、多轮对话记录、冗长合同或研究资料时Opus 4.7 能更稳定地保持上下文一致性不容易中途跑偏也更擅长从分散信息里抽取关键线索完成跨段落、跨章节、跨任务的综合推理。还有一个是迁移带来的影响~Opus 4.7 是 Opus 4.6 的直接升级版但有两点变化值得提前关注因为都会影响 Token 消耗。首先Opus 4.7 使用了新的分词器文本处理方式更优化但同样内容对应的 Token 数也可能更高通常约为1.0 到 1.35 倍具体取决于内容类型。其次Opus 4.7 在高努力等级下会进行更多思考尤其是在智能体场景的后期回合。这提升了复杂任务的可靠性但也会带来更多输出 Token。不过用户仍然可以通过多种方式控制消耗比如调整 effort 参数、设置任务预算或直接要求模型更简洁。在 Anthropic 的内部测试中整体结果仍然是正向可控的虽然 Token 使用有所变化但各努力等级下的编码效率都有提升。真正迁移时最好还是结合真实流量进行测量并参考官方迁移指南完成参数调整。会检查自己答案的模型Opus 4.7 补上了一个过去不算突出的能力先自我验证再汇报结果。如果发现问题它会先在内部修正再把答案交给你。听上去只是多了一步检查但放到智能体长时间自主运行的场景里这一步非常关键。过去让 Claude 连续跑几个小时往往到最后才发现中间某个环节出了问题现在它更有能力在过程里自己发现、自己纠偏。这意味着很多原本必须人工兜底的时刻又往后退了一层。从实际效果看这种变化已经开始体现价值。Rakuten 在生产任务中使用 Opus 4.7 后问题解决率提升了3 倍代码质量也出现了非常明显的提升。写在最后如果说 Opus 4.7 最大的价值是什么是它开始更像一个真正能干活的模型了。这次升级更适合进入真实工作流代码写得更稳工具调用更顺自我检查也更强。当然能力更强的另一面是 Token 消耗和使用方式也变得更值得关注。对于真正要把它接进生产环境的人来说这次升级不只是换个版本号而是提示词、预算控制和任务设计都要一起调整。整体来看Opus 4.7 很可能是 Anthropic 朝着实用型 Agent 模型迈出的关键一步。

Claude Opus 4.7 发布：更像一个真正能干活的模型了

相关文章：

Claude Opus 4.7 发布：更像一个真正能干活的模型了

手把手复现Go-fastdfs 1.4.3任意文件上传漏洞（CVE-2023-1800），附靶场搭建与修复方案

Pandas数据处理实战：从基础到高级技巧

Pearcleaner：彻底清理macOS应用残留，释放宝贵存储空间

音乐自由之路：3分钟搞定加密音频格式转换

从AE到MAE：图解自监督学习中的生成式方法，为什么说它正在“复兴”？

别再纠结了！手把手教你根据项目需求选ONVIF还是GB28181（附C++库推荐）

nli-MiniLM2-L6-H768入门指南：理解cross-encoder架构如何支撑零样本推理

AI写专著攻略：借助AI专著写作工具，快速完成20万字专著创作

Nature综述核心要点速览：肿瘤标志物深度解析

B细胞代谢与功能的时空解码：免疫调控网络中的新哨点

微信自动化终极指南：用wxauto三小时解放双手，工作效率提升300%

K8s运维封神指南：避开90%的坑

图像质量评价避坑指南：手把手教你用OpenCV和lpips库批量计算PSNR/SSIM/LPIPS

投稿赢好礼！金仓社区知识库共建计划第二期开启

保姆级教程：用QuestaSim一步步调试SystemVerilog随机化（含pre/post_randomize顺序详解）

【408硬核笔记】计组：定点数运算、移位与溢出判定终极总结

TOF050C测距不准？手把手教你用STM32 HAL库I2C进行数据校准与拟合

Chrome图片格式转换终极指南：3秒完成PNG/JPG/WebP格式保存

从混乱数据到清晰洞察：手把手教你用pheatmap做单细胞转录组数据可视化（Seurat/R兼容）

从无人机飞控到机械臂：手把手教你用C++实现RPY角与旋转矩阵互转（附Eigen库实战）

如何快速掌握农历计算？lunar-javascript终极指南

CSC之外的选择：深度拆解北航‘卓越远航’基金的申请逻辑与隐藏条款

避开这些坑！IEEE校样（Proof）阶段最容易被忽略的5个细节检查

有哪些数字人制作软件，支持短视频和实时对话直播的

给新人的半导体ATE测试扫盲：DFT向量、MBIST、IDDQ到底在测什么？

K8s Pod 网络通信原理

OBS录课参数别再乱调了！这份‘黄金比例’设置清单，让你的视频又小又清晰

2026届毕业生推荐的降重复率方案实测分析

3分钟搞定播客批量下载：Podcast Bulk Downloader完全指南