当前位置: 首页 > article >正文

Claude Opus 4.7 发布:更像一个真正能干活的模型了

Claude Opus 4.7 发布更像一个真正能干活的模型了Opus 4.7终于发布了。官方把它定位为“目前能力最强的通用可用模型”重点强化了编码、Agent 长程任务、视觉、多步复杂工作流、记忆相关任务。虽然这一次模型升级了但是价格很公道。新版本的价格维持在与 Opus 4.6 相同的输入每百万 token 5 美元、输出每百万 token 25 美元。Opus 4.7 发布时同时带上了自动识别并拦截高风险网络安全用途请求的防护措施会帮助他们为未来更强的“Mythos 级”模型做广泛发布准备。从整体的效果来看它具备了四个方面的优点指令遵循更强。一些为早期模型编写的提示词放到 Opus 4.7 上可能会出现意料之外的结果。因为旧模型往往会宽松理解甚至直接忽略部分指令而 Opus 4.7 更倾向于严格按字面执行所以提示词也需要随之调整。多模态能力进一步提升。Opus 4.7 对高分辨率图像的处理更强长边最高支持2576 像素约375 万像素是此前 Claude 模型的三倍以上。这让它更适合处理依赖细节的视觉任务比如读取密集截图、解析复杂图表以及需要像素级定位的场景。更贴近真实工作。除了在财务代理评测中取得领先表现Anthropic 的内部测试也显示Opus 4.7 相比 Opus 4.6 在分析严谨性、模型构建、演示质量和跨任务整合上都有提升。同时它也是第三方高价值知识工作评测GDPval-AA的最新最佳结果。记忆能力更实用。Opus 4.7 在基于文件系统的记忆使用上表现更好能够在长周期、多轮任务中保留关键笔记并在新任务中继续利用这些信息从而减少反复补充背景的成本。在视觉识别能力上它能看到更高分辨率的图像。在完成专业任务时它更具品味和创意制作出更高质量的界面、幻灯片和文档。虽然它的能力还没有Claude Mythos Preview强但在多个基准测试中表现优于Opus 4.6从上面这个效果来看。它的提升重点集中在编程、工具调用、视觉推理、Agent 长链路执行更强第一4.7 相比 4.6最大提升就是“Agentic coding”。SWE-bench Pro53.4% → 64.3%SWE-bench Verified80.8% → 87.6%在真实软件工程任务上有比较明显的一档升级。Anthropic 官方也明确把 Opus 4.7 的主要升级点描述为在高级软件工程、复杂长任务、需要较少监督的编码工作上更强。第二它在终端型 Agent 执行上也更稳了但还不是全场第一。TerminalBench 2.0 这一项里图上是Opus 4.769.4%GPT-5.475.1%Mythos Preview82.0%这意味着 Opus 4.7 的确适合做“会写代码、会跑命令、会串工具”的执行型 Agent但在终端实操闭环这件事上至少还是不能够超越自己的Mythos 模型。搞得我以为Anthropic 一直在宣传Mythos 第三它在工具使用能力上进步也是有的。图里 MCP-Atlas 这一项Opus 4.777.3%Opus 4.675.8%GPT-5.468.1%Gemini 3.1 Pro73.9%4.7 更像一个会调工具干活的模型。Claude系列模型一直在强化 tool use、computer use、agent workflow 能力。官方模型总览也把 Claude 系列定位成适合推理、视觉分析、工具使用、computer use的一类模型。其他方面的优化文档推理上和长上下文推理上Opus4.7都是最高的。这意味着它真正具备了在超长材料中持续抓住重点、理清结构并输出结论的能力。面对长篇报告、复杂代码库、多轮对话记录、冗长合同或研究资料时Opus 4.7 能更稳定地保持上下文一致性不容易中途跑偏也更擅长从分散信息里抽取关键线索完成跨段落、跨章节、跨任务的综合推理。还有一个是迁移带来的影响~Opus 4.7 是 Opus 4.6 的直接升级版但有两点变化值得提前关注因为都会影响 Token 消耗。首先Opus 4.7 使用了新的分词器文本处理方式更优化但同样内容对应的 Token 数也可能更高通常约为1.0 到 1.35 倍具体取决于内容类型。其次Opus 4.7 在高努力等级下会进行更多思考尤其是在智能体场景的后期回合。这提升了复杂任务的可靠性但也会带来更多输出 Token。不过用户仍然可以通过多种方式控制消耗比如调整 effort 参数、设置任务预算或直接要求模型更简洁。在 Anthropic 的内部测试中整体结果仍然是正向可控的虽然 Token 使用有所变化但各努力等级下的编码效率都有提升。真正迁移时最好还是结合真实流量进行测量并参考官方迁移指南完成参数调整。会检查自己答案的模型Opus 4.7 补上了一个过去不算突出的能力先自我验证再汇报结果。如果发现问题它会先在内部修正再把答案交给你。听上去只是多了一步检查但放到智能体长时间自主运行的场景里这一步非常关键。过去让 Claude 连续跑几个小时往往到最后才发现中间某个环节出了问题现在它更有能力在过程里自己发现、自己纠偏。这意味着很多原本必须人工兜底的时刻又往后退了一层。从实际效果看这种变化已经开始体现价值。Rakuten 在生产任务中使用 Opus 4.7 后问题解决率提升了3 倍代码质量也出现了非常明显的提升。写在最后如果说 Opus 4.7 最大的价值是什么是它开始更像一个真正能干活的模型了。这次升级更适合进入真实工作流代码写得更稳工具调用更顺自我检查也更强。当然能力更强的另一面是 Token 消耗和使用方式也变得更值得关注。对于真正要把它接进生产环境的人来说这次升级不只是换个版本号而是提示词、预算控制和任务设计都要一起调整。整体来看Opus 4.7 很可能是 Anthropic 朝着实用型 Agent 模型迈出的关键一步。

相关文章:

Claude Opus 4.7 发布:更像一个真正能干活的模型了

Claude Opus 4.7 发布:更像一个真正能干活的模型了Opus 4.7终于发布了。官方把它定位为“目前能力最强的通用可用模型”,重点强化了 编码、Agent 长程任务、视觉、多步复杂工作流、记忆相关任务。虽然这一次模型升级了,但是价格很公道。新版本…...

手把手复现Go-fastdfs 1.4.3任意文件上传漏洞(CVE-2023-1800),附靶场搭建与修复方案

实战复现Go-fastdfs 1.4.3文件上传漏洞(CVE-2023-1800)全流程指南 分布式文件系统在现代应用中扮演着重要角色,而安全配置的疏忽可能带来严重后果。2023年曝光的Go-fastdfs 1.4.3版本路径遍历漏洞(CVE-2023-1800)就是一…...

Pandas数据处理实战:从基础到高级技巧

1. 从零开始掌握Pandas数据处理作为一名长期使用Python处理数据的开发者,我深刻体会到Pandas在数据操作中的核心地位。这个强大的库不仅能高效处理结构化数据,更能让复杂的数据操作变得直观简单。今天我将通过一个真实的环境污染数据集,带你系…...

Pearcleaner:彻底清理macOS应用残留,释放宝贵存储空间

Pearcleaner:彻底清理macOS应用残留,释放宝贵存储空间 【免费下载链接】Pearcleaner A free, source-available and fair-code licensed mac app cleaner 项目地址: https://gitcode.com/gh_mirrors/pe/Pearcleaner 你是否曾以为将应用拖入废纸篓…...

音乐自由之路:3分钟搞定加密音频格式转换

音乐自由之路:3分钟搞定加密音频格式转换 【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库: 1. https://github.com/unlock-music/unlock-music ;2. https://git.unlock-music.dev/um/web 项目地址: https://gitcode.c…...

从AE到MAE:图解自监督学习中的生成式方法,为什么说它正在“复兴”?

从AE到MAE:生成式自监督学习的复兴之路 当ChatGPT用海量无标注文本训练出通用对话能力时,一个被忽视的技术细节是:支撑其成功的核心预训练方法——掩码语言建模(MLM),本质上是一种生成式自监督学习。这不禁…...

别再纠结了!手把手教你根据项目需求选ONVIF还是GB28181(附C++库推荐)

视频监控项目选型指南:ONVIF与GB28181的深度技术解析 第一次接手视频监控项目时,面对ONVIF和GB28181这两个专业术语,我完全摸不着头脑。直到经历了三个失败的项目后,才真正理解了如何根据项目特性做出明智选择。本文将分享这些经验…...

nli-MiniLM2-L6-H768入门指南:理解cross-encoder架构如何支撑零样本推理

nli-MiniLM2-L6-H768入门指南:理解cross-encoder架构如何支撑零样本推理 1. 认识nli-MiniLM2-L6-H768模型 nli-MiniLM2-L6-H768是一个基于Transformer架构的轻量级自然语言推理(NLI)模型,由微软研究院开发。这个模型的核心价值在于其精巧的设计&#x…...

AI写专著攻略:借助AI专著写作工具,快速完成20万字专著创作

对众多研究者来说,撰写学术专著时遭遇的最大挑战,往往是“有限的精力”和“无限的需求”之间的矛盾 专著的创作周期通常长达3到5年,甚至更久,而研究者还得同时应对教学、科研项目和学术交流等多重责任,能够进行写作的…...

Nature综述核心要点速览:肿瘤标志物深度解析

一、中国癌症形势:挑战与积极变化并存依据《JAMA》最新发布的流行病学数据统计分析,中国癌症发展态势依旧严峻。在特定研究周期内,男性有11种癌症、女性有14种癌症的年龄调整患病率显著攀升。具体而言,男性癌症中,甲状…...

B细胞代谢与功能的时空解码:免疫调控网络中的新哨点

摘要:B淋巴细胞作为适应性免疫应答的核心组分,其功能不仅局限于抗体生成。近年来,随着单细胞多组学、基因编辑及代谢分析技术的整合应用,学界对B细胞的分化命运、功能异质性、代谢重编程及其在病理状态下的双向调控作用有了颠覆性…...

微信自动化终极指南:用wxauto三小时解放双手,工作效率提升300%

微信自动化终极指南:用wxauto三小时解放双手,工作效率提升300% 【免费下载链接】wxauto Windows版本微信客户端(非网页版)自动化,可实现简单的发送、接收微信消息,简单微信机器人 项目地址: https://gitc…...

K8s运维封神指南:避开90%的坑

欢迎关注我的公众号「DevOps和k8s全栈技术」,进公众号【服务】栏,可以看到技术群,点击即可加入学习交流群。↓↓↓作为云原生时代的“基础设施天花板”,K8s(Kubernetes)早已不是运维人的“选修课”&#xf…...

图像质量评价避坑指南:手把手教你用OpenCV和lpips库批量计算PSNR/SSIM/LPIPS

图像质量评价避坑指南:手把手教你用OpenCV和lpips库批量计算PSNR/SSIM/LPIPS 在数字图像处理领域,量化评估图像质量是算法开发、效果验证和系统优化中不可或缺的一环。无论是评估超分辨率重建效果、测试压缩算法性能,还是验证图像修复质量&a…...

投稿赢好礼!金仓社区知识库共建计划第二期开启

供稿:社区运营部编辑:格格审核:日尧...

保姆级教程:用QuestaSim一步步调试SystemVerilog随机化(含pre/post_randomize顺序详解)

保姆级教程:用QuestaSim一步步调试SystemVerilog随机化(含pre/post_randomize顺序详解) 在数字验证领域,SystemVerilog的随机化机制是构建高效验证环境的核心支柱。本文将带您深入QuestaSim仿真环境,通过可视化调试手…...

【408硬核笔记】计组:定点数运算、移位与溢出判定终极总结

✍️ 前言 作为一名 27 考研 选手,计组的定点数运算是 408 基础中的“重灾区”。今天的笔记重点在于移位规则与溢出判断。拒绝云玩家,直接上硬核干货,建议收藏作为考前速查手册。一、 移位运算:逻辑 vs 算术 移位运算在底层电路中…...

TOF050C测距不准?手把手教你用STM32 HAL库I2C进行数据校准与拟合

TOF050C测距精度优化实战:基于STM32 HAL库的I2C校准与非线性拟合 当TOF050C激光测距模块的原始数据开始出现非线性偏差时,真正的工程挑战才刚刚开始。上周调试机器人避障系统时,我发现1x缩放因子下20cm处的测量值波动达到8mm——这足以让自动…...

Chrome图片格式转换终极指南:3秒完成PNG/JPG/WebP格式保存

Chrome图片格式转换终极指南:3秒完成PNG/JPG/WebP格式保存 【免费下载链接】Save-Image-as-Type Save Image as Type is an chrome extension which add Save as PNG / JPG / WebP to the context menu of image. 项目地址: https://gitcode.com/gh_mirrors/sa/Sa…...

从混乱数据到清晰洞察:手把手教你用pheatmap做单细胞转录组数据可视化(Seurat/R兼容)

从混乱数据到清晰洞察:手把手教你用pheatmap做单细胞转录组数据可视化 单细胞RNA测序技术正在彻底改变我们对复杂生物系统的理解能力。当研究者们从海量的单细胞数据中识别出不同的细胞亚群后,如何直观展示这些细胞群体之间基因表达的差异模式&#xff0…...

从无人机飞控到机械臂:手把手教你用C++实现RPY角与旋转矩阵互转(附Eigen库实战)

从无人机飞控到机械臂:手把手教你用C实现RPY角与旋转矩阵互转(附Eigen库实战) 在无人机飞控系统调试机械臂轨迹规划时,工程师们经常需要面对一个经典问题:如何在不同姿态表示方式间高效转换?RPY角&#xff…...

如何快速掌握农历计算?lunar-javascript终极指南

如何快速掌握农历计算?lunar-javascript终极指南 【免费下载链接】lunar-javascript 日历、公历(阳历)、农历(阴历、老黄历)、佛历、道历,支持节假日、星座、儒略日、干支、生肖、节气、节日、彭祖百忌、每日宜忌、吉神宜趋凶煞宜忌、吉神(喜神/福神/财神…...

CSC之外的选择:深度拆解北航‘卓越远航’基金的申请逻辑与隐藏条款

CSC之外的选择:深度拆解北航‘卓越远航’基金的申请逻辑与隐藏条款 当国家留学基金委(CSC)的竞争日益激烈,许多博士生开始将目光转向校级资助项目。北京航空航天大学的"卓越远航"基金作为CSC的重要补充,为无…...

避开这些坑!IEEE校样(Proof)阶段最容易被忽略的5个细节检查

IEEE论文校样阶段:5个关键细节检查清单 收到论文被接收的邮件总是令人兴奋,但随之而来的校样阶段却常常让研究者们措手不及。48小时的黄金校对窗口转瞬即逝,而一旦错过关键细节,可能面临无法挽回的遗憾。这不是简单的拼写检查——…...

有哪些数字人制作软件,支持短视频和实时对话直播的

PioneerX human数字人凭借强大的技术支撑,实现了国内外主流平台的全域覆盖,适配各类场景的传播与运营需求。依托前沿AI技术,PioneerX human为企业量身打造虚拟数字人定制、AI短视频智能生产、全天候数字人直播、IP孵化培育及IP交易流通等全链…...

给新人的半导体ATE测试扫盲:DFT向量、MBIST、IDDQ到底在测什么?

给新人的半导体ATE测试扫盲:DFT向量、MBIST、IDDQ到底在测什么? 走进半导体测试实验室,你会看到一排排精密的自动化测试设备(ATE)正在对芯片进行"体检"。就像医生用不同仪器检查人体各项指标一样&#xff0c…...

K8s Pod 网络通信原理

Kubernetes Pod 网络通信原理揭秘 在云原生时代,Kubernetes(K8s)已成为容器编排的事实标准。Pod作为K8s的最小调度单元,其网络通信机制是集群高效运行的核心。理解Pod如何跨节点通信、如何与外部世界交互,不仅能帮助开…...

OBS录课参数别再乱调了!这份‘黄金比例’设置清单,让你的视频又小又清晰

OBS录课参数优化指南:平衡清晰度与文件大小的科学配置 在知识付费与在线教育蓬勃发展的今天,高质量的视频课程已成为内容创作者的标配。然而,许多讲师在使用OBS录制课程时,常常陷入参数设置的误区——要么盲目追求最高配置导致视频…...

2026届毕业生推荐的降重复率方案实测分析

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 知网AI检测系统有精准识别文本里机器生成特征的能力,要有效降低AI率&#xff0c…...

3分钟搞定播客批量下载:Podcast Bulk Downloader完全指南

3分钟搞定播客批量下载:Podcast Bulk Downloader完全指南 【免费下载链接】PodcastBulkDownloader Simple software for downloading podcasts 项目地址: https://gitcode.com/gh_mirrors/po/PodcastBulkDownloader 还在为喜爱的播客无法离线收听而烦恼吗&am…...