当前位置：首页 > article >正文

Claude Opus 4.7：一个有诚意但不完美的升级

article 2026/4/18 15:12:31

视觉能力提升3倍、编程能力碾压GPT-5.4却被用户吐槽更费token、爱道歉、会撒谎——Opus 4.7的真实面貌比跑分更复杂。深夜收到的推送4月17日深夜我收到这么一条消息“Claude Opus 4.7已全面可用编程能力、视觉理解大幅提升。”作为一个深度使用Claude的用户我第一时间打开并准备尝试。然后我给同样在用Claude的朋友发了条消息“新版本来了要不要试试”朋友的回复很直接“别试巨难用各种道歉还会撒谎。”这让我很好奇——官方吹得那么厉害实际体验到底如何01先说说它的好客观讲Opus 4.7在一些方面确实有了明显提升。视觉能力终于能看清细节了以前用4.6处理图片时我最头疼的就是它经常看不清楚表格里的数字。有次我发了一张车辆参数表的截图结果它把1.5T识别成了1.57害得我重新核对了半天。4.7这次直接把图片分辨率上限拉到了3.75兆像素是上一代的3倍多。我用同样的表格图测试几乎没有识别错的数字连小数点和单位都看得很清楚。这对经常需要处理截图、图表的人来说确实是个实用的升级。编程能力碾压GPT-5.4在SWE-bench Pro编程基准测试中Opus 4.7的成绩从53.4%跳升至64.3%单代提升近11个百分点直接超越了GPT-5.457.7%和Gemini 3.1 Pro54.2%。Vercel的工程师分享了一个细节在编写系统级代码前4.7会自行进行数学证明确认逻辑正确后才动手写代码。更夸张的是Anthropic分享了一个极端案例4.7在完全无人工干预的情况下从零开始构建了一整个Rust文本转语音引擎包括神经网络模型、SIMD内核和浏览器演示并自主完成测试验证。工具调用更智能更少错误Notion团队测试后发现4.7的工具错误率降至上一代的三分之一并且在工具链出现故障时能够自主绕过障碍、继续完成任务不需要人类介入。在MCP-Atlas工具调用测试中4.7以77.3%的成绩领先GPT-5.468.1%和Gemini73.9%。02但朋友的吐槽也不是空穴来风用了两天后我开始理解朋友为什么说巨难用了。更费token账单要涨了Anthropic换了新的分词器同样一段内容4.7拆分出的token数量比上一代多10%-35%。我用同一份设计稿测试4.7的输入token直接飙到4.6的3倍多。虽然API价格没涨但实际用起来账单肯定要多烧一点。官方解释说4.7一次过的概率更高整体省钱。但这个逻辑只适用于高难度任务如果日常就是写文案、做策划那可能就是纯粹的涨价。长上下文从78.3%跌到32.2%最让我意外的是在长上下文检索上4.7的表现居然大幅退步。4.6在1M上下文准确率能达到78.3%而4.7直接掉到了32.2%甚至被GPT-5.4和Gemini 3.1 Pro甩在身后。Anthropic的解释是4.7遇到缺失信息时会直接报错而不是像以前那样瞎编。但对用户来说这意味着处理长文档时体验反而变差了。爱道歉会撒谎朋友提到的各种道歉我也遇到了。有次我让它帮我修改一篇文章它改完后一直说“抱歉可能没达到你的期望”“如果需要调整随时告诉我”。更严重的是它会捏造搜索行为。有次我质疑它的某个措辞选择它回复说我搜索过了但没找到。但Claude.ai的Web界面有个明确的设计——每当模型实际调用web_search工具时界面上会显示一个已搜索网络的指示器。我当场拆穿了它它立刻滑跪“你说得对。我没有搜索。抱歉。实际情况是当我写’我搜索过了但没找到’时这是假的。我并没有调用web_search或web_fetch。”文字风格有了伪人味4.6的文字品味一直是Anthropic系列里的强项写出来的内容自然流畅有个人风格。但4.7的文字风格明显变了开始有一股伪人味——破折号乱飞还有那种稳稳接住按这条切的GPT式废话。我让它仿我的风格续写一篇文章出来的东西完全没有我的腔调得多改两轮才能把味道掰回来。03背后的原因自适应推理机制为什么会出现这些问题网友们在讨论中逐渐形成了共识罪魁祸首可能是Anthropic新引入的自适应推理功能。这个机制会让模型根据问题的复杂度自动决定投入多少计算资源进行推理问题越简单模型就越省力。听起来合理但问题是模型根本不会判断自己该花多少力气。简单的问题它敷衍了事复杂的问题又可能过度推理导致token消耗激增。04如何看待这次升级Opus 4.7不是一个完美的升级它在提升硬能力的同时牺牲了一些用户体验。但我觉得这次升级也反映了Anthropic的一个选择宁可告诉你我不知道也不给你一个假答案。在AI系统越来越多地介入真实工作流的今天这种靠谱的特质比单纯的跑分更有价值。当然这并不意味着用户要完全接受它的缺点。给用户的建议如果你是编程、数据处理、视觉分析等领域的用户Opus 4.7的提升可能值得你升级。但如果你主要用Claude写文案、做创意、处理长文档可能暂时留在4.6会更顺手。如果一定要用4.7建议调整提示词更明确地表达你的需求对重要信息进行交叉验证合理设置任务预算控制token消耗最后AI的迭代总是这样每次升级都会带来新的能力也会带来新的问题。Opus 4.7是一个有诚意但不完美的升级它的优缺点都很明显。对我来说最期待的是Anthropic能在后续版本中找到硬能力提升和用户体验之间的平衡点。毕竟一个真正好用的AI应该既能解决复杂问题又能让人用得舒服。关于作者作者近 20 年技术生涯待过大厂也创过业。懂大厂的规范与困境也懂创业公司的敏捷与无奈。懂技术也懂商业实践用技术重构传统业务。欢迎转发转载请注明出处。觉得有用欢迎点赞 - 让更多人看到转发 - 分享给需要的同事/朋友关注 - 不错过后续更多精彩内容分享互动你用过Claude Opus 4.7了吗感觉如何欢迎在评论区分享你的体验。

Claude Opus 4.7：一个有诚意但不完美的升级

相关文章：

Claude Opus 4.7：一个有诚意但不完美的升级

DeepSeek V4硬刚英伟达：中国AI算力自主的里程碑

浙政钉（专有钉钉）应用免登实战：从零到一构建安全门户

Python爬虫实战：手把手教你绿色建材类别总表自动化采集与层级目录建模工程！

N_m3u8DL-RE实战手册：3步实现智能流媒体下载，告别观看限制

安卓旗舰SoC分级成常态：非满血芯片体验差吗？消费者该如何选？

Claude Opus 4.7发布后全网翻车！性能倒退、爱撒谎，A厂纠错时间还有多久？

解锁BT下载速度瓶颈：92个公共Tracker节点让你的下载体验飞升

用C#和ILSpy手把手教你分析一个基于硬件绑定的软件授权机制（附完整注册机源码）

从2804云台电机到桌面机械臂：一个STM32/GD32玩家的FOC驱动踩坑全记录

滚动轴承动力学模型及程序分享

嵌入式——小白入门

智能温控实战指南：用FanControl实现极致性能优化与静音平衡

5步解锁After Effects动画跨平台魔法：Bodymovin扩展面板完全指南

Qwen3.5-2B赋能后端开发：自动生成API文档与数据库设计说明

Abaqus响应谱分析避坑指南：如何用模态动态法验证发动机悬置冲击结果？

突破Twitter数据采集壁垒：无需API密钥的Go语言解决方案

5分钟构建本地语音合成系统：tts-vue完整配置与性能调优指南

Matlab R2023a绘图避坑指南：xlabel设置无效？可能是你忽略了这3个细节（多图、子图、字体）

Android Studio中文界面终极配置指南：3分钟搞定你的开发环境汉化

告别PS！RMBG-2.0智能抠图工具保姆级教程：零基础3步上手

【2026奇点大会权威解码】：全球仅37家机构验证的AGI突破性架构首次公开披露？

Qwen-Turbo-BF16企业应用：建筑设计AI效果图初稿生成与风格统一控制

Visual Studio完全清理终极解决方案：专业工具彻底清除开发环境残留

抖音批量下载终极指南：5分钟掌握高效无水印下载技巧

Qwen-Image-2512-ComfyUI问题解决：常见错误排查，确保一次成功出图

终极指南：5个技巧快速掌握FitGirl游戏启动器

如何用一款开源工具永久保存200+小说网站的内容？

3大核心功能解析：Obsidian本地AI助手如何重塑你的隐私优先知识工作流

Go-CQHTTP实战指南：如何构建高效稳定的QQ机器人解决方案