原文:Claude Opus 4.7 Is Here: Anthropic’s Latest Model Delivers, But It’s a Token Eating Machine
将 Decrypt 添加为您的首选来源,以便在 Google 上查看我们的更多故事。
简而言之,Anthropic 刚刚发布了迄今为止最强大的 Opus 模型,Claude Opus 4.7。
该模型在编码和推理方面提供了强劲的基准收益,但不是 Anthropic 向精选合作伙伴提供的有争议的 Mythos 模型。
Claude Opus 4.7 显示了明显的思想链和异常高的代币使用率。
Anthropic 今天发布了 Claude Opus 4.7,称其为该公司迄今为止功能最强大的 Opus 型号。我们对其进行了测试,营销效果与结果相符。
“我们的最新型号 Claude Opus 4.7 现已全面上市。”该公司在其官方公告中表示。 “用户表示能够放心地将他们最困难的编码工作(以前需要密切监督的工作)交给 Opus 4.7。”
该型号是在用户抱怨 Opus 4.6 据称失去优势数周后推出的。 GitHub、Reddit 和 X 上的开发者记录了他们所谓的“AI 收缩膨胀”——感觉他们一直花钱购买的模型已经悄然变得更糟。正如我们昨天报道的那样,Anthropic 已经在准备 4.7,同时还有一些更强大但无法公开发布的东西:Claude Mythos。
<span data-mce-type="bookmark" style="display:inline-block;width:0px;overflow:hidden;line-height:0" class="mce_SELRES_start"></span>
当今天早上宣布这一消息时,那些对 4.6 降级反应最强烈的 X 用户很快就以讽刺的方式回应:有些人开玩笑说,Opus 4.7 感觉就像“早期的 Opus 4.6”——人们真正喜欢的版本,然后他们相信 Anthropic 悄悄地把旋钮调低了。当然,Anthropic 否认曾通过降低模型权重来管理计算需求。
欢迎回来 opus 4.6 pic.twitter.com/hpwNkrq1tD — Dev Ed (@developmentbyed) 2026 年 4 月 16 日
基准支持了 Anthropic 的主张。在衡量编码技能的 SWE-bench Multilingual 基准上,Opus 4.7 的得分为 80.5%,而 4.6 的得分为 77.8%。
关于GDPVal-AA,第三方eva
