2026年4月16日,Anthropic 发布了 Claude Opus 4.7。

发布声明很克制,技术数据很扎实,但发布公告末尾藏着一句让人停下来的话:

“Opus 4.7 的能力不及我们内部最强的模型 Mythos Preview,后者因安全评估未通过,暂不对公众开放。”

这句坦白很少见。一家 AI 公司主动告诉用户:你拿到的,不是我们最好的那个。

这背后到底发生了什么?先从数据说起。


一、编程能力:这一跳是真的

Opus 4.7 最显著的升级集中在软件工程任务上。

SWE-bench Pro(衡量真实工程任务完成度)从 Opus 4.6 的 53.4% 跳到 64.3%,单版本提升 10.9 个百分点。SWE-bench Verified 从 80.8% 升至 87.6%,超过 Gemini 3.1 Pro(80.6%)和 GPT-5.4(未超过 87.6%,但 Opus 4.7 领先)。

更值得注意的是 Rakuten-SWE-Bench,这是一个用真实生产工单来测试模型的基准,而不是教科书例题。Opus 4.7 解决了 Opus 4.6 三倍数量的任务。

为什么?核心是智能体推理能力的改善。在多步骤工具调用场景中,Opus 4.7 的准确率提升了 14%,工具调用错误率降低了三分之二。长时间运行的任务(需要写入临时文件、跨轮次传递上下文的工作)也变得明显稳定——以前容易在中途"失忆"的那类任务,现在能更可靠地跑完。

对于开发者来说,这次还引入了一个新的努力级别:xhigh(超高),位于原有的 high 和 max 之间。它给了用户更细粒度的控制权——在推理深度和响应延迟之间选择你愿意付出的代价。

▲ Anthropic 官方基准对比表:Opus 4.7 vs Opus 4.6 vs GPT-5.4 vs Gemini 3.1 Pro vs Mythos Preview(数据来源:anthropic.com)


二、视觉能力:分辨率翻了三倍

Opus 4.7 现在接受最长边达 2,576 像素(约 3.75 兆像素)的图像输入,是此前 Claude 模型的三倍以上。

在视觉导航任务上(无工具辅助),得分从 Opus 4.6 的 57.7% 跳到 79.5%,提升了近 22 个百分点。这意味着模型现在能从一张高清设计稿或技术截图里读取更多细节,不再因为分辨率不足而丢失关键信息。

对于需要处理 UI 截图、架构图、工程图纸的工作流,这是一个实质性改变。


三、总体基准表现:7/10 领先,但有一个例外

在 10 项核心基准测试中,Opus 4.7 赢了 7 项,全面超过 Opus 4.6,并在多项测试中领先 GPT-5.4 和 Gemini 3.1 Pro。

但有一个明确的例外:BrowseComp,这是衡量模型主动网络研究能力的基准。Opus 4.7 在这项上从 83.7% 降到了 79.3%,低于 GPT-5.4 Pro(89.3%)和 Gemini 3.1 Pro(85.9%)。

这不是随机退步。这个方向的能力下降与 Anthropic 的一个主动决策有关——接下来说。


四、Mythos 与那道刻意留下的阀门

发布 Opus 4.7 的同一天,Anthropic 罕见地公开承认了两件事:

第一:他们有一个叫 Mythos 的模型,能力远超 Opus 4.7,但不对公众开放。

第二:Opus 4.7 在训练阶段经历了"差异化能力削减"(differential reduction),网络安全相关的进攻性能力被主动降低

Mythos 的情况是这样的:Anthropic 内部评估认为,它能够自主发现并利用零日漏洞(zero-day vulnerabilities),超越人类安全研究员,也超越所有现有自动化工具。这种能力在进攻性场景下风险过大,因此 Mythos 目前只通过 Project Glasswing 向大约 40 家经过审核的企业和政府合作伙伴开放,包括 Apple、Google、Microsoft、AWS、CrowdStrike 和 JPMorgan Chase。

Opus 4.7 是 Anthropic 在安全评估通过后面向公众发布的版本。它是第一个配备自动检测和阻断机制的 Claude 模型——系统会实时识别并拦截被判定为高风险网络安全用途的请求。

BrowseComp 的退步,部分正是这一削减的副作用:主动获取和利用网络信息的能力边界被收窄了。


五、安全性评估:比 4.6 好,但没有 Mythos 那么对齐

Anthropic 公布的对齐评估结论是:

“Opus 4.7 总体上表现出良好的对齐和可信行为,但尚未达到理想状态。”

在欺骗行为、谄媚(sycophancy)、配合滥用等维度,Opus 4.7 与 Opus 4.6 的安全性表现相近,均处于较低的风险水平。

但 Anthropic 同时指出:Mythos Preview 仍是他们训练过的对齐表现最好的模型。这引出了一个有趣的悖论:能力最强的模型,同时也是最对齐的——但因为综合风险评估未通过,它仍然无法公开。


六、定价与可用性

Opus 4.7 的定价与 Opus 4.6 完全一致:

  • 输入:$5 / 百万 tokens
  • 输出:$25 / 百万 tokens

已在 Anthropic API 和 Amazon Bedrock 上线。对于现有使用 Opus 4.6 的用户,API 接口层面的迁移成本为零。


七、值不值得从 4.6 升级?

从数据看:

升级收益明显的场景:

  • 大型代码库的自动化任务(SWE 系列基准大幅提升)
  • 需要多轮迭代的智能体工作流(工具调用错误率降低 2/3)
  • 处理高清技术图像、UI 截图(视觉分辨率提升 3 倍)
  • 长时间跨会话任务(上下文持久性改善)

不需要急着升级的场景:

  • 主要用途是网络信息检索和研究(BrowseComp 有退步)
  • 轻量文字任务(Sonnet 系列更经济)

八、这次发布真正在说什么

Anthropic 发布 Opus 4.7 的方式,本身就是一种表态。

他们手里有更强的模型,并且主动告诉了所有人。这不是市场策略失误,而是一种刻意的透明——“我们知道边界在哪里,我们选择不越过去。”

这套逻辑能否成立,取决于你是否相信以下前提:进攻性网络能力足够危险,以至于一家公司有权单方面决定不发布某个能力级别的模型。

Anthropic 的回答是肯定的。Mythos 被锁在 Project Glasswing 的白名单里,只对能够承担责任并接受审计的机构开放。Opus 4.7 是他们认为"可以给所有人用"的版本。

这不是传统的产品发布逻辑,更像是一种关于 AI 能力分级的公开实验。

至于这个实验最终证明了什么——现在还太早说。


数据时效:2026-04。本文数据来源:Anthropic 官方发布博客、SWE-bench 基准公开评测、BenchLM.ai、The Next Web、CNBC、Axios。