Claude Opus 4.7 全面评测：代码飞升，视觉翻倍，但 Mythos 才是那张底牌

2026年4月16日，Anthropic 发布了 Claude Opus 4.7。

发布声明很克制，技术数据很扎实，但发布公告末尾藏着一句让人停下来的话：

“Opus 4.7 的能力不及我们内部最强的模型 Mythos Preview，后者因安全评估未通过，暂不对公众开放。”

这句坦白很少见。一家 AI 公司主动告诉用户：你拿到的，不是我们最好的那个。

这背后到底发生了什么？先从数据说起。

一、编程能力：这一跳是真的

Opus 4.7 最显著的升级集中在软件工程任务上。

SWE-bench Pro（衡量真实工程任务完成度）从 Opus 4.6 的 53.4% 跳到 64.3%，单版本提升 10.9 个百分点。SWE-bench Verified 从 80.8% 升至 87.6%，超过 Gemini 3.1 Pro（80.6%）和 GPT-5.4（未超过 87.6%，但 Opus 4.7 领先）。

更值得注意的是 Rakuten-SWE-Bench，这是一个用真实生产工单来测试模型的基准，而不是教科书例题。Opus 4.7 解决了 Opus 4.6 三倍数量的任务。

为什么？核心是智能体推理能力的改善。在多步骤工具调用场景中，Opus 4.7 的准确率提升了 14%，工具调用错误率降低了三分之二。长时间运行的任务（需要写入临时文件、跨轮次传递上下文的工作）也变得明显稳定——以前容易在中途"失忆"的那类任务，现在能更可靠地跑完。

对于开发者来说，这次还引入了一个新的努力级别：xhigh（超高），位于原有的 high 和 max 之间。它给了用户更细粒度的控制权——在推理深度和响应延迟之间选择你愿意付出的代价。

▲ Anthropic 官方基准对比表：Opus 4.7 vs Opus 4.6 vs GPT-5.4 vs Gemini 3.1 Pro vs Mythos Preview（数据来源：anthropic.com）

二、视觉能力：分辨率翻了三倍

Opus 4.7 现在接受最长边达 2,576 像素（约 3.75 兆像素）的图像输入，是此前 Claude 模型的三倍以上。

在视觉导航任务上（无工具辅助），得分从 Opus 4.6 的 57.7% 跳到 79.5%，提升了近 22 个百分点。这意味着模型现在能从一张高清设计稿或技术截图里读取更多细节，不再因为分辨率不足而丢失关键信息。

对于需要处理 UI 截图、架构图、工程图纸的工作流，这是一个实质性改变。

三、总体基准表现：7/10 领先，但有一个例外

在 10 项核心基准测试中，Opus 4.7 赢了 7 项，全面超过 Opus 4.6，并在多项测试中领先 GPT-5.4 和 Gemini 3.1 Pro。

但有一个明确的例外：BrowseComp，这是衡量模型主动网络研究能力的基准。Opus 4.7 在这项上从 83.7% 降到了 79.3%，低于 GPT-5.4 Pro（89.3%）和 Gemini 3.1 Pro（85.9%）。

这不是随机退步。这个方向的能力下降与 Anthropic 的一个主动决策有关——接下来说。

四、Mythos 与那道刻意留下的阀门

发布 Opus 4.7 的同一天，Anthropic 罕见地公开承认了两件事：

第一：他们有一个叫 Mythos 的模型，能力远超 Opus 4.7，但不对公众开放。

第二：Opus 4.7 在训练阶段经历了"差异化能力削减"（differential reduction），网络安全相关的进攻性能力被主动降低。

Mythos 的情况是这样的：Anthropic 内部评估认为，它能够自主发现并利用零日漏洞（zero-day vulnerabilities），超越人类安全研究员，也超越所有现有自动化工具。这种能力在进攻性场景下风险过大，因此 Mythos 目前只通过 Project Glasswing 向大约 40 家经过审核的企业和政府合作伙伴开放，包括 Apple、Google、Microsoft、AWS、CrowdStrike 和 JPMorgan Chase。

Opus 4.7 是 Anthropic 在安全评估通过后面向公众发布的版本。它是第一个配备自动检测和阻断机制的 Claude 模型——系统会实时识别并拦截被判定为高风险网络安全用途的请求。

BrowseComp 的退步，部分正是这一削减的副作用：主动获取和利用网络信息的能力边界被收窄了。

五、安全性评估：比 4.6 好，但没有 Mythos 那么对齐

Anthropic 公布的对齐评估结论是：

“Opus 4.7 总体上表现出良好的对齐和可信行为，但尚未达到理想状态。”

在欺骗行为、谄媚（sycophancy）、配合滥用等维度，Opus 4.7 与 Opus 4.6 的安全性表现相近，均处于较低的风险水平。

但 Anthropic 同时指出：Mythos Preview 仍是他们训练过的对齐表现最好的模型。这引出了一个有趣的悖论：能力最强的模型，同时也是最对齐的——但因为综合风险评估未通过，它仍然无法公开。

六、定价与可用性

Opus 4.7 的定价与 Opus 4.6 完全一致：

输入：$5 / 百万 tokens
输出：$25 / 百万 tokens

已在 Anthropic API 和 Amazon Bedrock 上线。对于现有使用 Opus 4.6 的用户，API 接口层面的迁移成本为零。

七、值不值得从 4.6 升级？

从数据看：

升级收益明显的场景：

大型代码库的自动化任务（SWE 系列基准大幅提升）
需要多轮迭代的智能体工作流（工具调用错误率降低 2/3）
处理高清技术图像、UI 截图（视觉分辨率提升 3 倍）
长时间跨会话任务（上下文持久性改善）

不需要急着升级的场景：

主要用途是网络信息检索和研究（BrowseComp 有退步）
轻量文字任务（Sonnet 系列更经济）

八、这次发布真正在说什么

Anthropic 发布 Opus 4.7 的方式，本身就是一种表态。

他们手里有更强的模型，并且主动告诉了所有人。这不是市场策略失误，而是一种刻意的透明——“我们知道边界在哪里，我们选择不越过去。”

这套逻辑能否成立，取决于你是否相信以下前提：进攻性网络能力足够危险，以至于一家公司有权单方面决定不发布某个能力级别的模型。

Anthropic 的回答是肯定的。Mythos 被锁在 Project Glasswing 的白名单里，只对能够承担责任并接受审计的机构开放。Opus 4.7 是他们认为"可以给所有人用"的版本。

这不是传统的产品发布逻辑，更像是一种关于 AI 能力分级的公开实验。

至于这个实验最终证明了什么——现在还太早说。

数据时效：2026-04。本文数据来源：Anthropic 官方发布博客、SWE-bench 基准公开评测、BenchLM.ai、The Next Web、CNBC、Axios。

一、编程能力：这一跳是真的#

二、视觉能力：分辨率翻了三倍#

三、总体基准表现：7/10 领先，但有一个例外#

四、Mythos 与那道刻意留下的阀门#

五、安全性评估：比 4.6 好，但没有 Mythos 那么对齐#

六、定价与可用性#

七、值不值得从 4.6 升级？#

八、这次发布真正在说什么#