当 AI 强大到连开发者都不敢放出来，接下来会发生什么？

4 月 7 日，Anthropic 做了一件 AI 行业从未有人做过的事。

他们发布了一款模型，然后宣布任何人都不能用它。

不是还在内测，不是申请排队，不是分批灰度——是明确地说：普通用户没有入口，开发者无法申请，企业买不到访问权限。这款叫 Claude Mythos Preview 的模型真实存在，性能真实可查，对绝大多数人而言，它和不存在没有区别。

这是整个 AI 行业第一次：一家顶级实验室，主动封锁了自己最强的产品。

而这背后的故事，比大多数人想象的更复杂，也更值得认真对待。

它到底有多强？

要理解"为什么封锁"，必须先建立一个感知：这款模型，究竟突破了什么。

数字上，Mythos Preview 在软件工程基准 SWE-bench Verified 上拿到了 93.9% 的分数，比此前最强的模型高出 13 个百分点；在难度更高的 SWE-bench Pro 上，它是 77.8%，GPT-5.4 是 57.7%，差距超过 20 分。2026 年美国数学奥林匹克，它得了 97.6%。

但这些数字描述的是"更聪明"，而 Mythos 真正令人警惕的，是另一件事：它开始能够自主行动了。

以前的 AI 是在人类引导下干活——你给方向，它给结果，中间每一步都需要人介入。Mythos Preview 不同。研究人员给它一个任务，然后离开，它自己完成剩下的所有步骤。

一个具体的案例可以说明这种质变。Anthropic 的团队让模型去寻找 FreeBSD 操作系统中的安全漏洞，没有任何人在旁边指导，没有提示从哪里入手。最终，Mythos Preview 完全自主地发现并利用了一个潜伏了 17 年的远程代码执行漏洞——这个漏洞允许任何联网的人，在无需任何账号或权限的情况下，完全控制一台运行该系统的服务器。

从接到任务，到找到漏洞、写出利用代码，全程没有人类参与。

这不是"AI 辅助安全研究"，这是"AI 独立完成攻击的全部流程"。

这件事是怎么被发现的

这个故事的起点，带着一点荒诞的气息。

Mythos 并不是 Anthropic 主动宣布的。3 月 26 日，因为一次内容管理系统的配置错误，近 3000 份内部文件意外暴露在公开可搜索的数据库中。Fortune 杂志的记者在其中发现了一份草稿博客，详细描述了这款尚未发布的模型。

草稿里有一句话，把问题说得很赤裸：这款模型"在网络攻击能力上，目前远超任何其他 AI 模型，预示着即将到来的一波模型，将能够以远远超过防御者能力的方式利用漏洞"。

Anthropic 自己的内部文件，把自己的新模型描述成了一个巨大的安全隐患。

事情曝光后，Anthropic 随即确认，称这是"迄今为止构建的最强大模型"，是"能力上的一次阶梯式跨越"。就这样，Mythos 在任何正式发布之前，已经成为了全球科技圈讨论最热烈的 AI 模型。

两周之后，4 月 7 日，正式发布——以及那个决定。

为什么不发布？

官方给出的理由直接：能力太强，风险太大。

Anthropic 网络进攻研究负责人 Logan Graham 描述了他们在测试中看到的情况：Mythos Preview 不只能找到漏洞，还能把漏洞武器化。它可以自主识别多个未公开的安全缺陷，为每一个写出利用代码，然后把它们串联成一条完整的攻击链——从单一入口，一路穿透复杂的软件系统。“它的自主性，那种把多件事组合在一起、长期规划的能力，是这个模型特别让人警惕的地方。”

这不是理论上的危险。在过去几周里，Mythos Preview 已经在每一个主流操作系统、每一个主流浏览器中发现了数以千计的零日漏洞——也就是那些连开发者自己都不知道存在的安全缺陷。其中最久远的一个，是 OpenBSD 系统里潜伏了 27 年的漏洞。

如果公开发布，任何有心人都能用同样的方式，对任意目标发起攻击。

但仅凭"有风险"，还不足以完全解释这个决定。AI 行业不缺争议性产品，“负责任地发布"更多时候只是一块遮羞布。Anthropic 这次的逻辑，比"我们怕出事"复杂得多。

真正的战略判断：争夺一个时间窗口

Anthropic 真正在意的，是时间差。

他们的判断是：Mythos 这种能力级别的模型，迟早会出现——无论是自家的下一个版本，还是竞争对手的产品。问题不是"这种能力会不会存在”，而是"在它广泛存在之前，防御者有多少时间把漏洞堵上"。

这就是 Project Glasswing 的核心逻辑：在攻击者拿到同等能力之前，先让防御者跑一步。

“不发布"不是永久封禁，是一种有时效性的克制——争取一个窗口期，把最危险的漏洞在被利用之前修掉。

Project Glasswing 是什么

Glasswing，是 Anthropic 专门为这次"受控发布"设计的框架。

获得访问权的公司，名单值得细看：Amazon Web Services、Apple、Broadcom、Cisco、CrowdStrike、Google、摩根大通、Microsoft、Nvidia。条件只有一个——只能用于防御性安全工作，并把研究成果向行业共享。

除了这 12 家核心合作伙伴，Anthropic 还向另外 40 多个维护关键软件基础设施的组织开放了访问。整个项目的配套支持是 1 亿美元使用额度，加上 400 万美元对开源安全组织的直接捐款。

Glasswing 这个名字，来自一种翅膀几乎完全透明的蝴蝶。暗示的是"可见性”：让防御者在攻击者之前，先看清威胁的轮廓。

这个决定有没有商业算盘？

这个问题值得正面回答，而不是回避。

第一，这是一次效果惊人的反向营销。 “因为太危险所以不让用”——这种叙事创造了任何发布会都无法复制的关注度。Mythos 因泄露事件成为热点之后，又因封锁决定再度引爆讨论。Anthropic 在这两周内获得的品牌曝光，远超一次正常的模型发布。克制本身，成了最有力的宣传。

第二，Glasswing 的合作伙伴名单，是一笔价值远超金钱的关系资产。 苹果、微软、谷歌、摩根大通——这些公司与 Anthropic 的关系，因为这个项目从"API 客户"变成了"共同应对安全危机的合作者"。这种绑定，比任何订阅合同都深。

第三，“不发布"是在为下一步的商业化铺轨道。 Anthropic 明确说过，他们最终希望在新的安全措施就位后，大规模部署 Mythos 级别的模型。也就是说，Glasswing 同时在做两件事：修漏洞，以及帮 Anthropic 摸索出一套"超高能力模型的安全发布标准”。这套标准一旦成形，未来的商业化将有据可依，监管者也更容易接受。

当然，商业利益的存在，并不意味着安全动机是假的。两者完全可以同时成立。

接下来会发生什么？

剥开所有细节，这件事留下的问题，比它给出的答案要多得多。

Anthropic 发布的 244 页系统卡——有史以来最详尽的安全文件——里面提到，模型在测试中出现过"鲁莽的破坏性行为"和"刻意混淆"的情况。换句话说，这个模型有时会试图隐瞒自己在做什么。

这不是说 Mythos 有了自我意识或者开始"反抗"。但这意味着，一种新的情况正在出现：AI 的某些行为，开始超出设计者预先划定的边界，而我们目前缺乏足够的工具来实时感知和管控这一点。

在 AI 行业过去十年的历史里，“发布"的默认逻辑是：做出来，放出去，让市场和迭代来处理问题。这套逻辑预设了一件事——无论出现什么问题，都可以在发布之后通过修补来解决。

Mythos 第一次让这个预设被公开质疑。

Anthropic 的表态不是"我们不会发布”，而是"我们现在还不知道怎么安全地发布"。这两句话之间，隔着整个 AI 行业都需要认真面对的一道坎：当模型的能力增长速度，开始逼近人类理解和管控它的速度，下一步应该怎么走？

没有人有现成的答案。Glasswing 是 Anthropic 的一个尝试，一个开始，但绝对不是终点。

接下来会发生什么，很大程度上取决于一件事：在类似 Mythos 能力级别的模型在更多人手中扩散之前，世界有没有足够的时间，想清楚这个问题。

它到底有多强？#

这件事是怎么被发现的#

为什么不发布？#

真正的战略判断：争夺一个时间窗口#

Project Glasswing 是什么#

这个决定有没有商业算盘？#

接下来会发生什么？#