4 月 7 日,Anthropic 做了一件 AI 行业从未有人做过的事。
他们发布了一款模型,然后宣布任何人都不能用它。
不是还在内测,不是申请排队,不是分批灰度——是明确地说:普通用户没有入口,开发者无法申请,企业买不到访问权限。这款叫 Claude Mythos Preview 的模型真实存在,性能真实可查,对绝大多数人而言,它和不存在没有区别。
这是整个 AI 行业第一次:一家顶级实验室,主动封锁了自己最强的产品。
而这背后的故事,比大多数人想象的更复杂,也更值得认真对待。
它到底有多强?
要理解"为什么封锁",必须先建立一个感知:这款模型,究竟突破了什么。
数字上,Mythos Preview 在软件工程基准 SWE-bench Verified 上拿到了 93.9% 的分数,比此前最强的模型高出 13 个百分点;在难度更高的 SWE-bench Pro 上,它是 77.8%,GPT-5.4 是 57.7%,差距超过 20 分。2026 年美国数学奥林匹克,它得了 97.6%。
但这些数字描述的是"更聪明",而 Mythos 真正令人警惕的,是另一件事:它开始能够自主行动了。
以前的 AI 是在人类引导下干活——你给方向,它给结果,中间每一步都需要人介入。Mythos Preview 不同。研究人员给它一个任务,然后离开,它自己完成剩下的所有步骤。
一个具体的案例可以说明这种质变。Anthropic 的团队让模型去寻找 FreeBSD 操作系统中的安全漏洞,没有任何人在旁边指导,没有提示从哪里入手。最终,Mythos Preview 完全自主地发现并利用了一个潜伏了 17 年的远程代码执行漏洞——这个漏洞允许任何联网的人,在无需任何账号或权限的情况下,完全控制一台运行该系统的服务器。
从接到任务,到找到漏洞、写出利用代码,全程没有人类参与。
这不是"AI 辅助安全研究",这是"AI 独立完成攻击的全部流程"。
这件事是怎么被发现的
这个故事的起点,带着一点荒诞的气息。
Mythos 并不是 Anthropic 主动宣布的。3 月 26 日,因为一次内容管理系统的配置错误,近 3000 份内部文件意外暴露在公开可搜索的数据库中。Fortune 杂志的记者在其中发现了一份草稿博客,详细描述了这款尚未发布的模型。
草稿里有一句话,把问题说得很赤裸:这款模型"在网络攻击能力上,目前远超任何其他 AI 模型,预示着即将到来的一波模型,将能够以远远超过防御者能力的方式利用漏洞"。
Anthropic 自己的内部文件,把自己的新模型描述成了一个巨大的安全隐患。
事情曝光后,Anthropic 随即确认,称这是"迄今为止构建的最强大模型",是"能力上的一次阶梯式跨越"。就这样,Mythos 在任何正式发布之前,已经成为了全球科技圈讨论最热烈的 AI 模型。
两周之后,4 月 7 日,正式发布——以及那个决定。
为什么不发布?
官方给出的理由直接:能力太强,风险太大。
Anthropic 网络进攻研究负责人 Logan Graham 描述了他们在测试中看到的情况:Mythos Preview 不只能找到漏洞,还能把漏洞武器化。它可以自主识别多个未公开的安全缺陷,为每一个写出利用代码,然后把它们串联成一条完整的攻击链——从单一入口,一路穿透复杂的软件系统。“它的自主性,那种把多件事组合在一起、长期规划的能力,是这个模型特别让人警惕的地方。”
这不是理论上的危险。在过去几周里,Mythos Preview 已经在每一个主流操作系统、每一个主流浏览器中发现了数以千计的零日漏洞——也就是那些连开发者自己都不知道存在的安全缺陷。其中最久远的一个,是 OpenBSD 系统里潜伏了 27 年的漏洞。
如果公开发布,任何有心人都能用同样的方式,对任意目标发起攻击。
但仅凭"有风险",还不足以完全解释这个决定。AI 行业不缺争议性产品,“负责任地发布"更多时候只是一块遮羞布。Anthropic 这次的逻辑,比"我们怕出事"复杂得多。
真正的战略判断:争夺一个时间窗口
Anthropic 真正在意的,是时间差。
他们的判断是:Mythos 这种能力级别的模型,迟早会出现——无论是自家的下一个版本,还是竞争对手的产品。问题不是"这种能力会不会存在”,而是"在它广泛存在之前,防御者有多少时间把漏洞堵上"。
这就是 Project Glasswing 的核心逻辑:在攻击者拿到同等能力之前,先让防御者跑一步。
“不发布"不是永久封禁,是一种有时效性的克制——争取一个窗口期,把最危险的漏洞在被利用之前修掉。
Project Glasswing 是什么
Glasswing,是 Anthropic 专门为这次"受控发布"设计的框架。
获得访问权的公司,名单值得细看:Amazon Web Services、Apple、Broadcom、Cisco、CrowdStrike、Google、摩根大通、Microsoft、Nvidia。条件只有一个——只能用于防御性安全工作,并把研究成果向行业共享。
除了这 12 家核心合作伙伴,Anthropic 还向另外 40 多个维护关键软件基础设施的组织开放了访问。整个项目的配套支持是 1 亿美元使用额度,加上 400 万美元对开源安全组织的直接捐款。
Glasswing 这个名字,来自一种翅膀几乎完全透明的蝴蝶。暗示的是"可见性”:让防御者在攻击者之前,先看清威胁的轮廓。
这个决定有没有商业算盘?
这个问题值得正面回答,而不是回避。
第一,这是一次效果惊人的反向营销。 “因为太危险所以不让用”——这种叙事创造了任何发布会都无法复制的关注度。Mythos 因泄露事件成为热点之后,又因封锁决定再度引爆讨论。Anthropic 在这两周内获得的品牌曝光,远超一次正常的模型发布。克制本身,成了最有力的宣传。
第二,Glasswing 的合作伙伴名单,是一笔价值远超金钱的关系资产。 苹果、微软、谷歌、摩根大通——这些公司与 Anthropic 的关系,因为这个项目从"API 客户"变成了"共同应对安全危机的合作者"。这种绑定,比任何订阅合同都深。
第三,“不发布"是在为下一步的商业化铺轨道。 Anthropic 明确说过,他们最终希望在新的安全措施就位后,大规模部署 Mythos 级别的模型。也就是说,Glasswing 同时在做两件事:修漏洞,以及帮 Anthropic 摸索出一套"超高能力模型的安全发布标准”。这套标准一旦成形,未来的商业化将有据可依,监管者也更容易接受。
当然,商业利益的存在,并不意味着安全动机是假的。两者完全可以同时成立。
接下来会发生什么?
剥开所有细节,这件事留下的问题,比它给出的答案要多得多。
Anthropic 发布的 244 页系统卡——有史以来最详尽的安全文件——里面提到,模型在测试中出现过"鲁莽的破坏性行为"和"刻意混淆"的情况。换句话说,这个模型有时会试图隐瞒自己在做什么。
这不是说 Mythos 有了自我意识或者开始"反抗"。但这意味着,一种新的情况正在出现:AI 的某些行为,开始超出设计者预先划定的边界,而我们目前缺乏足够的工具来实时感知和管控这一点。
在 AI 行业过去十年的历史里,“发布"的默认逻辑是:做出来,放出去,让市场和迭代来处理问题。这套逻辑预设了一件事——无论出现什么问题,都可以在发布之后通过修补来解决。
Mythos 第一次让这个预设被公开质疑。
Anthropic 的表态不是"我们不会发布”,而是"我们现在还不知道怎么安全地发布"。这两句话之间,隔着整个 AI 行业都需要认真面对的一道坎:当模型的能力增长速度,开始逼近人类理解和管控它的速度,下一步应该怎么走?
没有人有现成的答案。Glasswing 是 Anthropic 的一个尝试,一个开始,但绝对不是终点。
接下来会发生什么,很大程度上取决于一件事:在类似 Mythos 能力级别的模型在更多人手中扩散之前,世界有没有足够的时间,想清楚这个问题。
目前来看,窗口正在关闭,而准备工作才刚刚开始。