今天,数十家中文科技媒体在头条写道:

「GPT-6 今日正式发布」「OpenAI 官方确认 4 月 14 日全球同步上线」「土豆来了」。

但我翻了一遍,没有找到 OpenAI 的官方公告,没有发布会,没有 Altman 的推文确认。

「4 月 14 日发布」这个说法,最早出现在 4 月 7 日一篇没什么名气的博客上,来源是某位「内部消息人士」。然后被转载,被摘录,在传播的过程中悄悄多了「官方确认」四个字,最后以这个面目出现在你的朋友圈里。

Altman 自己说的是「几周后」。Polymarket 的预测市场上,4 月 30 日前发布的概率是 78%——也就是说有将近四分之一的概率根本不在这个月。算上常规的安全评估周期,预训练 3 月 17 日完成,5 月或 6 月初才是更合理的估计。

我不是要做事实核查。我想说的是另一件事:

一条来源不明的消息,是怎么在一天之内变成「官方确认」的?这件事本身,比 GPT-6 究竟什么时候发布更值得在意。因为当「发布了没有」都可以被集体搞错,你凭什么相信那些「性能提升 40%」「幻觉率降至 0.1%」的数字?


40% 是个什么数字?

根据目前流传的预告信息,GPT-6 的参数是:2M Token 上下文,性能较 GPT-5.4 提升 40%,幻觉率低于 0.1%。具体到编程,HumanEval 超过 95%,Agent 任务完成率从 62% 提升到 87%。

听起来很猛。但有一个基准测试圈子里人尽皆知的问题——自己出题、自己评分,这个分数的含金量本来就打了折扣。

GPT-4 当年说自己通过了律师资格考试,后来有研究者仔细看了,发现它在标准题库上确实很好,放到真实执业场景里就另说了。这不是 OpenAI 造假,是这类测试本身的边界。

放到第三方独立榜单上看会更清楚一些。SWE-Bench Verified 上,GPT-5.4 现在约为 74.9%,Claude Opus 4.6 是 80.8%,Gemini 3.1 Pro 是 80.6%。如果 GPT-6 真的在这个基础上提升 40%,理论上应该接近 105%。这在满分 100% 的测试里显然不可能,所以那个 40%,到底测的是哪个维度、用的哪套题,是一个还没有答案的问题。

等第三方机构把测试跑完,再说相信不相信。


财务上的那根刺

有一个问题,大家在报道 GPT-6 时都选择跳过,但它一直在那里。

OpenAI 2025 年现金亏损 80 亿美元,2026 年的预计消耗是 170 亿——收入在涨,但亏损涨得比收入快。年化营收接近 250 亿,估值到了 8520 亿,连 CFO 都在警告 IPO 路上有障碍。这家公司正处于一个越成功就越需要钱的怪圈里。

就在发布前,OpenAI 叫停了 Sora。与迪士尼谈好的合作,据报道金额约 10 亿美元,直接终止,给的理由是算力成本太高、看不到变现路径。与此同时,产品部门改名「AGI 部署部」——听起来只是个品牌动作,但在这个时间节点上,它更像是一个信号:不相关的资源,都在往核心方向收。

我不是在说 GPT-6 是个赶工出来的产品。但有一件事会在它正式发布后值得对照:预训练 3 月 17 日完成,如果 4 月底上线,后训练加安全评估只有六周左右。对于一个声称把幻觉率压到 0.1% 以下的模型,六周够不够?等它真正大规模部署之后,稳定性表现会给出答案。


Claude 已经站在那里了

这才是 GPT-6 真正需要回答的问题。

Claude Code 2025 年上线,六个月年化收入破 10 亿美元,2026 年初已经到了 25 亿。财富 100 强里 70% 在用 Claude,Anthropic 的企业收入在去年中已经超过 OpenAI。SWE-Bench Verified 上,Claude Opus 4.6 比 GPT-5.4 领先将近 6 个点。

在开发者的认知里,这场战争的格局其实已经固化了:Copilot 是老大,Claude Code 是专业选手,ChatGPT 是通用入口。三个位置,服务三类用户,各自有各自的护城河。

GPT-6 要争夺的,不只是一个更高的 benchmark 数字。一个开发者一旦把 Claude Code 嵌入了他的工作流,改变这个习惯需要的理由,远不是「新模型性能提升 40%」。Claude 的壁垒在于 Anthropic 两年来在 agent 工程上的积累——工具调用的稳定性、多文件重构时的上下文处理、出错之后的重试逻辑。这些东西,不是一次发布能抹掉的。

GPT-6 也不是毫无牌可打。2M Token 的上下文确实比大多数对手宽,双层推理架构的设计思路也有自己的逻辑。但技术层面的优势,跟开发者愿不愿意换工具,是两件不同的事。前者在实验室里就能测,后者要在日复一日的工作里形成。

编程赛道的格局,不会在发布当天逆转。


最后说一件今天真实发生的事。

就在这场「GPT-6 发布了」的信息噪音里,有一条没什么人注意到的消息:一周前,智谱 GLM-5.1 在 SWE-Bench Pro 上拿下了全球第一,用全程国产算力训练出来的,完全开源,MIT 协议。

这条消息是真的,没有任何未经证实的成分。但它的声量,远不及今天这条很可能是假的「GPT-6 官方确认发布」。

信息的扭曲从来不是中立的。它总是系统性地让某些声音更响,让另一些声音更轻。

这个反差,比 GPT-6 本身更值得多想一秒。


数据来源:Polymarket 预测市场 / OpenAI 官方预告信息 / 华尔街见闻 / 36Kr / Variety / SWE-Bench 官方榜单 / Claude Code Statistics 2026 / BenchLM 2026-04。数据截止 2026 年 4 月 14 日。