OpenAI押注GPT-6：这是技术突破，还是资本叙事？

今天，数十家中文科技媒体在头条写道：

「GPT-6 今日正式发布」「OpenAI 官方确认 4 月 14 日全球同步上线」「土豆来了」。

但我翻了一遍，没有找到 OpenAI 的官方公告，没有发布会，没有 Altman 的推文确认。

「4 月 14 日发布」这个说法，最早出现在 4 月 7 日一篇没什么名气的博客上，来源是某位「内部消息人士」。然后被转载，被摘录，在传播的过程中悄悄多了「官方确认」四个字，最后以这个面目出现在你的朋友圈里。

Altman 自己说的是「几周后」。Polymarket 的预测市场上，4 月 30 日前发布的概率是 78%——也就是说有将近四分之一的概率根本不在这个月。算上常规的安全评估周期，预训练 3 月 17 日完成，5 月或 6 月初才是更合理的估计。

我不是要做事实核查。我想说的是另一件事：

一条来源不明的消息，是怎么在一天之内变成「官方确认」的？这件事本身，比 GPT-6 究竟什么时候发布更值得在意。因为当「发布了没有」都可以被集体搞错，你凭什么相信那些「性能提升 40%」「幻觉率降至 0.1%」的数字？

40% 是个什么数字？

根据目前流传的预告信息，GPT-6 的参数是：2M Token 上下文，性能较 GPT-5.4 提升 40%，幻觉率低于 0.1%。具体到编程，HumanEval 超过 95%，Agent 任务完成率从 62% 提升到 87%。

听起来很猛。但有一个基准测试圈子里人尽皆知的问题——自己出题、自己评分，这个分数的含金量本来就打了折扣。

GPT-4 当年说自己通过了律师资格考试，后来有研究者仔细看了，发现它在标准题库上确实很好，放到真实执业场景里就另说了。这不是 OpenAI 造假，是这类测试本身的边界。

放到第三方独立榜单上看会更清楚一些。SWE-Bench Verified 上，GPT-5.4 现在约为 74.9%，Claude Opus 4.6 是 80.8%，Gemini 3.1 Pro 是 80.6%。如果 GPT-6 真的在这个基础上提升 40%，理论上应该接近 105%。这在满分 100% 的测试里显然不可能，所以那个 40%，到底测的是哪个维度、用的哪套题，是一个还没有答案的问题。

等第三方机构把测试跑完，再说相信不相信。

财务上的那根刺

有一个问题，大家在报道 GPT-6 时都选择跳过，但它一直在那里。

OpenAI 2025 年现金亏损 80 亿美元，2026 年的预计消耗是 170 亿——收入在涨，但亏损涨得比收入快。年化营收接近 250 亿，估值到了 8520 亿，连 CFO 都在警告 IPO 路上有障碍。这家公司正处于一个越成功就越需要钱的怪圈里。

就在发布前，OpenAI 叫停了 Sora。与迪士尼谈好的合作，据报道金额约 10 亿美元，直接终止，给的理由是算力成本太高、看不到变现路径。与此同时，产品部门改名「AGI 部署部」——听起来只是个品牌动作，但在这个时间节点上，它更像是一个信号：不相关的资源，都在往核心方向收。

我不是在说 GPT-6 是个赶工出来的产品。但有一件事会在它正式发布后值得对照：预训练 3 月 17 日完成，如果 4 月底上线，后训练加安全评估只有六周左右。对于一个声称把幻觉率压到 0.1% 以下的模型，六周够不够？等它真正大规模部署之后，稳定性表现会给出答案。

Claude 已经站在那里了

这才是 GPT-6 真正需要回答的问题。

Claude Code 2025 年上线，六个月年化收入破 10 亿美元，2026 年初已经到了 25 亿。财富 100 强里 70% 在用 Claude，Anthropic 的企业收入在去年中已经超过 OpenAI。SWE-Bench Verified 上，Claude Opus 4.6 比 GPT-5.4 领先将近 6 个点。

在开发者的认知里，这场战争的格局其实已经固化了：Copilot 是老大，Claude Code 是专业选手，ChatGPT 是通用入口。三个位置，服务三类用户，各自有各自的护城河。

GPT-6 要争夺的，不只是一个更高的 benchmark 数字。一个开发者一旦把 Claude Code 嵌入了他的工作流，改变这个习惯需要的理由，远不是「新模型性能提升 40%」。Claude 的壁垒在于 Anthropic 两年来在 agent 工程上的积累——工具调用的稳定性、多文件重构时的上下文处理、出错之后的重试逻辑。这些东西，不是一次发布能抹掉的。

GPT-6 也不是毫无牌可打。2M Token 的上下文确实比大多数对手宽，双层推理架构的设计思路也有自己的逻辑。但技术层面的优势，跟开发者愿不愿意换工具，是两件不同的事。前者在实验室里就能测，后者要在日复一日的工作里形成。

编程赛道的格局，不会在发布当天逆转。

最后说一件今天真实发生的事。

就在这场「GPT-6 发布了」的信息噪音里，有一条没什么人注意到的消息：一周前，智谱 GLM-5.1 在 SWE-Bench Pro 上拿下了全球第一，用全程国产算力训练出来的，完全开源，MIT 协议。

这条消息是真的，没有任何未经证实的成分。但它的声量，远不及今天这条很可能是假的「GPT-6 官方确认发布」。

信息的扭曲从来不是中立的。它总是系统性地让某些声音更响，让另一些声音更轻。

这个反差，比 GPT-6 本身更值得多想一秒。

数据来源：Polymarket 预测市场 / OpenAI 官方预告信息 / 华尔街见闻 / 36Kr / Variety / SWE-Bench 官方榜单 / Claude Code Statistics 2026 / BenchLM 2026-04。数据截止 2026 年 4 月 14 日。

40% 是个什么数字？#

财务上的那根刺#

Claude 已经站在那里了#

40% 是个什么数字？

财务上的那根刺

Claude 已经站在那里了