把一个装了水的气球放进真空里,用针刺破,会发生什么?
GPT-4 的回答很漂亮:引用流体力学,分析水的扩散方式,语言流畅,逻辑自洽。只有一个问题——答案是错的。真空里的水不会"扩散",它会立刻沸腾。
这道题可以被改正。模型下一版会答对。但值得追问的不是这一次的错误本身,而是错误的来源:它不是参数没调好,也不是训练数据不够,而是模型与物理世界之间根本没有通道。它读过所有关于水和真空的文字,可它既没见过水,也没置身过真空。它熟练地谈论它从未经验过的一切。
2025 年 11 月,图灵奖得主杨立坤(Yann LeCun)离开 Meta。几个月后,他创办的 AMI Labs 完成了 10.3 亿美元的种子轮融资,估值 35 亿美元,欧洲史上最大的一笔。押的不是下一代大模型,而是另一条完全不同的路:世界模型(World Models)和具身智能(Embodied AI)。LLM,他称之为"死路"(dead end)。
这个断言很重。它值得被按字面意思理解,而不是当作学术圈的意气话。
一、LLM 在学什么
大语言模型的训练只做一件事:给定前面的词,预测下一个词。这件事被它做到了极致——数万亿 token 里的所有模式,人类写下的每一种推理方式、因果判断、常识框架,都被压进了一个庞大的条件概率分布。
代价是:它学到的,是文字层面的共现结构,不是世界本身的因果结构。
“把冰块放进热水里会发生什么”——模型能答对,不是因为它内部有一个热力学模型在运行,而是因为"冰块 + 热水"这个组合后面,高概率跟着"融化"这个词。它甚至不需要知道什么是冰、什么是热。它只需要知道,在人类写过的文字中,这些符号以怎样的频率相邻出现。
1990 年,哲学家 Stevan Harnad 提出过一个问题,叫做符号接地问题(Symbol Grounding Problem):如果一个系统操作的只是符号与符号的关系,而符号本身从不指向任何感知经验,那么它对世界的"理解"就只是一种自我循环的形式游戏——就像一本中英词典只用中文定义英文,又用英文反过来定义中文,字典里的每个词都有解释,但整本字典从未指向任何字典之外的东西。
这就是 LLM 所处的位置。它写下"疼痛"这个词,不是因为它知道疼是什么感觉;它写下"红色",也不是因为它见过红。这些词对它而言只是其他词的邻居。
二、最深的那道裂缝
符号漂浮的代价,不会一开始就显现。它在模型试图继续变强的过程中一层层浮出来。
眼下被讨论最多的是"数据壁垒":Epoch AI 估算,按当前训练强度,人类书写的高质量公开文本将在 2027-2028 年被耗尽。这是真的,但它只是症状,不是病因。
合成数据被寄予厚望——让模型生成自己的训练材料。然而,当模型反复在自己的输出上迭代训练,会出现模型崩塌(Model Collapse):多样性迅速流失,误差被放大成新的"事实",分布一步步偏离现实。这不是数据增强,这是数据近亲繁殖。
人类的学习为什么不会这样?因为人类从来不是在自己的文本里学习的。我们在世界里学习。饥饿会校正你对食物分布的判断,跌倒会校正你对重力的预测,孩子的哭声会校正你对社交信号的解读。这些反馈本身不是语言,也无法被完整地写成语言——它们是真实的物理与社会世界施加给你的约束力。
LLM 身上没有这种约束。它没有需要维持的身体,没有需要规避的伤害,没有因误判而付出的代价。它唯一的"目标",是在下一个 token 的概率分布上让损失函数变小。这是一个完全封闭的目标函数,与它所描述的那个世界没有任何耦合。
没有身体,就没有代价;没有代价,就没有纠正信号;没有纠正信号,就没有真正的学习循环。
数据壁垒是冰。冰下还有一条看不见的水流,那条水流才是结构性的问题。
三、在潜空间里理解世界
杨立坤的替代方案叫做 JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构)。它和 LLM 的差别不在规模,在预测发生的空间。
LLM 预测的是下一个词——每一个 token,都要被高精度地重建出来。这意味着模型必须把大量算力花在无关紧要的表面细节上:光线的抖动、句式的装饰、说话人的语气习惯。这些东西对"理解"毫无贡献,但它们必须被一一预测,否则损失函数不答应。
JEPA 换了一种做法:它不预测原始输入,它预测输入的抽象表示。允许模型忽略那些没有意义的随机性,只保留能刻画世界结构的特征——物体会持续存在、运动会沿轨迹展开、一个事件会引起另一个事件。预测发生在潜空间(latent space)里,而不是像素或词汇的表面。
这不是一次工程层面的改动,而是一次认识论层面的切换:从"复现世界的表象",转向"学习世界的骨架"。
这条路已经不再只是学术主张。Fei-Fei Li 的 World Labs 于 2025 年 11 月推出 Marble,可以从文本或图像生成持久可交互的 3D 世界,直接兼容 Unreal Engine;Google DeepMind 的 Genie 3、NVIDIA 的 Cosmos(上线一个月 200 万次下载)同时压向这个方向。AMI Labs 的 10 亿美金,只是这股洪流中的一朵大浪。
杨立坤押的,其实是认知科学一道悬置了半个世纪的老问题的现代版本:智能,是被语言塑造的,还是被世界塑造的?
四、身体不是可选项
世界模型能在纯虚拟环境里训练出来吗?还是说,身体——一具能摔倒、能触碰、能感到疼的身体——是必要条件?
这个问题背后,藏着具身智能最容易被误解的一点。很多人以为具身智能就是"把 AI 装进机器人壳里",那只是产品形态。真正的断言要强得多:没有身体,就没有世界。
梅洛-庞蒂(Maurice Merleau-Ponty)在《知觉现象学》里有一句话大意如此:人不是先看到世界然后在世界里行动,而是通过行动才看到世界。手伸向杯子的动作,塑造了"杯子"对你而言是什么。婴儿不是先认识"桌子"再去触碰它——他是通过爬向桌子、被桌子挡住、伸手摸到桌面的边,才把"桌子"这个概念从一团混沌的感知里剥离出来。
这个听起来像哲学的观点,在当代神经科学里有了形式化的版本。Karl Friston 的**自由能量原理(Free Energy Principle)**认为:大脑不是被动接收外部输入的解码器,它是一个持续生成预测、用身体的行动去测试预测、再根据偏差更新预测的系统。认知是一个闭合的回路,而身体恰好是这个回路里无法被省略的那一段。
换一种说法:身体不是智能的容器,身体是智能的器官。
这解释了为什么 2025-2026 年人形机器人的产业突进不是一个孤立的硬件现象。Tesla Optimus、Boston Dynamics Atlas、Unitree G1——每一台在真实环境中执行任务的机器人,都是世界模型的一次物理实验。它们不是在"演一个聪明的样子",它们是在让算法第一次真正地撞上现实,并在撞击中被修改。
五、推理时计算,真的是例外吗?
站在 LLM 这条路上的人会反问:近两年,o1、o3、Claude、Gemini 的推理能力不是在持续突破吗?数学竞赛、编程、科研 benchmark 一个个被攻破。如果 LLM 是死路,它为什么还在进步?
这是一个诚实的反问,值得认真回答。
o 系列的进步来自一个新的范式,叫做推理时计算(Test-Time Compute):模型回答前先"想"更久,生成大量中间步骤,再从中挑选。这是货真价实的能力提升。但它提升的,是模型在已有表示空间里搜索的深度和质量——不是表示空间本身的结构。
象棋选手读完一千本棋书,你让他思考半小时再走棋,他会比思考五分钟走得好。但这不会把一个从未下过棋的人变成特级大师。棋感不是被算力堆出来的,棋感是在成千上万次真实对局中、在每一次失手的惩罚里长出来的。
推理时计算是放大器。放大器只能放大已经有的信号。如果底层的表示空间没有锚在真实世界上,再长的"思考"也只是更精致的自我重组——符号之间更复杂地绕路,而不是去往任何新的地方。
这不是少数派的看法。2025 年 AAAI 的大规模调查显示,76% 的 AI 研究者认为"继续扩展当前 LLM 架构以实现 AGI"不可能或非常不可能成功。这是领域内部已经浮出水面的主流判断。
六、智能从世界里长出来
需要澄清一件事:LLM 不会消失,也不该消失。它们在语言任务上是人类前所未见的工具,会长久地留在生产力栈里。问题从来不是"LLM 有没有用",而是"它能不能一路走到 AGI"。
当前的 LLM 是一台前所未见的文明压缩机。它把几千年来人类写下的一切压进权重,可以以惊人的速度检索、重组、再生。但一台压缩机再大,压缩的始终是已有的印记。它可以非常流畅地谈论重力,却无法发现一条新的物理定律——因为发现新定律所依赖的那种东西(在真实世界里长期的试错、被世界反复修正的经验),从未出现在它的输入里。它能写出任何一个人都未必写得出的句子,但它永远写不出它从未读过的世界。
世界模型和具身智能走的是一条相反的路:不从文明的出口进,而从文明的入口进。先让机器与世界发生持续的、带有代价的交互,在交互中形成对世界的抽象表示;再让语言作为这种表示的外层浮现——就像婴儿先爬、再看、再说,而不是反过来。
这条路慢得多。杨立坤自己的估计是,具身 AGI 的原型可能需要十年。
但慢本来就是它该有的样子。智能——如果这个词指的真的是我们以为的那个东西——从来不是被快速生产出来的,它是被世界一次又一次磨出来的。
我们目前拥有的,是人类语言的倒影。我们追问的,是语言之前的那个世界本身。
数据时效:2026-04