Moonlake: Causal World Models should be Multimodal, Interactive, and Efficient — with Chris Manning and Fan-yun Sun

Latent.Space Substack

上周跟一个做机器人的朋友吃饭,他说现在最头疼的就是训练数据——不是缺数据,是缺"有因果关系"的数据。你给模型看一万个小时的YouTube视频,它能生成逼真的画面,但它不知道"推门"和"门开"之间到底是什么关系。这就是当下world model赛道最尴尬的地方:大家都在拼像素级的逼真度,但embodied AI真正需要的是因果推理能力。

Moonlake的思路跟主流玩家完全反着来。Google的Genie 3看着炫酷,但只能单人玩、物体不会动、最多撑60秒就穿帮。Moonlake直接放弃了pixel-perfect这条路,转而从game engine切入——这个选择背后的逻辑其实很硬:game engine天然就是一个causal system,你按下跳跃键,角色就会按照物理规则起跳,这种action-to-consequence的关系是结构化编码进去的,不是从海量视频里"涌现"出来的。

Chris Manning和Fan-yun Sun在论文里提了一个很扎心的观察:人类就算视力不好也能正常生活,很多时候一句话("车在急转弯时轮胎尖叫")就足够理解和规划了。为什么我们非要让AI去处理高分辨率的每一帧像素?这不是efficiency的问题,是方向的问题。当前SOTA模型最大的bug不是画面不够细腻,而是物理常识经常出错——物体悬浮、穿模、因果链断裂。如果目标是让AI做planning和decision making,这些glitch是致命的。

更有意思的是他们的multiplayer和indefinite lifetime设计。传统video generation model本质上是个one-shot generator,生成完就结束了,没有持续的state management。但Moonlake把world当成一个可以无限运行的simulation environment,支持多agent交互、长期状态一致性。这才是真正的"world"而不是"clip"。他们在GDC 2025的demo已经展示了各种用户用他们的工具搭建的世界,这个flywheel一旦转起来,数据积累的速度会比手工标注快几个数量级。

当然这条路也有明显的tradeoff。game engine的抽象层意味着你很难直接迁移到真实物理世界——毕竟现实不是Unreal Engine渲染出来的。但Fan-yun的bet是:大部分economically valuable的任务其实不需要那么高的物理保真度,semantic understanding + partial representation就够了。这个判断对不对,可能要看embodied AI最先在哪些场景落地。如果是仓储物流、家庭服务这种相对结构化的环境,Moonlake的路径优势会很明显。如果是要做通用的humanoid robot在野外探险,那可能还是得回到end-to-end learned priors。

这场辩论本质上是Bitter Lesson的又一次轮回:到底是structure + reasoning还是scale + emergence?LeCun刚为AMI融了10亿美金押注learned world model,Moonlake拿着game engine说我们要causal structure。两年后回头看,可能会是AI史上又一个经典分叉点。

你觉得embodied AI会先在哪类任务上证明自己?那个场景会需要什么样的world model?