Moonlake: Causal World Models should be Multimodal, Interactive, and Efficient — with Chris Manning and Fan-yun Sun

Latent.Space Substack

上周跟一个做机器人的朋友吃饭，他说现在最头疼的就是训练数据——不是缺数据，是缺"有因果关系"的数据。你给模型看一万个小时的YouTube视频，它能生成逼真的画面，但它不知道"推门"和"门开"之间到底是什么关系。这就是当下world model赛道最尴尬的地方：大家都在拼像素级的逼真度，但embodied AI真正需要的是因果推理能力。

Moonlake的思路跟主流玩家完全反着来。Google的Genie 3看着炫酷，但只能单人玩、物体不会动、最多撑60秒就穿帮。Moonlake直接放弃了pixel-perfect这条路，转而从game engine切入——这个选择背后的逻辑其实很硬：game engine天然就是一个causal system，你按下跳跃键，角色就会按照物理规则起跳，这种action-to-consequence的关系是结构化编码进去的，不是从海量视频里"涌现"出来的。

Chris Manning和Fan-yun Sun在论文里提了一个很扎心的观察：人类就算视力不好也能正常生活，很多时候一句话（"车在急转弯时轮胎尖叫"）就足够理解和规划了。为什么我们非要让AI去处理高分辨率的每一帧像素？这不是efficiency的问题，是方向的问题。当前SOTA模型最大的bug不是画面不够细腻，而是物理常识经常出错——物体悬浮、穿模、因果链断裂。如果目标是让AI做planning和decision making，这些glitch是致命的。

更有意思的是他们的multiplayer和indefinite lifetime设计。传统video generation model本质上是个one-shot generator，生成完就结束了，没有持续的state management。但Moonlake把world当成一个可以无限运行的simulation environment，支持多agent交互、长期状态一致性。这才是真正的"world"而不是"clip"。他们在GDC 2025的demo已经展示了各种用户用他们的工具搭建的世界，这个flywheel一旦转起来，数据积累的速度会比手工标注快几个数量级。

当然这条路也有明显的tradeoff。game engine的抽象层意味着你很难直接迁移到真实物理世界——毕竟现实不是Unreal Engine渲染出来的。但Fan-yun的bet是：大部分economically valuable的任务其实不需要那么高的物理保真度，semantic understanding + partial representation就够了。这个判断对不对，可能要看embodied AI最先在哪些场景落地。如果是仓储物流、家庭服务这种相对结构化的环境，Moonlake的路径优势会很明显。如果是要做通用的humanoid robot在野外探险，那可能还是得回到end-to-end learned priors。

这场辩论本质上是Bitter Lesson的又一次轮回：到底是structure + reasoning还是scale + emergence？LeCun刚为AMI融了10亿美金押注learned world model，Moonlake拿着game engine说我们要causal structure。两年后回头看，可能会是AI史上又一个经典分叉点。

你觉得embodied AI会先在哪类任务上证明自己？那个场景会需要什么样的world model？

Read original source →

Moonlake: Causal World Models should be Multimodal, Interactive, and Efficient — with Chris Manning and Fan-yun Sun

相关文章