NVIDIA’s New AI Shouldn’t Work…But It Does

Two Minute Papers Youtube

前两天看到NVIDIA这个新模型，第一反应是：这玩意儿按教科书应该是跑不通的。但它不仅跑通了，效果还好得离谱。

这个叫DreamDojo的东西做的是world model——让AI理解物理世界怎么运转。听起来很玄，但本质就是给AI看一堆视频，让它学会预测"如果我这么动，世界会发生什么"。这事儿OpenAI在搞，Google在搞，现在NVIDIA也端出了自己的方案。但NVIDIA这次走的路子很邪门。

传统做法是什么？大力出奇迹。堆transformer，堆数据，堆GPU时间，用暴力scale把模型喂饱。但DreamDojo反其道而行——它用了一套看起来"不够现代"的架构组合，没有追最新的attention变体，也没有玩什么花哨的self-supervised learning技巧。按现在的审美标准，这设计拿去投顶会可能都会被reviewer质疑"创新不足"。

但魔幻的地方就在这儿：它work了，而且work得很好。在几个关键benchmark上，DreamDojo的sample efficiency（用更少数据学到同样能力）明显优于那些"正统"方案。更要命的是inference速度，因为架构简单，它在实际部署时的latency控制得相当漂亮。这对要做real-time decision的robotics应用来说，是真金白银的优势。

这让我想起早年做CV的时候，大家都在卷复杂网络结构，结果MobileNet用depthwise convolution这种"老土"操作反而在移动端杀疯了。技术圈有时候会陷入一种集体迷思，觉得新paper里的trick就一定比旧方法好，但工程现实是：能稳定跑、能快速迭代、能低成本部署的方案，往往比那些在leaderboard上刷到第一但需要8卡A100才能复现的模型更有生命力。

NVIDIA这次的打法其实透露了一个信号：world model这个赛道，可能不是单纯的"谁模型大谁赢"。它更像是个系统工程问题——你需要在表达能力、训练效率、推理速度之间找到那个甜蜜点。特别是对要落地到robotics或者autonomous driving的团队，DreamDojo这种"够用就好"的哲学可能比追SOTA更实际。

当然，这东西现在还是research preview，真要说能直接拿去产品化还早。但如果你的团队在做agent相关的东西，需要让模型理解action的consequence，这个方向值得盯着。至少它证明了一件事：在这个领域，architectural simplicity可能不是劣势，反而是feature。

所以问题来了：我们是不是在其他AI方向上，也过度迷信complexity了？

Read original source →

NVIDIA’s New AI Shouldn’t Work…But It Does

相关文章