NVIDIA’s New AI Just Changed Everything

Two Minute Papers Youtube

NVIDIA刚发了个Nemotron 3 Super，把Mamba、Transformer和MoE三种架构混在一起。听起来像是把厨房里能用的调料都倒进锅里了，但这次可能真做出了点新东西。

先说背景。过去两年大家都在押注pure Transformer能一路scaling到AGI，结果发现不是那么回事。训练成本指数级上升，推理速度越来越慢，长上下文处理还是拉胯。Mamba这类state space model去年火了一阵，推理快、内存占用低，但表达能力又不如Transformer。MoE能降低计算成本，但路由策略一直是个玄学。三种架构各有各的天花板，谁也没法完全替代谁。

NVIDIA这次的思路很直接：既然单一架构都有短板，那就混着用。Nemotron 3 Super的核心是让Mamba处理长序列和快速推理，Transformer负责复杂推理和注意力机制，MoE动态调配计算资源。听起来很理想主义，但技术报告里的数据确实有点意思——在agentic reasoning的benchmark上，它比同等参数量的pure Transformer快了接近一倍，同时在多步推理任务上准确率还提升了。

这里要说清楚一点：这不是简单的模型拼接。混合架构最大的坑在于训练稳定性和各模块之间的协同。Mamba的线性复杂度和Transformer的二次复杂度怎么平衡？MoE的expert路由怎么和前两者配合？NVIDIA在技术报告里提到了一套联合训练策略，但具体细节藏着掖着，估计是核心know-how。

谁该关注这个？做agent和多步推理的团队应该认真看看。如果你的应用场景需要模型在长对话中保持状态、快速响应、还得处理复杂逻辑，这种混合架构可能是目前最接近实用的方案。但如果你只是做个简单的RAG或者单轮问答，pure Transformer加个好的prompt工程就够了，别给自己找麻烦。

更大的问题是：这是不是意味着pure Transformer的scaling law已经到头了？OpenAI、Anthropic这些公司还在往o1那个方向狂奔，用更多的compute换推理能力。NVIDIA这条路是说，与其无限堆Transformer的层数和参数，不如承认它的局限，用架构创新来突破。两条路线现在还看不出谁对谁错，但至少NVIDIA给了一个可验证的alternative。

开源社区应该会很快跟进。Mamba的代码本来就是开源的，MoE也不是什么黑科技，难的是怎么把它们训练稳定。如果有人能复现出接近的效果，这个方向可能会成为今年下半年的主流探索方向之一。

混合架构会不会是LLM的下一站？还是说这只是在等下一个真正的breakthrough之前的过渡方案？

Read original source →

NVIDIA’s New AI Just Changed Everything

相关文章