NVIDIA’s New AI Just Changed Everything

Two Minute Papers Youtube

NVIDIA刚发了个Nemotron 3 Super,把Mamba、Transformer和MoE三种架构混在一起。听起来像是把厨房里能用的调料都倒进锅里了,但这次可能真做出了点新东西。

先说背景。过去两年大家都在押注pure Transformer能一路scaling到AGI,结果发现不是那么回事。训练成本指数级上升,推理速度越来越慢,长上下文处理还是拉胯。Mamba这类state space model去年火了一阵,推理快、内存占用低,但表达能力又不如Transformer。MoE能降低计算成本,但路由策略一直是个玄学。三种架构各有各的天花板,谁也没法完全替代谁。

NVIDIA这次的思路很直接:既然单一架构都有短板,那就混着用。Nemotron 3 Super的核心是让Mamba处理长序列和快速推理,Transformer负责复杂推理和注意力机制,MoE动态调配计算资源。听起来很理想主义,但技术报告里的数据确实有点意思——在agentic reasoning的benchmark上,它比同等参数量的pure Transformer快了接近一倍,同时在多步推理任务上准确率还提升了。

这里要说清楚一点:这不是简单的模型拼接。混合架构最大的坑在于训练稳定性和各模块之间的协同。Mamba的线性复杂度和Transformer的二次复杂度怎么平衡?MoE的expert路由怎么和前两者配合?NVIDIA在技术报告里提到了一套联合训练策略,但具体细节藏着掖着,估计是核心know-how。

谁该关注这个?做agent和多步推理的团队应该认真看看。如果你的应用场景需要模型在长对话中保持状态、快速响应、还得处理复杂逻辑,这种混合架构可能是目前最接近实用的方案。但如果你只是做个简单的RAG或者单轮问答,pure Transformer加个好的prompt工程就够了,别给自己找麻烦。

更大的问题是:这是不是意味着pure Transformer的scaling law已经到头了?OpenAI、Anthropic这些公司还在往o1那个方向狂奔,用更多的compute换推理能力。NVIDIA这条路是说,与其无限堆Transformer的层数和参数,不如承认它的局限,用架构创新来突破。两条路线现在还看不出谁对谁错,但至少NVIDIA给了一个可验证的alternative。

开源社区应该会很快跟进。Mamba的代码本来就是开源的,MoE也不是什么黑科技,难的是怎么把它们训练稳定。如果有人能复现出接近的效果,这个方向可能会成为今年下半年的主流探索方向之一。

混合架构会不会是LLM的下一站?还是说这只是在等下一个真正的breakthrough之前的过渡方案?