Googles Gemma 4 Just Shocked The AI Industry

TheAIGRID Youtube

Gemma 4这个名字最近在timeline上刷了一波存在感,标题都是"震惊AI行业"这种老套路。我点进去看了,发现事情没那么简单。

Google这次发布的Gemma 4确实有些东西,但更值得关注的是他们在小模型上的策略转向。这是一个27B参数的模型,对标的是Llama 3.1 70B和Claude 3.5 Haiku这个级别。关键数据是:在多个benchmark上,Gemma 4用更小的参数量打平甚至超过了那些大哥。MMLU上92.3%,跟70B的Llama 3.1基本持平,但inference成本和latency都低了一个量级。

这件事有意思的地方不是性能数字本身,而是Google终于想明白了一件事:开源模型的战场不在谁能堆出最大的参数量,而在谁能用最经济的方式deliver生产可用的能力。你看Meta一直在往大了做,Llama 3.1直接上了405B,但实际部署的时候,有几个team真的用得起那个规格?大部分人最后还是回到8B或者70B。Google这次直接瞄准这个sweet spot,用27B做到了别人70B的效果。

技术上他们用了什么黑魔法我没看到详细paper,但从结果倒推,应该是在distillation和训练数据质量上下了功夫。这两年大家都在验证一个假设:与其无脑scale,不如在数据清洗、合成数据生成、还有训练recipe上精细化。Gemma 4看起来是这个路线的一个成功案例。

对工程师来说,这个模型最实际的价值是部署成本。27B意味着你可以在单张H100上跑起来,不需要multi-GPU setup,这对很多中小团队是质的区别。API调用成本也会更低,如果你在做agent或者RAG应用,这种成本差异会在规模化的时候被放大。

但我得说,Google在开源模型这件事上还是有点精神分裂。一边用Gemini打商业化,一边用Gemma做开源社区。这两条线的协同始终没做好。Gemma 4性能是不错,但生态和工具链还是比不过Llama系列。你去Hugging Face上看,围绕Llama的fine-tune教程、优化工具、社区模型,数量级就不是一个层面的。

所以如果你在选型,Gemma 4值得测一测,特别是如果你对成本敏感,或者需要在edge device上部署。但如果你的场景需要大量社区资源支持,或者要做深度定制,Llama生态可能还是更稳妥的选择。

这场小模型的军备竞赛才刚开始,接下来几个月应该会看到更多类似的发布。问题是:当所有人都能做出"够用"的小模型时,差异化会在哪里?