Googles Gemma 4 Just Shocked The AI Industry

TheAIGRID Youtube

Gemma 4这个名字最近在timeline上刷了一波存在感，标题都是"震惊AI行业"这种老套路。我点进去看了，发现事情没那么简单。

Google这次发布的Gemma 4确实有些东西，但更值得关注的是他们在小模型上的策略转向。这是一个27B参数的模型，对标的是Llama 3.1 70B和Claude 3.5 Haiku这个级别。关键数据是：在多个benchmark上，Gemma 4用更小的参数量打平甚至超过了那些大哥。MMLU上92.3%，跟70B的Llama 3.1基本持平，但inference成本和latency都低了一个量级。

这件事有意思的地方不是性能数字本身，而是Google终于想明白了一件事：开源模型的战场不在谁能堆出最大的参数量，而在谁能用最经济的方式deliver生产可用的能力。你看Meta一直在往大了做，Llama 3.1直接上了405B，但实际部署的时候，有几个team真的用得起那个规格？大部分人最后还是回到8B或者70B。Google这次直接瞄准这个sweet spot，用27B做到了别人70B的效果。

技术上他们用了什么黑魔法我没看到详细paper，但从结果倒推，应该是在distillation和训练数据质量上下了功夫。这两年大家都在验证一个假设：与其无脑scale，不如在数据清洗、合成数据生成、还有训练recipe上精细化。Gemma 4看起来是这个路线的一个成功案例。

对工程师来说，这个模型最实际的价值是部署成本。27B意味着你可以在单张H100上跑起来，不需要multi-GPU setup，这对很多中小团队是质的区别。API调用成本也会更低，如果你在做agent或者RAG应用，这种成本差异会在规模化的时候被放大。

但我得说，Google在开源模型这件事上还是有点精神分裂。一边用Gemini打商业化，一边用Gemma做开源社区。这两条线的协同始终没做好。Gemma 4性能是不错，但生态和工具链还是比不过Llama系列。你去Hugging Face上看，围绕Llama的fine-tune教程、优化工具、社区模型，数量级就不是一个层面的。

所以如果你在选型，Gemma 4值得测一测，特别是如果你对成本敏感，或者需要在edge device上部署。但如果你的场景需要大量社区资源支持，或者要做深度定制，Llama生态可能还是更稳妥的选择。

这场小模型的军备竞赛才刚开始，接下来几个月应该会看到更多类似的发布。问题是：当所有人都能做出"够用"的小模型时，差异化会在哪里？

Read original source →

Googles Gemma 4 Just Shocked The AI Industry

相关文章