[AINews] Gemma 4: The best small Multimodal Open Models, dramatically better than Gemma 3 in every way

Latent.Space Substack

上周 Allen Institute 的动荡和 GPT-OSS 的停摆让很多人开始担心美国开源模型的未来,Google DeepMind 这时候推出 Gemma 4,时机选得够准。但真正让人眼前一亮的不是发布本身,而是一个违反直觉的事实:31B 参数的 Gemma 4 在 Arena 排行榜上跟 Kimi K2.5(744B 总参数)和智谱 GLM-5(1T 总参数)打成平手。这不是渐进式改进,这是参数效率的代际跃迁。

先说几个硬指标。GPQA Diamond 85.7%,AIME 数学推理大幅提升,Arena 开源模型榜第三。更关键的是,Gemma 4 26B MoE 版本(实际激活 4B)在 M2 Ultra 上能跑到 300 tokens/s,RTX 4090 上长上下文吞吐也很扎实。这意味着什么?意味着以前需要云端 API 才能完成的推理任务,现在可以在你的工作站上实时完成。视频理解、OCR、图表分析、语音识别,全都是 native 支持,不是拼凑出来的多模态。

架构层面有些细节值得琢磨。Gemma 4 用了很多非标准 transformer 的设计:per-layer embeddings、没有显式 attention scale(可能融进了 QK norm)、激进的 KV cache 共享、不同 theta 的 partial RoPE、softcapping。MoE 的实现方式也跟 DeepSeek 和 Qwen 不一样,它把 MoE block 当独立层加在普通 MLP 旁边,而不是替换掉 MLP。Sebastian Raschka 的观点更保守:31B dense 版本架构跟 Gemma 3 27B 差别不大,依然是 5:1 的 local/global hybrid attention 加 GQA,真正的提升可能更多来自训练配方和数据质量。

但架构不是重点,生态才是。Gemma 4 发布当天就有 llama.cpp、Ollama、vLLM、LM Studio、transformers.js 的完整支持。你能在浏览器里通过 WebGPU 跑 Gemma 4,能用 `brew install` 一行命令起一个本地 server,能在 M2 Ultra 上用 llama.cpp 的 WebUI 实时处理视频流。这种 day-0 生态覆盖不是偶然,这是 Google 在刻意经营开源社区的信任。Apache 2.0 许可证的切换也是信号——之前 Gemma 的授权条款一直被诟病,这次彻底放开了。

更有意思的是 agent 方向的定位。Gemma 4 被明确包装成"推理 + agentic workflows"的本地模型,配合 Hermes Agent、OpenClaw 这些开源 agent 框架。LangChain 的数据显示,过去 10 周 Azure OpenAI 流量占比从 8% 涨到 29%,企业用户在合规和成本压力下正在重新路由 LLM 调用。本地模型 + 开源 harness 的组合,对很多场景来说已经"够用"了。Axolotl 0.16 声称 MoE + LoRA 训练快 15 倍、省 40 倍内存,fine-tune 的门槛在快速下降。模型训练、trace 收集、harness 迭代形成的闭环,可能才是真正的护城河。

Jeff Dean 透露 Gemma 3 有 4 亿次下载和 10 万个衍生版本。Gemma 4 如果延续这个势头,加上 Apple 合作的传闻(on-device 能力太符合 New Siri 的需求了),Google 可能在用开源模型重新定义"edge AI"的边界。

一个值得想的问题:当 30B 参数的模型能在笔记本上实时跑多模态推理,云端大模型的溢价空间还剩多少?