[AINews] Gemma 4: The best small Multimodal Open Models, dramatically better than Gemma 3 in every way

Latent.Space Substack

上周 Allen Institute 的动荡和 GPT-OSS 的停摆让很多人开始担心美国开源模型的未来，Google DeepMind 这时候推出 Gemma 4，时机选得够准。但真正让人眼前一亮的不是发布本身，而是一个违反直觉的事实：31B 参数的 Gemma 4 在 Arena 排行榜上跟 Kimi K2.5（744B 总参数）和智谱 GLM-5（1T 总参数）打成平手。这不是渐进式改进，这是参数效率的代际跃迁。

先说几个硬指标。GPQA Diamond 85.7%，AIME 数学推理大幅提升，Arena 开源模型榜第三。更关键的是，Gemma 4 26B MoE 版本（实际激活 4B）在 M2 Ultra 上能跑到 300 tokens/s，RTX 4090 上长上下文吞吐也很扎实。这意味着什么？意味着以前需要云端 API 才能完成的推理任务，现在可以在你的工作站上实时完成。视频理解、OCR、图表分析、语音识别，全都是 native 支持，不是拼凑出来的多模态。

架构层面有些细节值得琢磨。Gemma 4 用了很多非标准 transformer 的设计：per-layer embeddings、没有显式 attention scale（可能融进了 QK norm）、激进的 KV cache 共享、不同 theta 的 partial RoPE、softcapping。MoE 的实现方式也跟 DeepSeek 和 Qwen 不一样，它把 MoE block 当独立层加在普通 MLP 旁边，而不是替换掉 MLP。Sebastian Raschka 的观点更保守：31B dense 版本架构跟 Gemma 3 27B 差别不大，依然是 5:1 的 local/global hybrid attention 加 GQA，真正的提升可能更多来自训练配方和数据质量。

但架构不是重点，生态才是。Gemma 4 发布当天就有 llama.cpp、Ollama、vLLM、LM Studio、transformers.js 的完整支持。你能在浏览器里通过 WebGPU 跑 Gemma 4，能用 `brew install` 一行命令起一个本地 server，能在 M2 Ultra 上用 llama.cpp 的 WebUI 实时处理视频流。这种 day-0 生态覆盖不是偶然，这是 Google 在刻意经营开源社区的信任。Apache 2.0 许可证的切换也是信号——之前 Gemma 的授权条款一直被诟病，这次彻底放开了。

更有意思的是 agent 方向的定位。Gemma 4 被明确包装成"推理 + agentic workflows"的本地模型，配合 Hermes Agent、OpenClaw 这些开源 agent 框架。LangChain 的数据显示，过去 10 周 Azure OpenAI 流量占比从 8% 涨到 29%，企业用户在合规和成本压力下正在重新路由 LLM 调用。本地模型 + 开源 harness 的组合，对很多场景来说已经"够用"了。Axolotl 0.16 声称 MoE + LoRA 训练快 15 倍、省 40 倍内存，fine-tune 的门槛在快速下降。模型训练、trace 收集、harness 迭代形成的闭环，可能才是真正的护城河。

Jeff Dean 透露 Gemma 3 有 4 亿次下载和 10 万个衍生版本。Gemma 4 如果延续这个势头，加上 Apple 合作的传闻（on-device 能力太符合 New Siri 的需求了），Google 可能在用开源模型重新定义"edge AI"的边界。

一个值得想的问题：当 30B 参数的模型能在笔记本上实时跑多模态推理，云端大模型的溢价空间还剩多少？

Read original source →

[AINews] Gemma 4: The best small Multimodal Open Models, dramatically better than Gemma 3 in every way

相关文章