[AINews] Good Friday

Latent.Space Substack

Google 刚发布的 Gemma 4 这两天刷屏了，Apache 2.0 许可，26B MoE 在单张 4090 上跑出 162 tok/s，生态支持第一天就全到位——vLLM、llama.cpp、Ollama、Unsloth 全线跟进。但如果你以为这篇是来夸 Google 终于想通了的，那可能要失望了。真正值得聊的是另一条线：**模型本身已经不再是瓶颈，agent harness 才是。**

先说 Gemma 4 本身。这次发布确实漂亮：Demis Hassabis 声称它能打 10 倍参数量的模型，Keras 作者 François Chollet 说这是 Google 最强开放模型，社区最兴奋的是许可证——终于是"真开源"了，可以随便改、随便商用。硬件适配也快得离谱，Intel Xeon、Mac mini M4、甚至 iPhone 上都有人跑起来了。26B A4B 版本在 16GB 内存的 Mac mini 上能到 34 tok/s，TurboQuant 压缩后 31B 模型在 128K context 下只吃 4.9GB 显存。这些数字放一年前简直不可想象。

但有意思的地方在于，**同一天，开发者社区真正在传的是 Hermes Agent**。大量用户明确表示从 OpenClaw 切到 Hermes 后，长任务稳定性和成功率明显提升。Nous 团队这次不是发了个新模型，而是重构了整套 memory 架构——支持 Honcho、mem0、RetainDB 等一堆后端，插件化设计，开发者可以自己加 provider。更关键的是，Hermes 实现了"自主技能创建"和"可复用程序记忆"，本质上是把 agent 的学习循环做进了 harness 里。

这里有个认知转折正在发生。以前大家觉得 agent 不行是因为模型不够聪明，现在模型"足够好"了，问题变成了：**你的 harness 能不能管理好记忆、工具调用、trace 分析和自我改进循环？** 一位开发者总结得很直白：现在的性能瓶颈是"harness 工程 + trace 数据 + fine-tune 循环"，模型只是原料。这也解释了为什么 Anthropic 的 Claude Code 虽然模型强，但用户抱怨最多的是 rate limit 和"认知饱和"——同时开四个 agent session，资深工程师到中午就累瘫了。

更有意思的对比是，LangChain 刚给 Claude Code 做了个 tracing 插件，把 subagent、tool call、token usage 全记到 LangSmith 里，方便团队分析。但与此同时，开发者开始把 Gemma 4 + Hermes 当"本地 fallback"——不是因为它更强，而是因为**不受 API quota 限制，记忆和工具链完全可控**。有人直接在 MacBook Air M4 16GB 上跑起了完整 assistant，零 API key。

这里面有个更深的矛盾：闭源产品把 harness 和模型绑死了，记忆、工具、eval 全是黑盒。LangChain 的 Harrison Chase 说得很明确："记忆不能被锁在专有 API 或专有 harness 里。" 而 Hermes 的爆发恰恰证明，**开放 harness + 足够好的开放模型，可能比闭源全家桶更适合需要深度定制和长期迭代的场景。**

还有个细节值得注意：METR 风格的"时间跨度"测试显示，模型在需要专家 3 小时完成的网络安全任务上，成功率每 9.8 个月翻倍（2024 年后加速到 5.7 个月）。但同时，Simon Willison 的观察是：**用好 coding agent 需要"每一寸资深工程经验"，并行编排四个 agent 在认知上是 exhausting 的。** 换句话说，模型能力上去了，但人类的"agent 编排带宽"成了新瓶颈。

所以 Gemma 4 的真正意义不是"Google 终于开源了"，而是它把"足够好的开放模型"这个门槛又往下拉了一截，让更多人可以把精力从"找更强的模型"转移到"做更好的 harness"。**如果你的团队还在等 GPT-5 或 Opus 5 来解决 agent 问题，可能方向就错了。**

Read original source →

[AINews] Good Friday

相关文章