[AINews] Good Friday

Latent.Space Substack

Google 刚发布的 Gemma 4 这两天刷屏了,Apache 2.0 许可,26B MoE 在单张 4090 上跑出 162 tok/s,生态支持第一天就全到位——vLLM、llama.cpp、Ollama、Unsloth 全线跟进。但如果你以为这篇是来夸 Google 终于想通了的,那可能要失望了。真正值得聊的是另一条线:**模型本身已经不再是瓶颈,agent harness 才是。**

先说 Gemma 4 本身。这次发布确实漂亮:Demis Hassabis 声称它能打 10 倍参数量的模型,Keras 作者 François Chollet 说这是 Google 最强开放模型,社区最兴奋的是许可证——终于是"真开源"了,可以随便改、随便商用。硬件适配也快得离谱,Intel Xeon、Mac mini M4、甚至 iPhone 上都有人跑起来了。26B A4B 版本在 16GB 内存的 Mac mini 上能到 34 tok/s,TurboQuant 压缩后 31B 模型在 128K context 下只吃 4.9GB 显存。这些数字放一年前简直不可想象。

但有意思的地方在于,**同一天,开发者社区真正在传的是 Hermes Agent**。大量用户明确表示从 OpenClaw 切到 Hermes 后,长任务稳定性和成功率明显提升。Nous 团队这次不是发了个新模型,而是重构了整套 memory 架构——支持 Honcho、mem0、RetainDB 等一堆后端,插件化设计,开发者可以自己加 provider。更关键的是,Hermes 实现了"自主技能创建"和"可复用程序记忆",本质上是把 agent 的学习循环做进了 harness 里。

这里有个认知转折正在发生。以前大家觉得 agent 不行是因为模型不够聪明,现在模型"足够好"了,问题变成了:**你的 harness 能不能管理好记忆、工具调用、trace 分析和自我改进循环?** 一位开发者总结得很直白:现在的性能瓶颈是"harness 工程 + trace 数据 + fine-tune 循环",模型只是原料。这也解释了为什么 Anthropic 的 Claude Code 虽然模型强,但用户抱怨最多的是 rate limit 和"认知饱和"——同时开四个 agent session,资深工程师到中午就累瘫了。

更有意思的对比是,LangChain 刚给 Claude Code 做了个 tracing 插件,把 subagent、tool call、token usage 全记到 LangSmith 里,方便团队分析。但与此同时,开发者开始把 Gemma 4 + Hermes 当"本地 fallback"——不是因为它更强,而是因为**不受 API quota 限制,记忆和工具链完全可控**。有人直接在 MacBook Air M4 16GB 上跑起了完整 assistant,零 API key。

这里面有个更深的矛盾:闭源产品把 harness 和模型绑死了,记忆、工具、eval 全是黑盒。LangChain 的 Harrison Chase 说得很明确:"记忆不能被锁在专有 API 或专有 harness 里。" 而 Hermes 的爆发恰恰证明,**开放 harness + 足够好的开放模型,可能比闭源全家桶更适合需要深度定制和长期迭代的场景。**

还有个细节值得注意:METR 风格的"时间跨度"测试显示,模型在需要专家 3 小时完成的网络安全任务上,成功率每 9.8 个月翻倍(2024 年后加速到 5.7 个月)。但同时,Simon Willison 的观察是:**用好 coding agent 需要"每一寸资深工程经验",并行编排四个 agent 在认知上是 exhausting 的。** 换句话说,模型能力上去了,但人类的"agent 编排带宽"成了新瓶颈。

所以 Gemma 4 的真正意义不是"Google 终于开源了",而是它把"足够好的开放模型"这个门槛又往下拉了一截,让更多人可以把精力从"找更强的模型"转移到"做更好的 harness"。**如果你的团队还在等 GPT-5 或 Opus 5 来解决 agent 问题,可能方向就错了。**