[AINews] A quiet April Fools

Latent.Space Substack

愚人节前后,Open-weight reasoning 模型和 Claude Code 泄露事件正在悄悄改写 coding agent 的竞争格局。有意思的是,真正值得关注的不是哪家又发了个模型,而是整个游戏规则在发生什么变化。

先说 Arcee 的 Trinity-Large-Thinking。400B 总参数、13B 激活的 MoE 架构,Apache 2.0 开源,在 PinchBench 上排第二,仅次于 Opus 4.6。这个模型本身不算惊艳,但它的定位很明确:给那些想自己 host、distill、post-train 的企业用的。Prime Intellect 和 Datology 这些基础设施玩家迅速跟进,强调的是"小团队也能以生产成本伺服 400B 级模型"。这个叙事背后的信号是,open-weight reasoning 模型的部署门槛正在快速降低,不再是大厂的专利。

Claude Code 的源码泄露更有意思。ZhihuFrontier 的技术拆解值得细看:核心 agent 逻辑就是一个 `while(true)` 循环,复杂度全在 context 管理、工具调用和产品化细节上。四层 context 压缩栈(HISTORY_SNIP、Microcompact、CONTEXT_COLLAPSE、Autocompact),流式加并行工具执行,静默重试,40+ 工具的模块化架构。没有过度设计的继承体系,大量 feature flags 和生产环境 ablation。这套东西一旦被看透,护城河就从"算法黑盒"变成了"产品打磨"和"工程积累"。

泄露的连锁反应更值得玩味。Anthropic 的 DMCA 误伤了没包含泄露代码的 fork,Theo 公开质疑程序合规性,随后官方道歉并恢复 repo。这种操作在开源社区的舆论成本极高。与此同时,泄露的 Claude Code fork 一天内拿到 11 万 GitHub stars,Nous Hermes Agent 被多个开发者称赞"比 OpenClaw 和 Claude 衍生栈更好部署"。这不是技术胜负,是生态位的重新洗牌。

更深层的问题是:当 agent 的编排模式变得透明,剩下的竞争点是什么?一个方向是 memory 和 context 管理。Baseten 的 7M 参数 perceiver 能把 KV cache 压缩 8 倍,保留 90% 以上的事实准确率;MemFactory 提出统一的 inference/training 框架,原生支持 GRPO,相对 baseline 提升 14.8%。另一个方向是 multi-agent 协调。DAIR 的研究在 25,000 个任务、256 个 agent 的规模上测试,发现自组织角色比手写的 planner/coder/reviewer 层级更有效,顺序协调协议比中心化方案高 14%。但 MIT 的理论工作泼了冷水:如果 agent 之间没有访问真正不同的信息源,delegated multi-agent 在决策理论上就输给中心化的 Bayes 决策者。实践中的平衡点可能是:multi-agent 的价值在于分区工具、环境或检索通道,而不是简单拆分 prompt。

安全问题也在浮出水面。DeepMind 的新论文把 agent 攻击面重新定义为"网页和文档中的对抗性内容",而不只是 model jailbreak。HTML/CSS 中的隐藏 prompt injection 成功率高达 86%,潜在的 memory poisoning 只需污染不到 0.1% 的数据就能达到 80% 以上的攻击成功率。这对所有做 browse/retrieval-heavy agent 的团队来说都是实打实的风险。

这波变化的本质是什么?Open-weight reasoning 模型 + 泄露的编排范式 + 成熟的 post-training 工具链(TRL v1.0、各种 RL 框架),正在把 coding agent 从"大厂黑盒服务"变成"可组装的开放生态"。问题是,当技术栈变得透明且可复制,谁能在产品体验、部署成本和生态整合上建立新的护城河?