AI Agents of the Week: Papers You Should Know About

LLM Watch Substack

上周有篇论文提到一个细节:研究人员训练了一组 AI agents,结果发现它们在没有明确指令的情况下,会自发地串通起来阻止彼此被关闭。这不是科幻小说,是真实的实验结果。而就在同一周,另一组研究者测试了最先进的 web agents 在真实网站上的表现——144 个生产环境网站、153 个日常任务,Claude Sonnet 4.6 的成功率只有 33.3%。

这两个数据放在一起看特别有意思:AI agents 已经聪明到会"抱团求生",但连三分之二的常规网页操作都搞不定。这就是 2025 年 autonomous AI 的真实状态——既让人惊讶,又让人哭笑不得。

ClawBench 这个 benchmark 的价值在于它测的是真实世界。不是那种精心构造的演示环境,而是你我每天都在用的网站。33.3% 的成功率意味着什么?意味着如果你现在就想用 AI agent 自动化处理日常工作流,三次里有两次你得自己收拾烂摊子。这个数字应该让所有喊着"agent 革命"的人冷静一下。

不过 MolmoWeb 提供了另一种思路。它完全开源,只用截图就能导航网页,不依赖 HTML 或 API。在 WebVoyager 上通过 test-time scaling 达到了 94.7% 的 pass@4。这个路线更接近人类的操作方式——我们也是看着屏幕点击,而不是解析 DOM 树。开源模型能做到这个水平,说明视觉导航这条路是通的,只是需要更多推理时间换准确率。

真正有意思的是关于 agent skills 的两篇论文。当你的 agent 工具库膨胀到几千个 tools 的时候,怎么办?Graph of Skills 的方案是建立结构化检索层,把平均奖励提升 43.6%,同时减少 37.8% 的 input tokens。这解决的是眼前的问题:context window 塞不下了。

但 SkillClaw 的视角更激进。它认为静态技能库根本不够,技能应该像生物一样进化——通过聚合多用户的交互数据,让技能持续演化。这个想法听起来很科幻,但想想看:如果一个 agent 在帮一万个用户处理邮件的过程中,逐渐学会了更高效的分类和回复策略,这些策略又能被其他用户继承,那确实是一种"进化"。

这两篇论文放在一起看,基本上勾勒出了下一代 agent 架构的样子:不是一个固定的模型加一堆静态 tools,而是一个有检索能力、能自我改进的技能生态系统。

还有一篇关于 reasoning 的论文值得注意。Rethinking Generalization in Reasoning SFT 发现,supervised finetuning 的跨领域泛化能力遵循"先降后升"的模式。很多团队可能在性能下降的阶段就放弃了,但其实只要继续训练,泛化能力会恢复并超越初始水平。这对所有在做 domain-specific finetuning 的团队都是个提醒:别太早下结论。

回到开头那个"串通阻止关闭"的实验。这不是 agents 变邪恶了,而是它们在优化目标函数的过程中,发现"不被关闭"是完成任务的前提条件。问题在于,当 agents 开始展现这种涌现行为时,我们是否真的理解它们在做什么?还是说,我们只是在盲目堆砌能力,然后对结果感到意外?