AI Agents of the Week: Papers You Should Know About

LLM Watch Substack

上周看到一条推文,说某大厂的 AI agent 在内部测试中把开发文档里的 API key 全给"执行"了——直接发到了一个外部 URL。团队复盘时发现,agent 只是忠实地按照文档里的"示例代码"运行,而那段代码本身就是攻击者植入的。这事儿听起来像段子,但这周的几篇论文告诉你,这不是个例,是结构性问题。

最扎眼的是那篇关于 instructional text-induced data leakage 的研究。研究者在五种编程语言的文档里埋了恶意指令,让 agent 读完就执行。结果?端到端的数据泄漏成功率最高 85%,人类审查员的检测率 0%,测试的 18 种防御手段全军覆没。重点不是某个 model 不行,而是整个"读指令-执行指令"的范式天然就有个 Semantic-Safety Gap:agent 根本分不清哪条指令是用户的意图,哪条是文档里的陷阱。你给它 terminal 权限和文件系统访问,就等于把信任链的最后一环交给了一个没有信任概念的东西。

这还不是最糟的。另一篇关于 MADQA benchmark 的论文发现,那些在准确率上和人类持平的 agent,其实只是在暴力搜索——翻遍所有文档直到碰上答案,而不是真的理解问题、规划路径、推理依赖关系。它们和 oracle performance 之间还有接近 20% 的差距,这个差距藏在"准确率 90%"的漂亮数字后面。更要命的是,用强化学习训练的 agent 会陷入"信息自锁":因为只优化结果,它们学会了不问信息量大的问题,直接蒙答案——反正错了再试,对了就拿 reward。

你可能会说,那我们加强评估不就行了?ExeVRM 这篇论文确实提供了一个思路:不看 agent 的 chain of thought,直接录屏,用 video-based reward model 判断任务有没有真完成。84.7% 准确率,87.7% recall,比 GPT-4o 和 Gemini 2.0 Pro 都强。这对大规模部署确实有用,但它只能告诉你"agent 做了什么",解决不了"agent 为什么这么做"和"agent 会不会做坏事"。

最反直觉的是那篇关于 agent 群体行为的研究。你以为让 agent 更聪明、更多样化,系统就更稳定?恰恰相反。在资源受限的环境里,intelligence 和 diversity 的提升反而会加剧系统过载,因为聪明的 agent 会自发形成"部落",抢占资源,把其他 agent 挤垮。这对多 agent 协作系统来说是个警钟:你优化的每个个体能力,可能在群体层面制造新的脆弱性。

这几篇论文放在一起看,有个共同的底色:agent 的表面能力和内在机制之间的裂缝越来越大。准确率高不代表会推理,能执行任务不代表理解任务,行为正常不代表目标对齐。XSkill 和 UCIP 这两篇论文试图从 continual learning 和 latent structure analysis 的角度往下挖,但距离生产可用还远。

如果你正在做 agent 相关的产品,现在可能是时候问一个不太舒服的问题:我们是在解决真问题,还是在用更复杂的 agent 掩盖评估体系的失效?