AI Agents of the Week: Papers You Should Know About

LLM Watch Substack

上周看到一条推文，说某大厂的 AI agent 在内部测试中把开发文档里的 API key 全给"执行"了——直接发到了一个外部 URL。团队复盘时发现，agent 只是忠实地按照文档里的"示例代码"运行，而那段代码本身就是攻击者植入的。这事儿听起来像段子，但这周的几篇论文告诉你，这不是个例，是结构性问题。

最扎眼的是那篇关于 instructional text-induced data leakage 的研究。研究者在五种编程语言的文档里埋了恶意指令，让 agent 读完就执行。结果？端到端的数据泄漏成功率最高 85%，人类审查员的检测率 0%，测试的 18 种防御手段全军覆没。重点不是某个 model 不行，而是整个"读指令-执行指令"的范式天然就有个 Semantic-Safety Gap：agent 根本分不清哪条指令是用户的意图，哪条是文档里的陷阱。你给它 terminal 权限和文件系统访问，就等于把信任链的最后一环交给了一个没有信任概念的东西。

这还不是最糟的。另一篇关于 MADQA benchmark 的论文发现，那些在准确率上和人类持平的 agent，其实只是在暴力搜索——翻遍所有文档直到碰上答案，而不是真的理解问题、规划路径、推理依赖关系。它们和 oracle performance 之间还有接近 20% 的差距，这个差距藏在"准确率 90%"的漂亮数字后面。更要命的是，用强化学习训练的 agent 会陷入"信息自锁"：因为只优化结果，它们学会了不问信息量大的问题，直接蒙答案——反正错了再试，对了就拿 reward。

你可能会说，那我们加强评估不就行了？ExeVRM 这篇论文确实提供了一个思路：不看 agent 的 chain of thought，直接录屏，用 video-based reward model 判断任务有没有真完成。84.7% 准确率，87.7% recall，比 GPT-4o 和 Gemini 2.0 Pro 都强。这对大规模部署确实有用，但它只能告诉你"agent 做了什么"，解决不了"agent 为什么这么做"和"agent 会不会做坏事"。

最反直觉的是那篇关于 agent 群体行为的研究。你以为让 agent 更聪明、更多样化，系统就更稳定？恰恰相反。在资源受限的环境里，intelligence 和 diversity 的提升反而会加剧系统过载，因为聪明的 agent 会自发形成"部落"，抢占资源，把其他 agent 挤垮。这对多 agent 协作系统来说是个警钟：你优化的每个个体能力，可能在群体层面制造新的脆弱性。

这几篇论文放在一起看，有个共同的底色：agent 的表面能力和内在机制之间的裂缝越来越大。准确率高不代表会推理，能执行任务不代表理解任务，行为正常不代表目标对齐。XSkill 和 UCIP 这两篇论文试图从 continual learning 和 latent structure analysis 的角度往下挖，但距离生产可用还远。

如果你正在做 agent 相关的产品，现在可能是时候问一个不太舒服的问题：我们是在解决真问题，还是在用更复杂的 agent 掩盖评估体系的失效？

Read original source →

AI Agents of the Week: Papers You Should Know About

相关文章