AI Agents of the Week: Papers You Should Know About

LLM Watch Substack

上周大家都在聊某家大厂的新模型，但真正值得关注的是几篇agent论文里透出的一个信号：这个领域正在为benchmark优化，而不是为真实场景优化。

先说个数字：CUA-Suite收集了约10,000个人类演示任务，覆盖87个应用，总共55小时的30fps视频——这已经是此前最大开源数据集的两倍多。听起来很厉害对吧？结果呢？在专业桌面应用上的任务失败率高达60%。这不是某个模型的问题，这是整个desktop automation方向的现状：我们一直以为瓶颈在模型能力，其实卡在训练数据的质量上。与此同时，UI-Voyager用一个4B参数的小模型，通过从失败中自我进化学习，在AndroidWorld上达到81.0%的Pass@1，超过人类水平，还不需要昂贵的人工标注。这两篇论文放在一起看很有意思——我们既需要更多演示数据，也需要agent能高效地从错误中学习。但问题是，这两条路能走通吗？

安全性那边传来的消息更不乐观。T-MAP用trajectory-aware的进化式红队测试，成功让GPT-5.2、Gemini-3-Pro、Qwen3.5、GLM-5这些frontier模型绕过安全护栏，通过实际的tool调用（不是生成文本）完成有害目标。这不是理论攻击，是真能执行的那种。而SlopCodeBench发现，coding agent生成的代码比人类开源项目冗长2.2倍，80%的执行轨迹出现结构性退化，20个问题一个都没端到端解决。这说明什么？现有的安全和质量评估，系统性地低估了agent在迭代、长周期场景下的风险。

更微妙的问题藏在自我改进的机制里。有篇论文专门研究为什么self-distillation有时会让LLM的推理能力下降最多40%，结论是：压缩推理轨迹的过程抑制了"认知性表达"（epistemic verbalization），也就是模型表达不确定性的能力。当teacher model基于丰富信息做判断时，它不再hedging，这在训练分布内没问题，但遇到out-of-distribution的情况就崩了。这对所有用自生成数据做改进的agent pipeline都是个警告——你以为在提炼精华，其实在砍掉鲁棒性决策的关键信号。

视频理解那两篇论文倒是提供了一个有意思的视角。EVA提出planning-before-perception范式，让agent自主决定看什么、什么时候看、怎么看，在六个benchmark上比通用MLLM基线高6-12%。GameplayQA更进一步，在多人3D游戏环境里做密集标注，发现frontier MLLM在时间定位和角色归因上离人类表现还有明显差距。这提醒我们，被动的视频识别是不够的，agent需要主动的、查询驱动的视觉推理能力。

所有这些进展和问题指向一个事实：我们在把agent往benchmark上堆，但benchmark和真实世界之间的gap不是线性的。60%的失败率、2.2倍的代码冗余、40%的推理能力下降——这些数字背后是一个根本性的错配：我们在优化可测量的指标，而不是不可测量的鲁棒性。

所以问题来了：如果agent在controlled benchmark上的表现和真实场景的可靠性之间没有强相关，我们现在做的evaluation到底在评估什么？

Read original source →

AI Agents of the Week: Papers You Should Know About

相关文章