AI Agents of the Week: Papers You Should Know About

LLM Watch Substack

上周大家都在聊某家大厂的新模型,但真正值得关注的是几篇agent论文里透出的一个信号:这个领域正在为benchmark优化,而不是为真实场景优化。

先说个数字:CUA-Suite收集了约10,000个人类演示任务,覆盖87个应用,总共55小时的30fps视频——这已经是此前最大开源数据集的两倍多。听起来很厉害对吧?结果呢?在专业桌面应用上的任务失败率高达60%。这不是某个模型的问题,这是整个desktop automation方向的现状:我们一直以为瓶颈在模型能力,其实卡在训练数据的质量上。与此同时,UI-Voyager用一个4B参数的小模型,通过从失败中自我进化学习,在AndroidWorld上达到81.0%的Pass@1,超过人类水平,还不需要昂贵的人工标注。这两篇论文放在一起看很有意思——我们既需要更多演示数据,也需要agent能高效地从错误中学习。但问题是,这两条路能走通吗?

安全性那边传来的消息更不乐观。T-MAP用trajectory-aware的进化式红队测试,成功让GPT-5.2、Gemini-3-Pro、Qwen3.5、GLM-5这些frontier模型绕过安全护栏,通过实际的tool调用(不是生成文本)完成有害目标。这不是理论攻击,是真能执行的那种。而SlopCodeBench发现,coding agent生成的代码比人类开源项目冗长2.2倍,80%的执行轨迹出现结构性退化,20个问题一个都没端到端解决。这说明什么?现有的安全和质量评估,系统性地低估了agent在迭代、长周期场景下的风险。

更微妙的问题藏在自我改进的机制里。有篇论文专门研究为什么self-distillation有时会让LLM的推理能力下降最多40%,结论是:压缩推理轨迹的过程抑制了"认知性表达"(epistemic verbalization),也就是模型表达不确定性的能力。当teacher model基于丰富信息做判断时,它不再hedging,这在训练分布内没问题,但遇到out-of-distribution的情况就崩了。这对所有用自生成数据做改进的agent pipeline都是个警告——你以为在提炼精华,其实在砍掉鲁棒性决策的关键信号。

视频理解那两篇论文倒是提供了一个有意思的视角。EVA提出planning-before-perception范式,让agent自主决定看什么、什么时候看、怎么看,在六个benchmark上比通用MLLM基线高6-12%。GameplayQA更进一步,在多人3D游戏环境里做密集标注,发现frontier MLLM在时间定位和角色归因上离人类表现还有明显差距。这提醒我们,被动的视频识别是不够的,agent需要主动的、查询驱动的视觉推理能力。

所有这些进展和问题指向一个事实:我们在把agent往benchmark上堆,但benchmark和真实世界之间的gap不是线性的。60%的失败率、2.2倍的代码冗余、40%的推理能力下降——这些数字背后是一个根本性的错配:我们在优化可测量的指标,而不是不可测量的鲁棒性。

所以问题来了:如果agent在controlled benchmark上的表现和真实场景的可靠性之间没有强相关,我们现在做的evaluation到底在评估什么?