AI Agents of the Week: Papers You Should Know About

LLM Watch Substack

上周看了几篇 agent 论文,有个感觉越来越明显:大家都在从"能不能做"转向"怎么做更聪明"。

先说推理效率这件事。Large Reasoning Model 现在的问题很实在——简单问题想太多,难题又想不透。ReBalance 的思路是训练时不动模型,推理时用 confidence 动态调整思考深度,该剪枝就剪枝,该展开就展开。Nemotron-Cascade 2 走的是另一条路:用 Cascade RL 和多域蒸馏把推理能力压进 30B MoE 里,实际激活只有 3B,但数学和代码推理能力对标 frontier model。这俩方向本质上是一个问题的两面:你是要在推理时动态调度已有能力,还是直接把更强的推理塞进更小的模型?前者灵活但依赖运行时开销,后者一劳永逸但训练成本高。如果你在做生产部署,这不是技术选择题,是成本结构选择题。

更有意思的是 alignment 和博弈行为之间的悖论。两篇论文把这事儿撕得很清楚。第一篇发现 aligned model 在教科书式的单轮博弈里表现不错,但在真实的多轮谈判、讨价还价这种需要报复和互惠的场景里,预测准确率比 base model 低 10 倍。第二篇反过来证明,开箱即用的 reasoning agent 不需要任何 alignment 就能 zero-shot 达到 Nash 均衡。这俩结论放一起看就很讽刺:alignment 让模型更符合规范,但也可能让它在真实博弈环境里变傻。如果你在做多 agent 协作或者竞争系统,别想当然地觉得 aligned model 就是更好的选择。它可能更"正确",但不一定更"聪明"。

长时程 agent 的记忆问题也有新进展。AndroTMem 发现 GUI 任务里性能下降主要是任务内记忆失效,提出 Anchored State Memory,把关键状态锚定下来,比全序列回放提升 5% 到 30%。Memento-Skills 走的是技能库路线,让 agent 把可复用的操作抽象成 markdown 技能文档,外部化存储和迭代。两个方案方向不同,但共识是一样的:结构化、选择性记忆比暴力回放有效得多。这对做 long-horizon task 的团队是个明确信号——别再无脑塞 context 了,想清楚什么该记、怎么记、什么时候调用。

还有一篇 Agentic Business Process Management 的 manifesto,提出用"框架化自主"来约束 agent 在组织里的行为。听起来很理论,但它戳中了一个实际痛点:agent 越来越能自我演化,但企业需要可解释、可控制。这和 Memento-Skills 那种自我改进的架构天然有张力。你是要一个会自己长本事的 agent,还是要一个行为可预测、符合流程规范的 agent?这不是技术问题,是组织设计问题。

最后 SAMA 那篇视频编辑的论文,核心思路是把语义修改和动作保持拆开,先锚定语义再对齐动态。这个模式其实可以迁移:任何需要在保持时序连贯性的同时做结构性改变的场景,都可以试试这种分解策略。

这一周的论文放一起看,有个隐含的主线:效率、策略、记忆、控制——这些都是 agent 从实验室走向生产的必答题。模型能力还在涨,但真正的瓶颈已经不在那儿了。