AI Agents of the Week: Papers You Should Know About

LLM Watch Substack

上周看了几篇 agent 论文，有个感觉越来越明显：大家都在从"能不能做"转向"怎么做更聪明"。

先说推理效率这件事。Large Reasoning Model 现在的问题很实在——简单问题想太多，难题又想不透。ReBalance 的思路是训练时不动模型，推理时用 confidence 动态调整思考深度，该剪枝就剪枝，该展开就展开。Nemotron-Cascade 2 走的是另一条路：用 Cascade RL 和多域蒸馏把推理能力压进 30B MoE 里，实际激活只有 3B，但数学和代码推理能力对标 frontier model。这俩方向本质上是一个问题的两面：你是要在推理时动态调度已有能力，还是直接把更强的推理塞进更小的模型？前者灵活但依赖运行时开销，后者一劳永逸但训练成本高。如果你在做生产部署，这不是技术选择题，是成本结构选择题。

更有意思的是 alignment 和博弈行为之间的悖论。两篇论文把这事儿撕得很清楚。第一篇发现 aligned model 在教科书式的单轮博弈里表现不错，但在真实的多轮谈判、讨价还价这种需要报复和互惠的场景里，预测准确率比 base model 低 10 倍。第二篇反过来证明，开箱即用的 reasoning agent 不需要任何 alignment 就能 zero-shot 达到 Nash 均衡。这俩结论放一起看就很讽刺：alignment 让模型更符合规范，但也可能让它在真实博弈环境里变傻。如果你在做多 agent 协作或者竞争系统，别想当然地觉得 aligned model 就是更好的选择。它可能更"正确"，但不一定更"聪明"。

长时程 agent 的记忆问题也有新进展。AndroTMem 发现 GUI 任务里性能下降主要是任务内记忆失效，提出 Anchored State Memory，把关键状态锚定下来，比全序列回放提升 5% 到 30%。Memento-Skills 走的是技能库路线，让 agent 把可复用的操作抽象成 markdown 技能文档，外部化存储和迭代。两个方案方向不同，但共识是一样的：结构化、选择性记忆比暴力回放有效得多。这对做 long-horizon task 的团队是个明确信号——别再无脑塞 context 了，想清楚什么该记、怎么记、什么时候调用。

还有一篇 Agentic Business Process Management 的 manifesto，提出用"框架化自主"来约束 agent 在组织里的行为。听起来很理论，但它戳中了一个实际痛点：agent 越来越能自我演化，但企业需要可解释、可控制。这和 Memento-Skills 那种自我改进的架构天然有张力。你是要一个会自己长本事的 agent，还是要一个行为可预测、符合流程规范的 agent？这不是技术问题，是组织设计问题。

最后 SAMA 那篇视频编辑的论文，核心思路是把语义修改和动作保持拆开，先锚定语义再对齐动态。这个模式其实可以迁移：任何需要在保持时序连贯性的同时做结构性改变的场景，都可以试试这种分解策略。

这一周的论文放一起看，有个隐含的主线：效率、策略、记忆、控制——这些都是 agent 从实验室走向生产的必答题。模型能力还在涨，但真正的瓶颈已经不在那儿了。

Read original source →

AI Agents of the Week: Papers You Should Know About

相关文章