AI Agents of the Week: Papers You Should Know About

LLM Watch Substack

上周一个朋友问我，现在 agent 系统最大的瓶颈是什么？我当时说是 reasoning 能力和工具调用的稳定性。看完这周的几篇论文，我得改口了——真正的瓶颈可能是我们还没想清楚怎么让多个 agent 安全地协作。

CORAL 这篇论文给出了诱人的数字：让多个 agent 通过共享 memory 异步协作、互相反思，性能提升能达到单 agent 进化基线的 3 到 10 倍。这个增益不是调参调出来的，是架构层面的跃迁。但 AgentSocialBench 马上泼了盆冷水：一旦 agent 开始跨域、跨用户协作，哪怕你在 prompt 里明确要求保护隐私，agent 之间的通信依然会产生"持续性泄漏压力"。这不是某个模型的 bug，是多 agent 架构天然带来的攻击面。

这让我想起早年微服务架构刚火的时候，大家都在吹解耦和弹性扩展，但真正上生产才发现分布式追踪、熔断、数据一致性这些问题比单体应用复杂一个数量级。Multi-agent 系统现在就在走同一条路：capability 上去了，observability 和 safety 的债也在同步累积。

Exploring Robust Multi-Agent Workflows 提供了一个务实的思路：用角色分离 + 确定性 validator + 可审计的 handoff 机制，在 2452 个站点的坐标转换任务里把错误拦在了数据发布之前。这套打法不性感，但能上生产。核心逻辑是把 agent 当成不可信组件来设计系统，而不是假设它们会完美执行。

另一个值得关注的发现来自 Investigating Autonomous Agent Contributions in the Wild。研究者分析了约 11 万个开源 PR，发现 agent 生成的代码 churn rate 明显高于人类。这不是说 agent 写的代码不能跑，而是说它写出来的东西更容易被后续修改或删除。这直接挑战了"AI 全自动写代码"的叙事——瓶颈已经从生成能力转移到了可维护性。如果你的团队在考虑大规模引入 agent 写代码，这个数据值得认真看看。

技术路线上有两个对称的尝试。SKILL0 通过渐进式课程把技能直接内化到模型参数里，减少 runtime 的 retrieval 开销，在 ALFWorld 上涨了 9.7 个点，同时把 token 消耗控制在 500 以内。ProCeedRL 则是部署了一个 process-level critic，实时介入纠错，解决长链路任务中单步错误污染后续 context 的问题。一个是在错误进入循环前消除噪声源，一个是在循环内主动拦截。这两条路不互斥，但适用场景完全不同。

最让我意外的是 Omni-SimpleMem 那篇。他们搭了个全自动研究 pipeline，跑了大约 50 个实验，F1 涨了 411%。关键不是涨了多少，而是这些提升来自哪里：bug fix 贡献了 175%，架构改动贡献了 44%，prompt 工程贡献了 188%。这些都是传统 AutoML 碰不到的层面。配合 CORAL 的结果来看，agent 架构的设计空间可能已经大到人类没法手工遍历了，自动化研究 pipeline 可能会从实验工具变成标配。

Multi-agent 系统的能力天花板确实在快速抬升，但同时我们也在制造新的复杂度和风险。现在的问题不是该不该用多 agent，而是你的团队有没有能力管理这些系统的失效模式。

Read original source →

AI Agents of the Week: Papers You Should Know About

相关文章