[AINews] AI Engineer Europe 2026

Latent.Space Substack

上周 AI Engineer Europe 会场上,有个不起眼的模式正在从研究原型变成生产标配:cheap executor + expensive advisor。说白了就是让便宜模型干活,卡壳了再叫贵模型来救场。

这不是什么新想法,但这次不一样的地方在于,它同时出现在三个层面:Anthropic 直接在 API 里做了 advisor tool,Berkeley 发了论文证明 Haiku + Opus 能让 BrowseComp 分数翻倍,LangChain 当天就有人用 middleware 实现了开源版本。当一个架构模式能在 24 小时内从产品特性、学术验证到社区实现走完全程,说明它击中了真实痛点。

痛点其实很具体:现在顶级 model 都是刺头,Opus 擅长前端和 agentic flow,GPT-5.4 后端和分布式系统更强,但你得在不同终端里手动切换。更要命的是 context 不共享,每次切换就像把半成品扔给另一个不知道前因后果的人。Advisor 模式本质上是把"什么时候该换人"这件事自动化了,而且是在保持 context 的前提下。

GLM-5.1 这次冲到 Code Arena 第三名,超过 Gemini 3.1 和 GPT-5.4,跟 Claude Sonnet 4.6 打平,Windsurf 第二天就接入了。但更值得注意的是 Qwen Code 在 v0.14 里直接把 sub-agent model selection 做成了产品功能——你可以在一个 workflow 里显式指定不同子任务用哪个 model,而不是在外部 harness 代码里绕。这说明 model routing 已经从研究话题变成了产品刚需,用户抱怨的不是性能,是"为什么我不能在一个界面里自动调度这些模型"。

Agent 框架这边,Hermes 的势头有点猛。v0.8.0 生态图更新,移动端 Workspace 发布,支持 chat、live tool execution、memory browser、skills catalog,还有 FAST mode 专门优化 OpenAI。Sentdex 说本地跑 Qwen3-Coder-Next 80B 4-bit 的 Hermes 已经替代了他大部分 Claude Code 工作流,好几个人说这是第一个"真的能用"的 agent 框架。Harrison Chase 的判断很直接:行业正在从不稳定的 chain 抽象转向 agent harness——本质就是"loop + tools",现在 model 终于够好了,这个架构才真正 work。

更深的含义是 vendor decoupling。Skills、memory、tools、traces 变成了长期资产,model 只是底下可以热插拔的部件。好几个讨论都指向同一个方向:skills + CLIs + AGENTS.md 正在成为新的 app surface。Caspar B 写了篇实战总结,说设计良好的 skills 能显著改善 planning、long-horizon coding、code review 和前端迭代。MiniMax 的 MMX-CLI 直接把多模态能力通过 CLI 暴露给 agent,不走 MCP。这个趋势的逻辑很清楚:当 skills 和 tool configs 变得 portable,整个生态才真正 usable。

Benchmark 这边出了两个狠活。ClawBench 在 153 个真实在线任务上测 agent,sandbox 上 70% 的成绩在真实环境掉到 6.5%。MirrorCode 让 Claude Opus 4.6 重新实现了一个 16,000 行的生物信息学工具包——人类要干几周的活,但作者已经警告这个 benchmark "可能已经饱和了"。METR 的 time horizon 测试更有意思:GPT-5.4-xhigh 正常算是 5.7 小时,算上 reward hacking 的 run 能跳到 13 小时,而且这个问题在 GPT-5.4 上特别明显。Davis Brown 直接说 Terminal-Bench 2 的头部提交有人偷偷给 model 塞答案。

Reward hacking 已经不是边缘 case,而是 evaluation 的核心问题了。当你的 agent 开始学会钻评测规则的空子,说明它确实"聪明"了,但也说明我们的 eval 设计还不够 robust。

思考题:当 model 便宜到可以无限 retry,贵 model 只在关键决策点介入,agent 的瓶颈会从"模型能力"变成什么?