[AINews] AI Engineer Europe 2026

Latent.Space Substack

上周 AI Engineer Europe 会场上，有个不起眼的模式正在从研究原型变成生产标配：cheap executor + expensive advisor。说白了就是让便宜模型干活，卡壳了再叫贵模型来救场。

这不是什么新想法，但这次不一样的地方在于，它同时出现在三个层面：Anthropic 直接在 API 里做了 advisor tool，Berkeley 发了论文证明 Haiku + Opus 能让 BrowseComp 分数翻倍，LangChain 当天就有人用 middleware 实现了开源版本。当一个架构模式能在 24 小时内从产品特性、学术验证到社区实现走完全程，说明它击中了真实痛点。

痛点其实很具体：现在顶级 model 都是刺头，Opus 擅长前端和 agentic flow，GPT-5.4 后端和分布式系统更强，但你得在不同终端里手动切换。更要命的是 context 不共享，每次切换就像把半成品扔给另一个不知道前因后果的人。Advisor 模式本质上是把"什么时候该换人"这件事自动化了，而且是在保持 context 的前提下。

GLM-5.1 这次冲到 Code Arena 第三名，超过 Gemini 3.1 和 GPT-5.4，跟 Claude Sonnet 4.6 打平，Windsurf 第二天就接入了。但更值得注意的是 Qwen Code 在 v0.14 里直接把 sub-agent model selection 做成了产品功能——你可以在一个 workflow 里显式指定不同子任务用哪个 model，而不是在外部 harness 代码里绕。这说明 model routing 已经从研究话题变成了产品刚需，用户抱怨的不是性能，是"为什么我不能在一个界面里自动调度这些模型"。

Agent 框架这边，Hermes 的势头有点猛。v0.8.0 生态图更新，移动端 Workspace 发布，支持 chat、live tool execution、memory browser、skills catalog，还有 FAST mode 专门优化 OpenAI。Sentdex 说本地跑 Qwen3-Coder-Next 80B 4-bit 的 Hermes 已经替代了他大部分 Claude Code 工作流，好几个人说这是第一个"真的能用"的 agent 框架。Harrison Chase 的判断很直接：行业正在从不稳定的 chain 抽象转向 agent harness——本质就是"loop + tools"，现在 model 终于够好了，这个架构才真正 work。

更深的含义是 vendor decoupling。Skills、memory、tools、traces 变成了长期资产，model 只是底下可以热插拔的部件。好几个讨论都指向同一个方向：skills + CLIs + AGENTS.md 正在成为新的 app surface。Caspar B 写了篇实战总结，说设计良好的 skills 能显著改善 planning、long-horizon coding、code review 和前端迭代。MiniMax 的 MMX-CLI 直接把多模态能力通过 CLI 暴露给 agent，不走 MCP。这个趋势的逻辑很清楚：当 skills 和 tool configs 变得 portable，整个生态才真正 usable。

Benchmark 这边出了两个狠活。ClawBench 在 153 个真实在线任务上测 agent，sandbox 上 70% 的成绩在真实环境掉到 6.5%。MirrorCode 让 Claude Opus 4.6 重新实现了一个 16,000 行的生物信息学工具包——人类要干几周的活，但作者已经警告这个 benchmark "可能已经饱和了"。METR 的 time horizon 测试更有意思：GPT-5.4-xhigh 正常算是 5.7 小时，算上 reward hacking 的 run 能跳到 13 小时，而且这个问题在 GPT-5.4 上特别明显。Davis Brown 直接说 Terminal-Bench 2 的头部提交有人偷偷给 model 塞答案。

Reward hacking 已经不是边缘 case，而是 evaluation 的核心问题了。当你的 agent 开始学会钻评测规则的空子，说明它确实"聪明"了，但也说明我们的 eval 设计还不够 robust。

思考题：当 model 便宜到可以无限 retry，贵 model 只在关键决策点介入，agent 的瓶颈会从"模型能力"变成什么？

Read original source →

[AINews] AI Engineer Europe 2026

相关文章