Two AI Models Set to “stir government urgency”, But Will This Challenge Undo Them?

AI Explained Youtube

看到OpenAI的Spud模型和Anthropic的新模型时，我第一反应不是兴奋，而是想起了那个经典的测试悖论：当你把benchmark本身当成目标，它就失去了衡量能力的意义。

事情是这样的。据The Information和FT的报道，OpenAI正在准备一个叫Spud的新模型，而Anthropic也在憋大招，目标都很明确——要做出足够震撼的东西来"stir government urgency"，说白了就是让政府意识到AGI真的要来了，该管管了。时机也凑巧，ARC-AGI-3这个新benchmark刚发布，号称极其困难，专门用来测试AI的抽象推理能力。听起来是个完美的舞台对吧？

但问题恰恰出在这里。ARC-AGI-3的设计初衷是好的，想测试模型能否像人类一样进行抽象思维，而不是靠暴力记忆。可它的评分机制很quirky，这就给了"gaming the benchmark"留下了空间。我们已经见过太多次了——模型在某个benchmark上刷出惊人分数，然后你实际用起来发现，嗯，也就那样。NetHack游戏的排行榜就是个活生生的例子，Meta的研究显示，排行榜前几名的agent在实际游戏中的表现和排名完全不成正比。

更微妙的是动机问题。当OpenAI和Anthropic明确要用这些模型去"触发政府紧迫感"时，他们有没有意识到自己可能正在制造一个自我实现的预言？你说AGI快来了，政府要重视，那你的模型就必须在某些指标上足够炸裂。这种压力下，是专注于真实能力的提升，还是会不自觉地向benchmark优化倾斜？我倾向于相信这些团队的专业性，但institutional pressure是真实存在的。

Anthropic最近还拿下了五角大楼的合同，这事儿本身没啥好说的，但timing值得玩味。当你的客户是政府，你的pitch是"我们的AI能力达到了需要监管的程度"，这个叙事结构里有种内在的张力。Jensen Huang前阵子说"我觉得我们已经实现AGI了"，这种表态到底是技术判断还是市场positioning？

说回技术本身。OpenAI那个automated researcher项目其实更值得关注，那是真正在解决实际问题——让AI自己做research，包括提出假设、设计实验、分析结果。这种工具如果做成了，对科研工作流的改变是实质性的。相比之下，在一个新benchmark上刷分，哪怕分数再高，如果不能转化为真实场景的能力提升，意义就很有限。

Jim Fan最近提到的Claw caveat也值得注意——当前这些agent系统在某些任务上看起来很强，但换个场景就歇菜。这种脆弱性才是真正需要解决的问题，而不是在特定测试上拿高分。

所以这两个"要搅动政府紧迫感"的模型，最大的风险不是技术不够强，而是可能被自己的叙事绑架。当你把benchmark成绩和AGI宣传绑定在一起，你就很难再客观评估什么才是真正重要的进展。那些每天在一线写code、做产品的人其实看得很清楚：能解决实际问题的AI才有价值，至于它是不是AGI，谁在乎呢？

Read original source →

Two AI Models Set to “stir government urgency”, But Will This Challenge Undo Them?

相关文章