Two AI Models Set to “stir government urgency”, But Will This Challenge Undo Them?

AI Explained Youtube

看到OpenAI的Spud模型和Anthropic的新模型时,我第一反应不是兴奋,而是想起了那个经典的测试悖论:当你把benchmark本身当成目标,它就失去了衡量能力的意义。

事情是这样的。据The Information和FT的报道,OpenAI正在准备一个叫Spud的新模型,而Anthropic也在憋大招,目标都很明确——要做出足够震撼的东西来"stir government urgency",说白了就是让政府意识到AGI真的要来了,该管管了。时机也凑巧,ARC-AGI-3这个新benchmark刚发布,号称极其困难,专门用来测试AI的抽象推理能力。听起来是个完美的舞台对吧?

但问题恰恰出在这里。ARC-AGI-3的设计初衷是好的,想测试模型能否像人类一样进行抽象思维,而不是靠暴力记忆。可它的评分机制很quirky,这就给了"gaming the benchmark"留下了空间。我们已经见过太多次了——模型在某个benchmark上刷出惊人分数,然后你实际用起来发现,嗯,也就那样。NetHack游戏的排行榜就是个活生生的例子,Meta的研究显示,排行榜前几名的agent在实际游戏中的表现和排名完全不成正比。

更微妙的是动机问题。当OpenAI和Anthropic明确要用这些模型去"触发政府紧迫感"时,他们有没有意识到自己可能正在制造一个自我实现的预言?你说AGI快来了,政府要重视,那你的模型就必须在某些指标上足够炸裂。这种压力下,是专注于真实能力的提升,还是会不自觉地向benchmark优化倾斜?我倾向于相信这些团队的专业性,但institutional pressure是真实存在的。

Anthropic最近还拿下了五角大楼的合同,这事儿本身没啥好说的,但timing值得玩味。当你的客户是政府,你的pitch是"我们的AI能力达到了需要监管的程度",这个叙事结构里有种内在的张力。Jensen Huang前阵子说"我觉得我们已经实现AGI了",这种表态到底是技术判断还是市场positioning?

说回技术本身。OpenAI那个automated researcher项目其实更值得关注,那是真正在解决实际问题——让AI自己做research,包括提出假设、设计实验、分析结果。这种工具如果做成了,对科研工作流的改变是实质性的。相比之下,在一个新benchmark上刷分,哪怕分数再高,如果不能转化为真实场景的能力提升,意义就很有限。

Jim Fan最近提到的Claw caveat也值得注意——当前这些agent系统在某些任务上看起来很强,但换个场景就歇菜。这种脆弱性才是真正需要解决的问题,而不是在特定测试上拿高分。

所以这两个"要搅动政府紧迫感"的模型,最大的风险不是技术不够强,而是可能被自己的叙事绑架。当你把benchmark成绩和AGI宣传绑定在一起,你就很难再客观评估什么才是真正重要的进展。那些每天在一线写code、做产品的人其实看得很清楚:能解决实际问题的AI才有价值,至于它是不是AGI,谁在乎呢?