Did OpenAI Just Quietly Build AGI?

TheAIGRID Youtube

上周OpenAI内部发生了一件挺微妙的事:Sam Altman在重组领导层的同时,公司正在准备一个代号叫"Spud"的神秘model。The Information报道出来后,有人开始问:这是不是那个传说中的"悄悄实现AGI"的时刻?

先说我的判断:别激动,这大概率不是AGI,但确实值得关注——不是因为技术本身,而是因为OpenAI现在的节奏和姿态变了。

你看最近半年OpenAI的动作:o1系列推出后强调reasoning能力,然后是operator这种agent产品,现在又来一个内部代号很随意的Spud。这个命名风格就很有意思,不像GPT-5那种要昭告天下的架势,反而像是内部测试项目的临时代号。结合leadership restructure这个timing,我倾向于认为Spud可能是某种针对特定场景深度优化的model,而不是那种"我们终于做出AGI了"的大杀器。

真正值得琢磨的是OpenAI现在的产品策略。从去年开始,他们明显在做一件事:把"通用大model"拆解成不同能力维度的专用model。o1负责复杂推理,GPT-4o保持多模态和速度平衡,现在Spud如果真的存在,很可能是在某个垂直方向上的又一次尝试。这跟早期"一个model打天下"的路线已经完全不同了。

从工程角度看,这个转变其实挺合理。当你的model规模大到一定程度,继续堆参数的边际收益在递减,但针对特定任务做architecture和training pipeline的优化,反而能拿到更好的performance-cost比。Google的Gemini系列也在走类似的路,只是OpenAI动作更快,而且更愿意把半成品拿出来测试市场反应。

至于leadership restructure,这事儿在硅谷大公司里太常见了,通常意味着要么是为新产品线调整组织架构,要么是为融资或者IPO做准备。考虑到OpenAI现在的估值和营收压力,我猜两者都有。Sam Altman这个人的风格你也知道,他不是那种会等技术完美了再动手的人,他更在意的是保持momentum和narrative control。

说回AGI这个话题。现在行业里对AGI的定义已经分裂成好几派:有人说能通过所有人类考试就算,有人说要有自主学习和迁移能力才算,还有人说必须具备意识和自我认知。按最宽松的标准,o1在某些benchmark上的表现确实已经接近"通用"了,但那些benchmark本身就是人类设计的,model只是在学习如何通过考试而已。真正的AGI应该能处理那些训练数据里从未见过的问题类型,现在的LLM显然还做不到。

所以Spud到底是什么?我的猜测是某种针对企业场景或者特定行业的fine-tuned model,可能在latency或者cost上做了激进优化。OpenAI现在最大的挑战不是技术领先性——他们在这方面还保持着优势——而是如何把这些技术转化成可持续的商业模式。毕竟训练和inference的成本摆在那儿,光靠API收费很难覆盖。

如果你是工程师或者PM,真正该关注的不是"AGI来了没有",而是这些model的能力边界在哪里,哪些场景下够用,哪些场景下还得等下一代。别被营销话术带偏了,自己上手测试才知道。