New Tests Reveal The Truth About China’s AI Progress...

TheAIGRID Youtube

前两天ARC Prize搞了个新测试,专门针对中国大厂那几个号称"超越GPT-4"的模型跑了一遍。结果出来,群里直接炸了。

先说背景。这半年国内AI圈最不缺的就是"世界领先"的新闻稿。DeepSeek、Kimi、智谱,每家发布会都是benchmark刷榜、参数吊打、成本暴降。朋友圈转发的时候大家都很亢奋,但私下聊天时工程师们心里都有数——这些榜单到底测的是什么能力?为什么我实际用起来感觉没那么神?

ARC Prize这次干的事情很直接:他们用的是专门测试抽象推理能力的任务,不是那种可以靠海量训练数据硬堆的benchmark。这个测试的设计逻辑是,给模型看几个图形变换的例子,让它推断出规律,然后应用到新情况。听起来简单,但这恰恰是当前LLM最薄弱的环节——真正的泛化能力和逻辑推理,而不是模式匹配。

测试结果很有意思。那些在MMLU、C-Eval上刷到90+分的国产模型,在ARC上的表现基本回到了GPT-3.5的水平,有的甚至更差。不是说这些模型不行,而是暴露了一个本质问题:我们现在吹的"智能",很大程度上是在比谁的训练数据更全、更脏、更针对性地调过。真让模型处理训练集之外的抽象问题,立刻原形毕露。

这事儿对国内团队来说其实是个警钟。过去一年大家卷的方向是什么?更大的context window、更快的inference速度、更便宜的token价格。这些当然重要,工程优化做得确实漂亮。但如果底层的reasoning能力没有突破,本质上还是在做"更好的搜索引擎+更流畅的文本生成器"。这对做应用集成的产品经理来说够用,但离真正的AGI还差着几个量级。

更值得注意的是测试方法本身。ARC这种测试不是为了黑谁,而是在提醒整个行业:别再自己给自己出题自己判卷了。国内现在流行的做法是,先在某个垂直领域搞个数据集,fine-tune一版模型,然后发论文说"在XX任务上超越国际水平"。但这种超越有多少含金量?换个没见过的任务类型,模型还能不能hold住?

对一线的工程师来说,这个测试结果其实是个好消息。它告诉你,那些PPT上的数字可以少信一点,选型的时候还是得自己跑跑实际场景的case。如果你在做的是RAG或者agent应用,真正需要模型做推理决策的,别被benchmark骗了,上手测测再说。

所以问题来了:我们是继续在现有范式下卷工程优化,还是该老实承认,在核心算法突破上,差距还在那儿?