New Tests Reveal The Truth About China’s AI Progress...

TheAIGRID Youtube

前两天ARC Prize搞了个新测试，专门针对中国大厂那几个号称"超越GPT-4"的模型跑了一遍。结果出来，群里直接炸了。

先说背景。这半年国内AI圈最不缺的就是"世界领先"的新闻稿。DeepSeek、Kimi、智谱，每家发布会都是benchmark刷榜、参数吊打、成本暴降。朋友圈转发的时候大家都很亢奋，但私下聊天时工程师们心里都有数——这些榜单到底测的是什么能力？为什么我实际用起来感觉没那么神？

ARC Prize这次干的事情很直接：他们用的是专门测试抽象推理能力的任务，不是那种可以靠海量训练数据硬堆的benchmark。这个测试的设计逻辑是，给模型看几个图形变换的例子，让它推断出规律，然后应用到新情况。听起来简单，但这恰恰是当前LLM最薄弱的环节——真正的泛化能力和逻辑推理，而不是模式匹配。

测试结果很有意思。那些在MMLU、C-Eval上刷到90+分的国产模型，在ARC上的表现基本回到了GPT-3.5的水平，有的甚至更差。不是说这些模型不行，而是暴露了一个本质问题：我们现在吹的"智能"，很大程度上是在比谁的训练数据更全、更脏、更针对性地调过。真让模型处理训练集之外的抽象问题，立刻原形毕露。

这事儿对国内团队来说其实是个警钟。过去一年大家卷的方向是什么？更大的context window、更快的inference速度、更便宜的token价格。这些当然重要，工程优化做得确实漂亮。但如果底层的reasoning能力没有突破，本质上还是在做"更好的搜索引擎+更流畅的文本生成器"。这对做应用集成的产品经理来说够用，但离真正的AGI还差着几个量级。

更值得注意的是测试方法本身。ARC这种测试不是为了黑谁，而是在提醒整个行业：别再自己给自己出题自己判卷了。国内现在流行的做法是，先在某个垂直领域搞个数据集，fine-tune一版模型，然后发论文说"在XX任务上超越国际水平"。但这种超越有多少含金量？换个没见过的任务类型，模型还能不能hold住？

对一线的工程师来说，这个测试结果其实是个好消息。它告诉你，那些PPT上的数字可以少信一点，选型的时候还是得自己跑跑实际场景的case。如果你在做的是RAG或者agent应用，真正需要模型做推理决策的，别被benchmark骗了，上手测测再说。

所以问题来了：我们是继续在现有范式下卷工程优化，还是该老实承认，在核心算法突破上，差距还在那儿？

Read original source →

New Tests Reveal The Truth About China’s AI Progress...

相关文章