Cursor ditches VS Code, but not everyone is happy...

Fireship Youtube

Cursor刚发了个大新闻:自己训练的frontier model上线了,而且在各种benchmark上表现炸裂。但这事儿有点意思——很多人第一反应不是惊叹,而是质疑:这些benchmark是不是你们自己设计的?

先说背景。Cursor一直是套着VS Code壳子做AI编辑器,这次直接甩开VS Code自己干了。按理说这是个挺大的技术决心,毕竟放弃一个成熟的开源基座意味着要自己扛所有基础设施的坑。但更劲爆的是他们同时推出了自研model,号称在代码补全、上下文理解这些任务上全面超越现有方案。

问题来了:为什么大家不买账?因为这些benchmark看起来太"定制化"了。你懂的,AI圈现在最不缺的就是各种榜单,最缺的是能真实反映生产环境表现的评测。当一个公司发布自己的model,然后恰好在一些不太主流的benchmark上拿第一,这事儿总让人觉得哪里不对劲。就像你考试前刚好拿到了题库,然后考满分出来说自己是学霸——技术上没毛病,但总觉得少了点说服力。

这里面有个更深层的问题:代码生成这个赛道已经卷到什么程度了?GitHub Copilot有微软和OpenAI撑腰,Codeium、Tabnine各有各的技术路线,现在Cursor要靠自研model杀出来,光benchmark好看是不够的。工程师们真正在意的是:这玩意儿能不能理解我的legacy code?会不会在关键时刻生成一堆屎山?latency和token成本控制得怎么样?

从产品策略看,Cursor这步棋挺激进。自研model意味着要持续投入训练成本,还得跟OpenAI、Anthropic这些大厂的API更新速度赛跑。但好处也明显:如果真能在垂直场景(代码生成)做出明显优势,就能摆脱"套壳工具"的标签,拿到定价权和数据flywheel。

说实话,我更关心的是他们怎么解决context window和代码库理解这两个硬问题。现在所有AI编辑器都在吹自己能"理解整个项目",但实际用下来,真正能跨文件推理、理解架构意图的少之又少。如果Cursor的自研model在这上面有实质突破,benchmark争议根本不重要——工程师会用脚投票。

所以如果你在用或者在评估AI编辑器,别急着被benchmark数字唬住。找个真实项目试两周,看看它能不能理解你那堆重构了三轮的业务逻辑,能不能在你改一个interface的时候智能更新所有implementation。这才是separates the wheat from the chaff的标准。