Cursor ditches VS Code, but not everyone is happy...

Fireship Youtube

Cursor刚发了个大新闻：自己训练的frontier model上线了，而且在各种benchmark上表现炸裂。但这事儿有点意思——很多人第一反应不是惊叹，而是质疑：这些benchmark是不是你们自己设计的？

先说背景。Cursor一直是套着VS Code壳子做AI编辑器，这次直接甩开VS Code自己干了。按理说这是个挺大的技术决心，毕竟放弃一个成熟的开源基座意味着要自己扛所有基础设施的坑。但更劲爆的是他们同时推出了自研model，号称在代码补全、上下文理解这些任务上全面超越现有方案。

问题来了：为什么大家不买账？因为这些benchmark看起来太"定制化"了。你懂的，AI圈现在最不缺的就是各种榜单，最缺的是能真实反映生产环境表现的评测。当一个公司发布自己的model，然后恰好在一些不太主流的benchmark上拿第一，这事儿总让人觉得哪里不对劲。就像你考试前刚好拿到了题库，然后考满分出来说自己是学霸——技术上没毛病，但总觉得少了点说服力。

这里面有个更深层的问题：代码生成这个赛道已经卷到什么程度了？GitHub Copilot有微软和OpenAI撑腰，Codeium、Tabnine各有各的技术路线，现在Cursor要靠自研model杀出来，光benchmark好看是不够的。工程师们真正在意的是：这玩意儿能不能理解我的legacy code？会不会在关键时刻生成一堆屎山？latency和token成本控制得怎么样？

从产品策略看，Cursor这步棋挺激进。自研model意味着要持续投入训练成本，还得跟OpenAI、Anthropic这些大厂的API更新速度赛跑。但好处也明显：如果真能在垂直场景（代码生成）做出明显优势，就能摆脱"套壳工具"的标签，拿到定价权和数据flywheel。

说实话，我更关心的是他们怎么解决context window和代码库理解这两个硬问题。现在所有AI编辑器都在吹自己能"理解整个项目"，但实际用下来，真正能跨文件推理、理解架构意图的少之又少。如果Cursor的自研model在这上面有实质突破，benchmark争议根本不重要——工程师会用脚投票。

所以如果你在用或者在评估AI编辑器，别急着被benchmark数字唬住。找个真实项目试两周，看看它能不能理解你那堆重构了三轮的业务逻辑，能不能在你改一个interface的时候智能更新所有implementation。这才是separates the wheat from the chaff的标准。

Read original source →

Cursor ditches VS Code, but not everyone is happy...

相关文章