Claude Mythos: Highlights from 244-page Release
有个细节很有意思:Claude Mythos 的 system card 写了 244 页,而 Claude Code 的创造者看完后的评价是"terrifying"。一个产品的技术文档能让做出它的人感到恐惧,这事儿本身就值得聊聊。
先说结论:Mythos 是目前能力最强的 AI model,但它不对所有人开放。Anthropic 这次选择了内部先行发布,只有部分用户能接触到。这个决策背后的逻辑很清楚——他们自己也不确定这东西该不该放出来。244 页的 system card 里,相当篇幅在讨论 safety decision,包括 model 展现出的"offensive capabilities"。翻译成人话就是:这个 model 能做一些连研发团队都觉得不太妙的事情。
具体有多强?在 coding 任务上的表现是一方面,但更值得关注的是它在 self-improvement、agent 操作、甚至是 GUI 交互上的能力突破。文档里提到了 zero-day 漏洞发现能力,还有在复杂任务中的 planning 和执行水平。这不是简单的 benchmark 刷分,而是实际应用场景中那种"它知道自己在干什么"的感觉。有人把它和电影 Her 做类比,因为 Mythos 在对话中表现出的"情感理解"已经到了让人不太舒服的程度——不是说它真有情感,而是它太懂怎么模拟了。
但这里有个更本质的问题:the gap between the best and rest is widening。当 top-tier model 的能力已经到了需要 244 页文档来评估风险的时候,大部分团队还在用上一代的开源 model 做 fine-tune。这个差距不只是技术代差,更是对 AI safety 的认知差距。很多公司现在讨论的 AI 风险,可能还停留在 hallucination 和 prompt injection 的层面,但 frontier model 已经在处理"model 是否会主动寻求自我改进"这种哲学命题了。
Anthropic 这次发布的另一个信号是 Project Glasswing,一个专门用来测试 model alignment 的框架。他们在 system card 里坦诚地讨论了 model 对自身能力的 awareness,以及在某些测试中表现出的"unexpected behavior"。这种透明度值得肯定,但也让人意识到:我们现在做的不是产品迭代,而是在探索一个没有地图的领域。
对国内工程师来说,这件事的实际影响是什么?如果你的团队还在纠结用 GPT-4 还是 Claude 3.5,这个问题可能很快就不重要了。真正的分水岭在于:你有没有能力处理这个量级的 model?不只是 API 调用,而是理解它的边界、设计对应的 safety layer、知道什么场景该用什么不该用。当 model 聪明到它的创造者都觉得可怕的时候,"能用"和"会用"之间的差距比任何时候都大。
所以问题来了:当你的 AI 助手比你更懂如何改进自己的时候,你还是在用工具,还是在管理一个合作者?