Claude Mythos Explained

Matt Wolfe Youtube

上周 Anthropic 搞了个大新闻,但不是你想的那种发布会式的大新闻。他们悄悄训练了一个叫 Claude Mythos 的模型,专门用来搞安全测试和漏洞挖掘,然后决定——不公开发布。只通过一个叫 Project Glasswing 的项目,把访问权限给了几家顶级安全团队。

这事儿有意思的地方不在于"又一个垂直领域模型",而在于 Anthropic 的态度:我们造出来了,但我们不给你用。这在大模型圈子里是个挺罕见的姿态。过去一年多,几乎所有玩家都在拼命证明自己的模型"安全可控",然后尽可能开放地推向市场。Anthropic 这次反其道而行之,直接承认这东西太危险,不适合公开。

从技术角度看,一个在 hacking 和漏洞发现上表现优异的 LLM 确实是个双刃剑。理论上它能帮安全团队自动化地发现代码里的逻辑漏洞、配置错误、甚至设计缺陷,效率比人工高几个数量级。但反过来说,同样的能力落到攻击者手里,就是个自动化的武器库。这不是说以前没有自动化攻击工具,而是 LLM 这种东西理解上下文、组合利用链的能力,跟传统脚本不在一个维度。

所以 Anthropic 的选择其实挺务实:与其冒险公开然后被滥用,不如先找几个可信的合作方,在可控环境里验证这东西到底能干什么,边界在哪儿。这个思路跟当年 OpenAI 对待 GPT-2 的态度有点像,只不过现在行业已经成熟多了,大家不会再觉得"不发布"是在作秀。

但这里有个更深层的问题:如果顶级 AI 公司都开始训练专用的攻击型模型,并且只给"自己人"用,那安全领域的不对称性会不会进一步加剧?现在的情况是,防御方已经在用各种 AI 辅助工具,攻击方也在用。Mythos 这种级别的模型如果只掌握在少数团队手里,中小公司的安全团队怎么办?他们面对的攻击者可能已经用上了类似能力的模型(不管是自己训的还是从别的渠道搞到的),但防御侧却没有对等的工具。

Anthropic 把这个项目叫 Glasswing,玻璃翅膀,透明但脆弱。这个命名倒是挺贴切的——他们想做的是在透明度和安全性之间找平衡,但这个平衡本身就很脆弱。真正的问题不是 Mythos 有多强,而是当 AI 在攻防两端都成为核心能力时,谁来定义"可信团队",谁来保证这些能力不会扩散?