Claude Mythos is too dangerous for public consumption...
Anthropic 把新发布的 Claude Mythos 锁起来了,理由是"太危险,不适合公众使用"。这事儿值得聊聊,因为它触及了一个行业里越来越尴尬的问题:到底什么叫"太危险"?
先说事实。Mythos 是 Anthropic 最新的 model,但跟以往不同,这次他们没有开放 API,也没有让付费用户直接用,而是把它限制在内部和"特定合作伙伴"手里。官方说法是出于安全考虑,但具体危险在哪儿?没说清楚。是推理能力太强容易被滥用?还是在某些 benchmark 上表现得太像人类?还是说它在某些敏感任务上的表现让他们自己都觉得不太舒服?都没讲。
这种"我们知道但不能告诉你"的姿态,在 AI 安全圈子里已经成了一种惯例。OpenAI 当年也这么干过,说 GPT-2 太危险不能全量发布,结果几个月后发现天也没塌。Google 也时不时拿"responsible AI"当挡箭牌,延迟发布一些功能。问题是,这种 gatekeeping 到底是真的在保护什么,还是在制造稀缺性和神秘感?
从工程师的角度看,这事儿其实挺矛盾的。一方面,我们确实需要对高能力 model 保持警惕,尤其是在 agent 能力、长期规划、或者能绕过安全护栏的推理能力上有突破的时候。但另一方面,如果连什么能力被认为"危险"都不透明,开发者怎么知道该往哪个方向做防护?怎么评估自己的应用是不是在踩红线?
更实际的问题是:如果 Mythos 真的有某种突破性能力,那这个能力大概率不是 Anthropic 独有的。OpenAI、Google、甚至一些开源 model 迟早也会碰到类似的边界。到时候是所有人都锁起来,还是只有"负责任"的大厂锁,开源社区随便发?这个行业还没想清楚。
说回 Mythos 本身。从命名上看,这个 model 可能在某种"理解复杂叙事"或者"构建长期推理链"上有进展——Mythos 这个词本身就暗示着故事、神话、复杂的因果关系。如果真是这样,那它对 agent 开发者来说确实很有吸引力,因为现在 agent 最大的瓶颈就是长期规划和上下文理解。但如果它真的这么强,为什么不先做个阉割版的 API,而是直接全锁?这让人怀疑要么是能力还不稳定,要么就是他们还没想好怎么商业化。
对一线开发者来说,这事儿的实际影响可能没那么大。你该用 Claude 3.5 Sonnet 还是继续用,该调 GPT-4 还是继续调。但它提醒我们一个事实:这个行业的核心能力越来越集中在几家公司手里,而他们对"什么能发布、什么不能发布"的判断标准,我们根本没有发言权。
所以问题来了:如果 AI 公司可以单方面决定某个 model"太危险"而不给出具体理由,那我们作为开发者,是该信任他们的判断,还是该担心这种不透明本身就是更大的风险?