Tragic mistake... Anthropic leaks Claude’s source code

Fireship Youtube

上周 Anthropic 把 Claude 的源代码不小心推到了公网,这事儿比你想的有意思多了。

先说结论:这不是什么黑客攻击,就是个低级失误——大概率是某个工程师把内部代码库配置搞错了,或者 CI/CD pipeline 里的权限设置出了岔子。但泄露出来的东西,倒是让我们看到了 Anthropic 接下来想干什么。

最值得关注的是两个未发布的功能。第一个叫 Undercover Mode,从名字看应该是某种隐身或低调模式,具体干什么现在还不清楚,但结合 Claude 一直强调的"有用、无害、诚实"原则,我猜可能跟减少 AI 回复中的自我暴露有关——比如让 Claude 在某些场景下不那么像个 AI 助手,更像个真人在回复。这对 agent 应用场景其实挺重要,尤其是需要 AI 跟外部系统或真人交互的时候。

第二个是 Frustration Detector,情绪检测器。这个就更直白了——Claude 想知道你是不是被它气到了。这不是什么黑科技,sentiment analysis 早就是成熟技术,但把它做成 LLM 的内置能力,意图很明显:动态调整回复策略。用户越沮丧,模型越需要换个说法或者降低复杂度。这对提升实际可用性的价值,比单纯刷 benchmark 分数有用得多。

这两个功能都指向同一个方向:Anthropic 在往"更懂人"的方向走,而不是单纯堆参数或者优化 token 效率。OpenAI 最近在疯狂扩展 GPT-4 的工具调用能力,Google 在 Gemini 上押注多模态,Anthropic 选的路是让 Claude 更敏感、更会看人脸色。这条路不性感,但对 ToB 场景——尤其是客服、教育、医疗这些需要高情商的领域——可能更实用。

当然,泄露本身也暴露了一些问题。首先是 Anthropic 的代码管理流程显然有漏洞,这对一家处理敏感 AI 模型的公司来说不是小事。其次,这次泄露的范围到底有多大?是只有这几个 feature 的代码片段,还是包括 model weights、training pipeline、甚至 prompt engineering 的内部文档?如果是后者,那竞争对手能学到的东西就太多了。

还有个更微妙的点:Anthropic 一直标榜自己是"负责任的 AI 公司",强调透明度和安全性。这次泄露虽然是意外,但多少有点打脸。用户会问:你们连自己的代码都管不好,凭什么让我相信你们能管好比代码危险一百倍的 AI 模型?

如果你是做 LLM 应用的,这次泄露其实是个信号:情绪感知和上下文自适应会是下一阶段的重点。如果你现在还在纠结怎么让 prompt 更精确,不如想想怎么让你的产品在用户快崩溃的时候自动换个姿态。