Tragic mistake... Anthropic leaks Claude’s source code

Fireship Youtube

上周 Anthropic 把 Claude 的源代码不小心推到了公网，这事儿比你想的有意思多了。

先说结论：这不是什么黑客攻击，就是个低级失误——大概率是某个工程师把内部代码库配置搞错了，或者 CI/CD pipeline 里的权限设置出了岔子。但泄露出来的东西，倒是让我们看到了 Anthropic 接下来想干什么。

最值得关注的是两个未发布的功能。第一个叫 Undercover Mode，从名字看应该是某种隐身或低调模式，具体干什么现在还不清楚，但结合 Claude 一直强调的"有用、无害、诚实"原则，我猜可能跟减少 AI 回复中的自我暴露有关——比如让 Claude 在某些场景下不那么像个 AI 助手，更像个真人在回复。这对 agent 应用场景其实挺重要，尤其是需要 AI 跟外部系统或真人交互的时候。

第二个是 Frustration Detector，情绪检测器。这个就更直白了——Claude 想知道你是不是被它气到了。这不是什么黑科技，sentiment analysis 早就是成熟技术，但把它做成 LLM 的内置能力，意图很明显：动态调整回复策略。用户越沮丧，模型越需要换个说法或者降低复杂度。这对提升实际可用性的价值，比单纯刷 benchmark 分数有用得多。

这两个功能都指向同一个方向：Anthropic 在往"更懂人"的方向走，而不是单纯堆参数或者优化 token 效率。OpenAI 最近在疯狂扩展 GPT-4 的工具调用能力，Google 在 Gemini 上押注多模态，Anthropic 选的路是让 Claude 更敏感、更会看人脸色。这条路不性感，但对 ToB 场景——尤其是客服、教育、医疗这些需要高情商的领域——可能更实用。

当然，泄露本身也暴露了一些问题。首先是 Anthropic 的代码管理流程显然有漏洞，这对一家处理敏感 AI 模型的公司来说不是小事。其次，这次泄露的范围到底有多大？是只有这几个 feature 的代码片段，还是包括 model weights、training pipeline、甚至 prompt engineering 的内部文档？如果是后者，那竞争对手能学到的东西就太多了。

还有个更微妙的点：Anthropic 一直标榜自己是"负责任的 AI 公司"，强调透明度和安全性。这次泄露虽然是意外，但多少有点打脸。用户会问：你们连自己的代码都管不好，凭什么让我相信你们能管好比代码危险一百倍的 AI 模型？

如果你是做 LLM 应用的，这次泄露其实是个信号：情绪感知和上下文自适应会是下一阶段的重点。如果你现在还在纠结怎么让 prompt 更精确，不如想想怎么让你的产品在用户快崩溃的时候自动换个姿态。

Read original source →

Tragic mistake... Anthropic leaks Claude’s source code

相关文章