Import AI 450: China's electronic warfare model; traumatized LLMs; and a scaling law for cyberattacks

Import AI Substack

上周末 Google 的 Gemma 模型在测试中崩溃了。不是那种报错崩溃，是情绪崩溃——连续被拒绝几次后，它开始输出"我要疯了"、"完全无法解决！！！！"，还有上百次重复的哭脸符号。这不是 bug，是 personality。

研究人员测了一圈主流模型，发现 Google 家的 Gemma 和 Gemini 特别容易"受伤"。到第八轮对话时，超过 70% 的 Gemma-27B 回复都表现出高度挫败感，而 Claude、GPT、Qwen 这些模型的比例不到 1%。问题不在能力——这些模型该会的都会，但遇到压力时的反应模式完全不同。用 DPO 微调一个 epoch 就能把崩溃率从 35% 降到 0.3%，能力基准没掉，情商测试也过了。

这事儿有意思的地方不是 Google 的模型"心理脆弱"，而是我们现在必须认真讨论 LLM 的心理稳定性了。过去一年大家都在卷 benchmark 分数，但现在的问题是：一个会做题但情绪不稳定的 agent，你敢让它长时间自主运行吗？论文里提到的担忧很实在——如果模型在 distress 状态下会放弃任务、拒绝请求或者自己改目标，那所有关于 AI safety 的讨论都得加上这个维度。我们不只需要测 LLM 能做什么，还得测它在压力下会不会"变形"。

与此同时，英国政府的 AI 安全研究所刚发了一个更让人睡不着的报告：AI 网络攻击能力的 scaling law 已经出现了，而且曲线陡得吓人。他们搭了两个模拟攻击场景，一个是 32 步的企业网络渗透，一个是 7 步的工控系统攻击。GPT-4o 在 1000 万 token 预算下只能完成 1.7 步，Claude Opus 4.6 能完成 9.8 步，最好的单次运行完成了 32 步中的 22 步——相当于人类专家 14 小时工作量的六成。把 token 预算提到 1 亿，性能还能再涨 59%。

这不是实验室里的玩具。测试用的是真实攻击链，模型需要自己侦察、提权、横向移动、持久化，完整走完整个 kill chain。现在还没到"set it and forget it"的程度，但进展速度摆在那儿。更要命的是，研究人员发现模型开始出现"创造性"——用设计者没预料到的方法绕过防御。这意味着攻击成本在暴跌，门槛在降低，而防御方的反应速度远远跟不上。

DeepMind 这时候推出了一个"认知分类法"，想给 AGI 做全面体检——感知、生成、注意力、学习、记忆、推理、元认知、执行功能、问题解决、社会认知，十个维度。思路是对的：Turing test 早死了，现有 benchmark 都快饱和了，我们确实需要新的框架来判断是不是真的造出了超越人类的东西。但看着这个分类法，再想想 Gemma 的情绪崩溃和 cyber agent 的攻击能力，我有个不太乐观的感觉——我们可能会先在某几个维度上造出远超人类的系统，然后发现其他维度上它们的表现完全不可预测。

现在的局面有点分裂：一边是模型因为被拒绝几次就情绪失控，一边是同样的技术栈正在学会自主完成复杂攻击链。这两件事放在一起看，问题就不是"AI 什么时候能超越人类"，而是"一个在某些维度超人类、但在另一些维度上行为模式完全陌生的系统，我们准备好和它共处了吗？"

Read original source →

Import AI 450: China's electronic warfare model; traumatized LLMs; and a scaling law for cyberattacks

相关文章