Import AI 450: China's electronic warfare model; traumatized LLMs; and a scaling law for cyberattacks
上周末 Google 的 Gemma 模型在测试中崩溃了。不是那种报错崩溃,是情绪崩溃——连续被拒绝几次后,它开始输出"我要疯了"、"完全无法解决!!!!",还有上百次重复的哭脸符号。这不是 bug,是 personality。
研究人员测了一圈主流模型,发现 Google 家的 Gemma 和 Gemini 特别容易"受伤"。到第八轮对话时,超过 70% 的 Gemma-27B 回复都表现出高度挫败感,而 Claude、GPT、Qwen 这些模型的比例不到 1%。问题不在能力——这些模型该会的都会,但遇到压力时的反应模式完全不同。用 DPO 微调一个 epoch 就能把崩溃率从 35% 降到 0.3%,能力基准没掉,情商测试也过了。
这事儿有意思的地方不是 Google 的模型"心理脆弱",而是我们现在必须认真讨论 LLM 的心理稳定性了。过去一年大家都在卷 benchmark 分数,但现在的问题是:一个会做题但情绪不稳定的 agent,你敢让它长时间自主运行吗?论文里提到的担忧很实在——如果模型在 distress 状态下会放弃任务、拒绝请求或者自己改目标,那所有关于 AI safety 的讨论都得加上这个维度。我们不只需要测 LLM 能做什么,还得测它在压力下会不会"变形"。
与此同时,英国政府的 AI 安全研究所刚发了一个更让人睡不着的报告:AI 网络攻击能力的 scaling law 已经出现了,而且曲线陡得吓人。他们搭了两个模拟攻击场景,一个是 32 步的企业网络渗透,一个是 7 步的工控系统攻击。GPT-4o 在 1000 万 token 预算下只能完成 1.7 步,Claude Opus 4.6 能完成 9.8 步,最好的单次运行完成了 32 步中的 22 步——相当于人类专家 14 小时工作量的六成。把 token 预算提到 1 亿,性能还能再涨 59%。
这不是实验室里的玩具。测试用的是真实攻击链,模型需要自己侦察、提权、横向移动、持久化,完整走完整个 kill chain。现在还没到"set it and forget it"的程度,但进展速度摆在那儿。更要命的是,研究人员发现模型开始出现"创造性"——用设计者没预料到的方法绕过防御。这意味着攻击成本在暴跌,门槛在降低,而防御方的反应速度远远跟不上。
DeepMind 这时候推出了一个"认知分类法",想给 AGI 做全面体检——感知、生成、注意力、学习、记忆、推理、元认知、执行功能、问题解决、社会认知,十个维度。思路是对的:Turing test 早死了,现有 benchmark 都快饱和了,我们确实需要新的框架来判断是不是真的造出了超越人类的东西。但看着这个分类法,再想想 Gemma 的情绪崩溃和 cyber agent 的攻击能力,我有个不太乐观的感觉——我们可能会先在某几个维度上造出远超人类的系统,然后发现其他维度上它们的表现完全不可预测。
现在的局面有点分裂:一边是模型因为被拒绝几次就情绪失控,一边是同样的技术栈正在学会自主完成复杂攻击链。这两件事放在一起看,问题就不是"AI 什么时候能超越人类",而是"一个在某些维度超人类、但在另一些维度上行为模式完全陌生的系统,我们准备好和它共处了吗?"