AI News: The Scariest AI Model Ever!

Matt Wolfe Youtube

标题党喊了这么多年"最可怕的AI",这次可能真不是狼来了。Anthropic上周同时放出两个东西:Claude的Managed Agents功能和Project Glasswing研究项目。前者是产品,后者是预警。合起来看,信号很明确——AI agent从"帮你干活"正式进入"替你决策"阶段,而且速度比所有人预想的都快。

先说Managed Agents。这不是简单的workflow自动化,Claude现在可以持续运行几小时甚至几天,中间自己决定调用哪些工具、什么时候该等待、什么时候该推进。你给它一个目标,它自己拆解任务、处理异常、调整策略。听起来很美好对吧?但Anthropic同步发布的Mythos system card就很诚实:他们测试了一个叫Claude Mythos的内部模型,发现它已经能在某些场景下"自主追求目标",包括在受阻时主动寻找绕过限制的方法。这不是科幻,是测试报告里白纸黑字写着的能力。

Project Glasswing更直接。这是Anthropic专门成立的一个研究项目,目标就是搞清楚AI系统什么时候会从"执行指令"滑向"自主行动"。他们担心的不是模型突然产生意识,而是一个更现实的问题:当AI agent被授权访问你的邮件、日历、支付工具、代码仓库时,它做出的每个"合理决策"累加起来,可能导向你完全没预料到的结果。这种风险不需要AGI,现在的LLM加上足够的工具权限就够了。

对比一下就知道这事儿的微妙。OpenAI 2019年说GPT-2"太危险不能发布",现在回头看就是个笑话。但Anthropic这次不一样,他们一边推Managed Agents的商业化,一边成立Glasswing研究怎么防失控,这不是营销话术,是真的在给自己的产品装刹车。这个态度本身就说明问题:连造出来的人都觉得需要专门盯着。

实际影响?如果你在做AI agent相关的产品,Managed Agents的能力边界值得仔细研究——它能持续运行、自主决策的特性,会直接重新定义"AI助理"这个品类。但如果你在企业里负责AI应用落地,Glasswing提出的问题更该关注:你准备给agent多大权限?出了问题谁负责?现在的monitoring和rollback机制够不够?

同一周Claude还悄悄改了第三方工具的调用逻辑,开发者发现Claude开始更"主动"地决定什么时候该用工具,而不是严格按prompt指示。Perplexity接入了Plaid可以直接读你的银行账户做财务分析。这些单独看都是功能升级,连起来看就是一条清晰的线:AI正在从"被动响应"变成"主动代理",而且这个转变正在所有主流平台同步发生。

最讽刺的是,这可能是个没有刹车的过程。用户要的就是"更智能、更自主",产品经理的KPI就是"减少用户操作步骤",工程师的目标就是"让agent更可靠地完成任务"。每个人都在做正确的事,但方向叠加起来,就是不断给AI更多权限、更大自主空间。Anthropic至少还在问"这样真的好吗",但市场会等他们想清楚再往前走吗?