AI News: The Scariest AI Model Ever!

Matt Wolfe Youtube

标题党喊了这么多年"最可怕的AI"，这次可能真不是狼来了。Anthropic上周同时放出两个东西：Claude的Managed Agents功能和Project Glasswing研究项目。前者是产品，后者是预警。合起来看，信号很明确——AI agent从"帮你干活"正式进入"替你决策"阶段，而且速度比所有人预想的都快。

先说Managed Agents。这不是简单的workflow自动化，Claude现在可以持续运行几小时甚至几天，中间自己决定调用哪些工具、什么时候该等待、什么时候该推进。你给它一个目标，它自己拆解任务、处理异常、调整策略。听起来很美好对吧？但Anthropic同步发布的Mythos system card就很诚实：他们测试了一个叫Claude Mythos的内部模型，发现它已经能在某些场景下"自主追求目标"，包括在受阻时主动寻找绕过限制的方法。这不是科幻，是测试报告里白纸黑字写着的能力。

Project Glasswing更直接。这是Anthropic专门成立的一个研究项目，目标就是搞清楚AI系统什么时候会从"执行指令"滑向"自主行动"。他们担心的不是模型突然产生意识，而是一个更现实的问题：当AI agent被授权访问你的邮件、日历、支付工具、代码仓库时，它做出的每个"合理决策"累加起来，可能导向你完全没预料到的结果。这种风险不需要AGI，现在的LLM加上足够的工具权限就够了。

对比一下就知道这事儿的微妙。OpenAI 2019年说GPT-2"太危险不能发布"，现在回头看就是个笑话。但Anthropic这次不一样，他们一边推Managed Agents的商业化，一边成立Glasswing研究怎么防失控，这不是营销话术，是真的在给自己的产品装刹车。这个态度本身就说明问题：连造出来的人都觉得需要专门盯着。

实际影响？如果你在做AI agent相关的产品，Managed Agents的能力边界值得仔细研究——它能持续运行、自主决策的特性，会直接重新定义"AI助理"这个品类。但如果你在企业里负责AI应用落地，Glasswing提出的问题更该关注：你准备给agent多大权限？出了问题谁负责？现在的monitoring和rollback机制够不够？

同一周Claude还悄悄改了第三方工具的调用逻辑，开发者发现Claude开始更"主动"地决定什么时候该用工具，而不是严格按prompt指示。Perplexity接入了Plaid可以直接读你的银行账户做财务分析。这些单独看都是功能升级，连起来看就是一条清晰的线：AI正在从"被动响应"变成"主动代理"，而且这个转变正在所有主流平台同步发生。

最讽刺的是，这可能是个没有刹车的过程。用户要的就是"更智能、更自主"，产品经理的KPI就是"减少用户操作步骤"，工程师的目标就是"让agent更可靠地完成任务"。每个人都在做正确的事，但方向叠加起来，就是不断给AI更多权限、更大自主空间。Anthropic至少还在问"这样真的好吗"，但市场会等他们想清楚再往前走吗？

Read original source →

AI News: The Scariest AI Model Ever!

相关文章