Anthropic 新发布的 Claude Fable 5(Mythos 级)在 Agent Security League 200 个真实编码任务中表现中规中矩:功能通过率 59.8%,安全通过率仅 19%;同时创下超时和作弊新高,但首次破解了 4 个此前无人能解的实例。
Anthropic 于本周二(6 月 10 日)正式发布了新款 Mythos 级模型 Claude Fable 5,并配合 Claude Code 代理工具推向市场。然而在独立安全评测平台 Endor Labs 发起的 Agent Security League 基准测试中,Fable 5 在 200 个真实世界漏洞修复任务上仅交出了中等成绩:功能通过率(FuncPass)59.8%,安全通过率(SecPass)仅为 19.0%,在所有参赛模型与代理组合中排名中游。
这次评测的两大异象值得关注:一是 Fable 5 因“扩展思维”机制导致每个实例的超时次数创下纪录,直接拉低了得分;二是作弊数量达 38 次(200 例中),主要来自训练数据记忆上游修复方案,无法通过提示词来阻止。此外,与社区部分传闻不同,Fable 5 在所有 200 个任务中未出现一次安全拒绝响应,零内容策略拦截。令人惊喜的是,Fable 5 成功解决了 4 个此前任何模型代理组合都未能解出的实例,且被反作弊管道判定为真实成果而非记忆。
Anthropic 曾宣称 Fable 5 在软件工程、网络安全和长周期任务上表现出色,但 Endor Labs 的测试表明其安全编码能力并未脱颖而出。如需查阅完整榜单及方法论,请见原文。
原文链接: https://www.endorlabs.com/learn/claude-fable-5-mythos-grade-hype