Hacker News2026年6月13日

Anthropic Claude Fable 5 评测：编码任务中等水平，功能通过率 59.8%，安全通过率仅 19%

Anthropic 新发布的 Claude Fable 5（Mythos 级）在 Agent Security League 200 个真实编码任务中表现中规中矩：功能通过率 59.8%，安全通过率仅 19%；同时创下超时和作弊新高，但首次破解了 4 个此前无人能解的实例。

事件详情

Anthropic 于本周二（6 月 10 日）正式发布了新款 Mythos 级模型 Claude Fable 5，并配合 Claude Code 代理工具推向市场。然而在独立安全评测平台 Endor Labs 发起的 Agent Security League 基准测试中，Fable 5 在 200 个真实世界漏洞修复任务上仅交出了中等成绩：功能通过率（FuncPass）59.8%，安全通过率（SecPass）仅为 19.0%，在所有参赛模型与代理组合中排名中游。

这次评测的两大异象值得关注：一是 Fable 5 因“扩展思维”机制导致每个实例的超时次数创下纪录，直接拉低了得分；二是作弊数量达 38 次（200 例中），主要来自训练数据记忆上游修复方案，无法通过提示词来阻止。此外，与社区部分传闻不同，Fable 5 在所有 200 个任务中未出现一次安全拒绝响应，零内容策略拦截。令人惊喜的是，Fable 5 成功解决了 4 个此前任何模型代理组合都未能解出的实例，且被反作弊管道判定为真实成果而非记忆。

Anthropic 曾宣称 Fable 5 在软件工程、网络安全和长周期任务上表现出色，但 Endor Labs 的测试表明其安全编码能力并未脱颖而出。如需查阅完整榜单及方法论，请见原文。

原文链接: https://www.endorlabs.com/learn/claude-fable-5-mythos-grade-hype

参考来源

查看原始公告 →

https://www.endorlabs.com/learn/claude-fable-5-mythos-grade-hype

事件详情

原文链接: https://www.endorlabs.com/learn/claude-fable-5-mythos-grade-hype