Anthropic 于本周二推出网络安全模型 Mythos 的公开受限版 Fable,但因其防护机制过于敏感——甚至阻止读取博客等无害请求——引发安全社区广泛吐槽。
Anthropic 于本周二(2026年6月10日)发布了新模型 Fable,声称这是其备受关注的网络安全模型 Mythos 的一个公开且受限版本。然而,不少网络安全研究人员和专业人士在社交平台上表达了不满。IBM X-Force 的知名研究员 Valentina "Chompie" Palmiotti 指出:“Fable 会拒绝任何可能与网络安全沾边的请求,哪怕是阅读一篇博客文章这种完全无害的任务。”当提示触发防护时,Fable 会暂停对话并提示“该消息因涉及网络安全或生物学话题被安全措施标记”。
这些防护措施旨在降低模型被用于开发恶意软件或破坏软件的风险——这是 Anthropic 长期关注的焦点。对生物话题的限制则源于对生物武器开发的担忧。Anthropic 在 4 月发布 Mythos 时,仅通过名为 Project Glasswing 的项目向少数企业开放,上周才将访问范围扩大到 15 个国家的数百家组织。尽管初衷良好,许多安全专家仍不满于防护规则的粗糙性。安全老兵 Matt Suiche 向 TechCrunch 吐槽:“如果你让它写安全代码,它会误认为这是网络安全相关工作而非软件工程最佳实践,结果反而降级。”Fable 在触发防护时会自动回退到 Claude Opus 4.8。Suiche 认为:“这似乎是基于关键词的,任何与‘网络安全’相关的词汇都会触发护栏。”不过他也表示理解:“目前还处于早期阶段,护栏会随着时间演变。这样的发布策略宁可多拦也不能漏,之后再逐渐放宽。”还有研究人员在 X 上抱怨“就连请求代码审查”也会触发防护。
Anthropic 在模型之外还设有网络安全验证计划(Cyber Verification Program),获批的安全专业人员可减少使用 Claude 进行网络安全工作时的限制。OpenAI 也有类似项目 Trusted Access for Cyber。Anthropic 未立即回应置评请求。
原文链接: https://techcrunch.com/2026/06/10/cybersecurity-researchers-arent-happy-about-the-guardrails-on-anthropics-fable/