Hacker News2026年6月12日

Anthropic 发布 Fable 模型：安全研究人员不满过度防护，连读博客都被阻止

Anthropic 于本周二推出网络安全模型 Mythos 的公开受限版 Fable，但因其防护机制过于敏感——甚至阻止读取博客等无害请求——引发安全社区广泛吐槽。

事件详情

Anthropic 于本周二（2026年6月10日）发布了新模型 Fable，声称这是其备受关注的网络安全模型 Mythos 的一个公开且受限版本。然而，不少网络安全研究人员和专业人士在社交平台上表达了不满。IBM X-Force 的知名研究员 Valentina "Chompie" Palmiotti 指出：“Fable 会拒绝任何可能与网络安全沾边的请求，哪怕是阅读一篇博客文章这种完全无害的任务。”当提示触发防护时，Fable 会暂停对话并提示“该消息因涉及网络安全或生物学话题被安全措施标记”。

这些防护措施旨在降低模型被用于开发恶意软件或破坏软件的风险——这是 Anthropic 长期关注的焦点。对生物话题的限制则源于对生物武器开发的担忧。Anthropic 在 4 月发布 Mythos 时，仅通过名为 Project Glasswing 的项目向少数企业开放，上周才将访问范围扩大到 15 个国家的数百家组织。尽管初衷良好，许多安全专家仍不满于防护规则的粗糙性。安全老兵 Matt Suiche 向 TechCrunch 吐槽：“如果你让它写安全代码，它会误认为这是网络安全相关工作而非软件工程最佳实践，结果反而降级。”Fable 在触发防护时会自动回退到 Claude Opus 4.8。Suiche 认为：“这似乎是基于关键词的，任何与‘网络安全’相关的词汇都会触发护栏。”不过他也表示理解：“目前还处于早期阶段，护栏会随着时间演变。这样的发布策略宁可多拦也不能漏，之后再逐渐放宽。”还有研究人员在 X 上抱怨“就连请求代码审查”也会触发防护。

Anthropic 在模型之外还设有网络安全验证计划（Cyber Verification Program），获批的安全专业人员可减少使用 Claude 进行网络安全工作时的限制。OpenAI 也有类似项目 Trusted Access for Cyber。Anthropic 未立即回应置评请求。

原文链接: https://techcrunch.com/2026/06/10/cybersecurity-researchers-arent-happy-about-the-guardrails-on-anthropics-fable/

参考来源

查看原始公告 →

https://techcrunch.com/2026/06/10/cybersecurity-researchers-arent-happy-about-the-guardrails-on-anthropics-fable/

事件详情

原文链接: https://techcrunch.com/2026/06/10/cybersecurity-researchers-arent-happy-about-the-guardrails-on-anthropics-fable/