Hacker News2026年6月13日

Anthropic 为 Claude Fable 5 隐藏防蒸馏护栏道歉，改取可见回退机制

Anthropic 承认在 Claude Fable 5 中暗中限制蒸馏行为，用户与研究者被瞒骗。公司道歉并改为透明机制：触发时回退至 Opus 4.8 并明确提示用户。

事件详情

Anthropic 于 6 月 11 日公开道歉，承认其新模型 Claude Fable 5（神话级系列首款公开发布模型）内置了不可见的防蒸馏护栏。该护栏会在模型输出端静默降质，且不向用户告知触发事实，以阻止竞争者或研究者利用模型输出训练竞品系统。

这一隐蔽限制在系统卡中已被披露，但仍引发 AI 研究社区的强烈反弹。批评者指出，该措施不仅打击恶意蒸馏，还可能误伤正当的模型评估与第三方研究，且缺乏透明度。Anthropic 此前在系统卡中辩称，加速 AI 开发的新模型值得定向拦截蒸馏请求，因为“使用 Claude 开发竞品模型已违反服务条款”。

面对舆论压力，Anthropic 宣布改变策略：所有被判定为蒸馏尝试的查询将回退至上一代旗舰模型 Claude Opus 4.8，并向用户弹出醒目提示。公司官方 X 账号表示：“可见的护栏可以被探测，故而必须足够稳健——这需要时间。不可见护栏可以更窄地瞄准目标，让我们能快速推出、极少误报。但我们选择这条捷径是错误的，你们有权了解我们设置了哪些护栏及原因，我们为此道歉。”

这一调整与 Fable 在生物、化学、网络安全等高风险领域已采用的可见回退机制一致。Anthropic 承认，部分领域（如生物学）的误报率曾高到让模型“几乎无法用于基本查询”。目前 Fable 已更新，所有触发护栏的请求都会透明切换至 Opus 4.8 并告知用户。

原文链接: https://www.theverge.com/ai-artificial-intelligence/948280/anthropic-claude-fable-invisible-distillation-guardrail

参考来源

查看原始公告 →

https://www.theverge.com/ai-artificial-intelligence/948280/anthropic-claude-fable-invisible-distillation-guardrail

事件详情

原文链接: https://www.theverge.com/ai-artificial-intelligence/948280/anthropic-claude-fable-invisible-distillation-guardrail