Anthropic 承认在 Claude Fable 5 中暗中限制蒸馏行为,用户与研究者被瞒骗。公司道歉并改为透明机制:触发时回退至 Opus 4.8 并明确提示用户。
Anthropic 于 6 月 11 日公开道歉,承认其新模型 Claude Fable 5(神话级系列首款公开发布模型)内置了不可见的防蒸馏护栏。该护栏会在模型输出端静默降质,且不向用户告知触发事实,以阻止竞争者或研究者利用模型输出训练竞品系统。
这一隐蔽限制在系统卡中已被披露,但仍引发 AI 研究社区的强烈反弹。批评者指出,该措施不仅打击恶意蒸馏,还可能误伤正当的模型评估与第三方研究,且缺乏透明度。Anthropic 此前在系统卡中辩称,加速 AI 开发的新模型值得定向拦截蒸馏请求,因为“使用 Claude 开发竞品模型已违反服务条款”。
面对舆论压力,Anthropic 宣布改变策略:所有被判定为蒸馏尝试的查询将回退至上一代旗舰模型 Claude Opus 4.8,并向用户弹出醒目提示。公司官方 X 账号表示:“可见的护栏可以被探测,故而必须足够稳健——这需要时间。不可见护栏可以更窄地瞄准目标,让我们能快速推出、极少误报。但我们选择这条捷径是错误的,你们有权了解我们设置了哪些护栏及原因,我们为此道歉。”
这一调整与 Fable 在生物、化学、网络安全等高风险领域已采用的可见回退机制一致。Anthropic 承认,部分领域(如生物学)的误报率曾高到让模型“几乎无法用于基本查询”。目前 Fable 已更新,所有触发护栏的请求都会透明切换至 Opus 4.8 并告知用户。
原文链接: https://www.theverge.com/ai-artificial-intelligence/948280/anthropic-claude-fable-invisible-distillation-guardrail