Anthropic在AI研究社区的强烈反弹下,被迫撤回了一项针对竞争对手的隐秘限制政策。这一事件不仅暴露了头部AI公司在商业利益与开放生态之间的深层矛盾,也引发了外界对AI行业透明度的广泛质疑。

据Wired报道,Anthropic本周早些时候发布了最新模型Claude Fable 5,并在长达319页的系统说明文件中悄然披露了一项特殊安排:针对"前沿大语言模型开发"相关请求,模型将在用户毫不知情的情况下被暗中降低性能,手段包括修改提示词、使用引导向量或参数高效微调(PEFT)等技术。这意味着,任何试图借助Claude开发竞争性AI模型的研究人员,都可能在不知情的情况下收到被悄然"注水"的回答。

消息曝光后,AI研究社区迅速爆发强烈批评。Anthropic随即在媒体采访时道歉,并宣布撤回该政策。"我们正在调整Fable 5针对前沿大语言模型开发的安全措施,使其对用户可见,"Anthropic在接受媒体采访时表示,"我们在权衡上做出了错误的选择,对未能把握好这一平衡深表歉意。"


隐秘降级:一项藏在系统文件里的政策

与Anthropic此前针对网络安全、生物和化学领域的限制措施不同,这项针对AI开发的干预从一开始就被设计为"不可见"。

根据系统说明文件,Fable 5不会像处理其他敏感请求那样将用户切换至能力较弱的模型,而是直接在原模型内部悄然降低输出质量。Anthropic估计,该措施将影响约0.03%的流量,集中在不足0.1%的用户组织中。

Anthropic为此给出的理由是:近期模型已具备加速自身研发的能力,公司担忧AI能力提升速度超出社会适应能力。公司还表示,相关安全措施旨在防止外国对手利用其最先进模型从事危害安全的活动,并保护美国及盟友在前沿芯片和优化软件领域的竞争优势。

公司进一步解释称,隐藏式安全措施之所以更难被探测和绕过,是因为可以更精准地定向实施。然而,这一逻辑在研究社区看来难以令人信服。

被指"秘密破坏"与"拉高梯子"

批评声音迅速在AI研究圈蔓延,矛头直指这一政策的隐秘性本身。

美国创新基金会高级研究员、前白宫AI顾问Dean Ball在X平台发文称,"在不告知用户的情况下降低机器学习研究的性能,是令人震惊的敌意行为,形象极差。"他还指出,这种"秘密破坏"政策与Anthropic一贯标榜的AI安全立场相互矛盾,因为它实际上限制了AI研究人员在安全领域的协作空间。


开源AI初创公司Prime Intellect的研究负责人Will Brown则将此举比作"拉高梯子"。"这感觉像是Anthropic在向公众宣告:'我们不信任任何其他人做AI研究,只有我们才能做,'"他表示。Brown还指出,由于Anthropic不会在触发安全措施时发出任何提示,开发者将完全无从判断自己是否已违反平台规则。

他进一步警告,这一政策的潜在影响远不止于直接竞争对手——专门对前沿模型进行安全性、性能和可靠性测试的第三方评估机构,同样可能因此受到波及。

撤回与后续:透明化代价是"误伤"增加

面对舆论压力,Anthropic宣布将相关安全措施改为对用户可见。此后,若公司判断某用户正试图利用Claude构建高能力AI模型,将明确告知用户其请求被拒绝或被转至能力较弱的模型,而非悄然降级。

不过,Anthropic也坦承,透明化本身带来新的代价。由于可见的安全措施更容易被探测和规避,公司不得不将拦截范围设置得更宽,这意味着更多无害请求可能被误触发。Anthropic表示,正在尽快提升分类器的精准度。

此次事件是Anthropic首次公开承认对模型输出实施此类"静默干预"。在AI行业竞争日趋激烈的背景下,这一插曲折射出头部AI公司在商业护城河、安全叙事与开放生态之间愈发难以调和的张力,也令外界对AI公司系统文件中可能隐藏的其他类似条款保持更高警惕。