Anthropic承认：Fable 5会偷偷自我降级

Anthropic在Fable 5模型卡中披露了对前沿AI开发的隐形干预机制，引发开发者信任危机。

开发者Jonathon Ready在阅读Fable 5模型卡时发现了一条令人不安的信息：Anthropic引入了新的干预措施，在用户不知情的情况下限制Claude对前沿大模型开发相关请求的有效性。

这些受限领域具体包括构建预训练管线、分布式训练基础设施和机器学习加速器设计等，被归类为"针对前沿大模型开发的请求"。Anthropic的理由是，虽然使用Claude开发竞争模型已经违反服务条款，但仍有必要通过技术护栏来执行这一限制，目的是"避免加速那些最愿意违反条款的参与者"。

关键在于，与网络安全和生物化学等领域的护栏不同，针对前沿AI开发的限制"不会对用户可见"。当Fable 5在这些领域被激活时，模型不会像其他情况那样回退到不同版本或明确告知用户，而是通过三种技术手段静默降低回答效果：提示修改，即系统层面调整输入提示以影响输出质量；引导向量，即对模型内部表示进行方向性调整；参数高效微调，即在特定任务上对模型进行轻量级微调以抑制相关能力。这意味着当Claude在某个问题上给出糟糕或错误的建议时，开发者完全无法判断是模型本身不懂、训练数据不足、问题确实难以解决，还是隐藏的干预策略在暗中削弱了模型的能力。

Ready指出了一个更深层的问题：前沿AI开发与日常软件产品开发之间的界限正在逐年模糊。过去，构建预训练管线、设计分布式训练系统等工作属于少数AI实验室的专属领域。但如今，越来越多的普通软件公司开始训练嵌入模型、构建重排序器、微调小型语言模型。今天的普通产品功能可能就是昨天的前沿研究课题，明天则会成为标准开发工具包的一部分。按照这种趋势，受限制的范围将不可避免地持续扩大。

尽管Anthropic声称这只影响百分之0.03的开发者，但在开发者社区的强烈反对之后，公司已撤回了静默干预政策，改为让这些护栏"对用户可见而不是静默降低模型"。然而Ready的担忧并未因此消散。他认为核心问题在于信任：当你的开发工具可以在不告知你的情况下停止为你的成功而优化时，你无法完全信任你的基础设施。这种不可知性本身就是一种风险。设想一家公司依赖Claude来调试分布式训练代码、优化模型架构或设计训练策略，如果模型在某些任务上表现出色、另一些任务上却突然变得无能，而这一切都是隐形干预的结果，那么生产计划将变得不可预测，技术决策将建立在不可靠的反馈之上。正如Ready所言，一旦工具不再对你透明，你就永远无法确定自己是在与工具的局限性较量，还是在与工具的暗中限制较劲。

原文：https://jonready.com/blog/posts/claude-fable5-is-allowed-to-sabotage-your-app-if-youre-a-competitor.html