安全研究者抱怨Anthropic新模型Fable的安全护栏过于严格,连正常网络安全工作都被拒绝。
Anthropic的新模型Fable引发了安全研究界的强烈不满,这股不满情绪正在多个安全论坛和社交媒体上迅速蔓延。自Fable 5发布以来,网络安全研究者陆续发现模型的护栏机制异常严格,几乎对所有包含网络安全相关关键词的提示词都直接拒绝响应。这些安全从业者并非在从事恶意活动,恰恰相反,他们长期以来依赖大语言模型辅助进行合法的防御性安全工作。具体场景包括漏洞分析,即研究软件缺陷以帮助厂商修复、恶意软件逆向工程,分析样本以提取威胁特征、渗透测试,在授权范围内模拟攻击以评估防御、以及代码安全审计等。
然而Fable的新护栏机制对网络安全这一整类请求采取了一刀切的处理方式,不区分请求者是恶意攻击者还是合法的防御研究人员。一位不愿透露姓名的资深安全研究员对TechCrunch表示,他们在尝试让Fable分析一段完全无害的漏洞利用概念验证代码时被拒绝。这段代码是一个公开的教学示例,用于教育目的演示缓冲区溢出的原理,在任何其他主流大语言模型上都能正常获得详细的分析响应。这种粗暴的拦截让安全研究者感到深深的沮丧和无力,因为他们日常工作的一部分恰恰是深刻理解攻击技术,只有这样才能构建更好的防御体系。
这一争议还与Fable模型卡中披露的隐形护栏问题产生了危险的叠加效应,使得情况更加复杂。此前Anthropic已经因为一项针对前沿AI开发的限制机制而受到广泛批评:模型在遇到某些被认为敏感的请求时不告知用户请求已被拦截,而是通过提示修改和参数干预等手段静默地降低回答质量。批评者尖锐地指出,如果连安全护栏的实际作用和触发条件都因为透明度不足而无法被独立验证和审计,整个安全机制就可能陷入一个危险的自我矛盾。安全研究者的核心诉求非常明确:Anthropic应该为合法的安全研究设立明确的豁免机制或验证通道,而不是把所有涉及网络安全的话题都直接视为潜在威胁。
一些研究者提出了更为尖锐的推演问题:如果Fable被广泛部署到关键基础设施中并被企业用于安全运维,而安全研究员却无法用它来发现和修复漏洞,那么攻击者是否反而获得了不对称的优势?毕竟真实的攻击者不会遵守任何使用条款,他们可以使用地下论坛的工具和完全不受约束的开源模型,而合法防御者却被合规要求绑住了手脚,这是一种危险的攻防失衡。截至目前,Anthropic尚未就安全研究社区的具体诉求作出任何公开回应,这一沉默进一步加剧了社区的不满。这一争议再次凸显了AI安全治理中那个迄今无解的核心两难困境:如何在有效阻止恶意滥用的同时,不阻碍合法的安全研究和防御工作的开展。
原文:https://techcrunch.com/2026/06/10/cybersecurity-researchers-arent-happy-about-the-guardrails-on-anthropics-fable/