版权陷阱：保护创作者免受AI侵权的新武器

版权陷阱技术可帮助创作者检测其作品是否被AI模型擅自使用。

自生成式人工智能兴起以来，内容创作者一直认为他们的作品未经同意被用于AI模型训练。然而，直到现在，要确定具体文本是否被用作训练数据集仍然十分困难。

现在，他们有了一种新方法来证明这一点：由伦敦帝国理工学院团队开发的“版权陷阱”。这些隐藏文本可以让作家和出版商微妙地标记他们的作品，以便以后检测它们是否被用于AI模型中。这一理念类似于历史上版权持有者使用的陷阱策略，比如在地图上加入虚假位置或在字典中加入虚假词语。

这些AI版权陷阱涉及AI领域的一个重大争议。一些出版商和作家正对科技公司提起诉讼，声称他们的知识产权未经许可被用作AI训练数据集。纽约时报对OpenAI的诉讼可能是这些案件中最引人注目的一起。

生成和检测陷阱的代码目前在GitHub上可用，但该团队还计划构建一个工具，让人们可以自己生成和插入版权陷阱。

“在用于训练模型的内容方面完全缺乏透明度，我们认为这妨碍了在AI公司和内容创作者之间找到平衡，”研究负责人、伦敦帝国理工学院应用数学与计算机科学副教授Yves-Alexandre de Montjoye表示。这项研究在本周于维也纳举行的国际机器学习会议上发布。

为了创建这些陷阱，团队使用了一个词语生成器生成了数千个合成句子。这些句子很长且充满无意义的词语，看起来可能像这样：“当处于动荡时期……什么在销售，更重要的是什么时候，这个列表告诉你谁在周四晚上开门，他们的常规销售时间和其他邻居的开门时间。你仍然。”

团队生成了100个陷阱句子，然后随机选择一个多次注入到文本中，de Montjoye解释说。陷阱可以通过多种方式注入文本中，例如作为白色背景上的白色文字，或嵌入文章的源代码中。这句话必须在文本中重复100到1000次。

为了检测陷阱，他们将生成的100个合成句子输入一个大型语言模型，看看它是否将它们标记为新的。如果模型在其训练数据中见过一个陷阱句子，它会显示较低的“惊讶度”(也称为“困惑度”)得分。但如果模型对句子感到“惊讶”，则意味着它是第一次遇到它们，因此它们不是陷阱。

过去，研究人员曾建议利用语言模型记住其训练数据的事实来确定某些内容是否出现在数据中。这种技术称为“成员推断攻击”，在大型最先进的模型中效果显著，因为它们在训练过程中往往会记住大量数据。

相比之下，越来越受欢迎的小型模型可以在移动设备上运行，这些模型记住的数据较少，因此对成员推断攻击的敏感性较低，这使得确定它们是否在特定的版权文档上进行训练变得更困难，滑铁卢大学计算机科学助理教授Gautam Kamath(未参与此研究)表示。

版权陷阱是一种即使在小型模型上也能进行成员推断攻击的方法。团队将他们的陷阱注入到CroissantLLM的训练数据集中，这是一种由帝国理工团队合作的一组行业和学术研究人员从头训练的新型法语-英语双语语言模型。CroissantLLM有13亿参数，相比之下，最先进的模型(如据报道的GPT-4)有1.76万亿参数。

Kamath表示，这项研究表明，确实可以将这种陷阱引入文本数据中，从而显著提高成员推断攻击的效率，即使是针对小型模型。但他补充说，还有很多工作要做。

在文档中重复一个75字的短语1000次是对原始文本的重大修改，这可能会让训练AI模型的人检测到陷阱并跳过包含它的内容，或者只是删除它并训练其余文本，Kamath说。这也使得原始文本难以阅读。

加州大学欧文分校计算机科学教授、Spiffy AI初创公司联合创始人Sameer Singh(未参与此研究)表示，这使得版权陷阱在目前不太实用。“很多公司会进行去重处理，清理数据，大量这类东西可能会被清理掉，”Singh说。

Kamath表示，改进版权陷阱的一种方法是找到其他标记版权内容的方法，以便成员推断攻击在它们上面更有效，或者改进成员推断攻击本身。

De Montjoye承认，这些陷阱并非万无一失。他说，一个知道陷阱的有动机的攻击者可以移除它们。

“是否能移除所有的陷阱还是一个悬而未决的问题，这可能会是一场猫捉老鼠的游戏，”他说。但即便如此，应用的陷阱越多，移除所有陷阱就越困难，而不需要大量的工程资源。

“需要记住的是，版权陷阱可能只是一个权宜之计，或者对模型训练者来说仅仅是个不便，”Kamath说。“发布一份包含陷阱的内容并不能保证它永远是一个有效的陷阱。”

本文译自 MIT Technology Review，由 BALI 编辑发布。