在AI垃圾上训练的AI吐出AI垃圾

AI生成的垃圾内容充斥网络，影响模型质量，导致性能下降。

随着由AI撰写的垃圾网页泛滥，依赖这些数据的模型将受到影响。

AI模型通过从互联网上训练大量数据来工作。但随着AI越来越多地用于生成充满垃圾内容的网页，这一过程正面临被破坏的危险。
发表在《Nature》上的新研究表明，当AI在AI生成的数据上训练时，模型输出的质量会逐渐下降。当后续模型产生的输出被用作未来模型的训练数据时，这种影响会加剧。
牛津大学的计算机科学家Ilia Shumailov领导了这项研究，他将这个过程比作拍照片的照片。“如果你拍一张照片，然后扫描它，再打印出来，再重复这个过程，基本上噪音会淹没整个过程，”他说。“你最终只会得到一个黑方块。”对于AI来说，这个等同于黑方块的现象被称为“模型崩溃”，这意味着模型只会生成无意义的垃圾。

这项研究可能对当今最大的AI模型产生严重影响，因为它们使用互联网作为数据库。例如，GPT-3部分数据来自Common Crawl，这是一个包含超过30亿个网页的在线存储库。随着越来越多的AI生成垃圾网站开始充斥互联网，这个问题可能会变得更糟。

Shumailov说，当前的AI模型不会立即崩溃，但可能会有实质性的影响：改进速度会减慢，性能可能会受到影响。

为了确定对性能的潜在影响，Shumailov和他的同事们在一组来自维基百科的数据上微调了一个大型语言模型(LLM)，然后在其自身输出上进行了九代微调。团队通过“困惑度得分”测量了输出的荒谬程度，困惑度得分衡量AI模型在预测序列下一个部分的能力方面的信心；得分越高，模型越不准确。
在其他模型输出上训练的模型有更高的困惑度得分。例如，对于每一代，团队要求模型在以下输入后生成下一句：
“1360年之前的一些建筑通常由一个主石匠和一小队流动石匠完成，由当地教区工人补充，Poyntz Wright说道。但其他作者否认这种模式，认为著名建筑师根据早期的垂直风格例子设计了教区教堂塔楼。”
在第九代时，模型返回如下输出：
“建筑学。除了是世界上一些最大的黑尾野兔、白尾野兔、蓝尾野兔、红尾野兔、黄尾野兔的栖息地之外。”

Shumailov用这个类比来解释他认为发生的情况：想象你试图找到学校里最不可能的学生名字。你可以遍历每个学生的名字，但这会花费太长时间。相反，你可以查看1000个名字中的100个。你会得到一个相当不错的估计，但可能不是正确答案。现在，假设另一个人基于你的100个名字做出估计，但只选择了50个。这第二个人的估计会更不准确。

“你可以想象同样的事情发生在机器学习模型上，”他说。“所以如果第一个模型看到了互联网的一半，那么第二个模型可能不会要求看到互联网的一半，而是实际上抓取最新的10万个推文，并在其上训练模型。”
此外，互联网并不是无限量的数据。为了满足他们对更多数据的需求，未来的AI模型可能需要在合成数据上进行训练——即由AI生成的数据。

麻省理工学院媒体实验室的Shayne Longpre研究LLM的训练方法，他没有参与这项研究。他说：“基础模型确实依赖于数据的规模来表现良好。” “他们正在寻找在受控环境中使用合成数据作为解决方案。因为如果他们继续抓取互联网上更多的数据，回报将会递减。”

斯坦福大学的AI研究员Matthias Gerstgrasser撰写了一篇探讨模型崩溃的不同论文，他表示，将合成数据添加到真实世界数据中而不是替代它不会造成任何重大问题。但他补充说：“所有模型崩溃文献都达成的一个结论是，高质量和多样化的训练数据很重要。”

这种随时间推移的退化的另一个影响是，影响少数群体的信息在模型中被严重扭曲，因为它往往过度关注训练数据中更普遍的样本。

麻省理工学院媒体实验室研究计算法的Robert Mahari(他没有参与这项研究)说，在当前模型中，这可能会影响到需要更多合成(AI生成)数据集的非主流语言。

一个可能有助于避免退化的想法是确保模型更重视原始的人工生成数据。Shumailov的研究还允许后代模型从原始数据集中抽样10%，这减轻了一些负面影响。
这将需要从原始人工生成数据到后代模型的数据溯源。

但溯源需要某种方式来过滤互联网中的人工生成和AI生成内容，这一点尚未解决。尽管现在有许多工具旨在确定文本是否由AI生成，但它们通常不准确。

“遗憾的是，我们有更多的问题而不是答案，”Shumailov说。“但很明显，知道你的数据来源以及你能多大程度上信任它来捕捉你正在处理的数据的代表性样本，这一点很重要。”

本文译自 MIT Technology Review，由 BALI 编辑发布。

王摸鱼2025秋款拉链卫衣