全球正在耗尽数据来喂养AI

人工智能(AI)正处于其流行高峰期，研究人员警告称，这一行业可能正在耗尽训练数据，这是运行强大的AI系统的燃料。

这可能会减缓AI模型的增长，特别是大型语言模型，并可能改变AI革命的轨迹。

但是，考虑到网络上有多少数据，为什么潜在的数据短缺会成为一个问题？有没有办法解决这个风险？

为什么高质量的数据对AI很重要

我们需要大量的数据来训练强大、准确和高质量的AI算法。例如，ChatGPT是在570GB的文本数据，约3000亿个单词上进行训练的。

同样，稳定扩散算法(这是许多AI图像生成应用的背后，如DALL-E、Lensa和Midjourney)是在包含58亿个图像-文本对的LIAON-5B数据集上进行训练的。如果算法是在不足量的数据上训练的，它将产生不准确或低质量的输出。

训练数据的质量也很重要。社交媒体帖子或模糊的照片等低质量数据很容易获得，但不足以训练高性能的AI模型。

从社交媒体平台获取的文本可能存在偏见、偏见，或包含虚假信息或非法内容，这些内容可能会被模型复制。例如，当微软试图使用Twitter内容来训练其AI机器人时，它学会了制造种族主义和厌恶女性的输出。

这就是为什么AI开发人员寻求高质量的内容，如书籍、在线文章、科学论文、维基百科和某些过滤后的网络内容。谷歌助手是在从自我出版网站Smashwords收集的11,000本言情小说上进行训练的，以使其更具交互性。

我们是否有足够的数据？

AI行业一直在训练越来越大的数据集的AI系统，这就是为什么我们现在拥有ChatGPT或DALL-E 3等高性能模型的原因。与此同时，研究表明，与用于训练AI的数据集相比，网络数据库的增长速度要慢得多。

去年发表的一篇论文中，一组研究人员预测，如果当前的AI培训趋势继续，到2026年之前，我们将耗尽高质量的文本数据。他们还估计，低质量的语言数据将在2030年至2050年之间耗尽，低质量的图像数据将在2030年至2060年之间耗尽。

普华永道会计和咨询集团预计，到2030年，AI可能为世界经济贡献15.7万亿美元(24.1万亿澳元)。但是，数据不足可能会减缓其发展。

我们应该担心吗？

虽然上述观点可能会使一些AI粉丝感到担忧，但情况可能没有看起来那么糟糕。关于AI模型未来如何发展，还有很多未知数，也有一些方法来解决数据短缺的风险。

一种机会是让AI开发人员改进算法，使其更有效地使用他们已经拥有的数据。

未来几年，他们可能能够使用更少的数据，甚至可能使用更少的计算能力来训练高性能的AI系统。这也有助于减少AI的碳足迹。

另一种选择是使用AI来创建合成数据来训练系统。换句话说，开发人员可以简单地生成他们需要的数据，并为特定的AI模型进行筛选。

一些项目已经在使用合成内容，通常是从数据生成服务(如Mostly AI)中获取的。这在未来将变得更加普遍。

开发人员还在寻找免费在线空间之外的内容，比如大型出版商和离线存储库拥有的内容。想想互联网出现之前出版的数百万篇文本。如果可以以数字形式提供，它们可以为AI项目提供新的数据来源。

新闻集团是世界上最大的新闻内容所有者之一(其许多内容都在付费墙后面)，最近表示正在与AI开发人员谈判内容交易。这样的交易将迫使AI公司为培训数据付费——因为他们迄今为止大多是免费从互联网上抓取数据。

内容创作者抗议未经授权使用他们的内容来训练AI模型，一些人起诉微软、OpenAI和稳定性AI等公司。为他们的工作获得报酬可能有助于恢复创意和AI公司之间存在的权力失衡。

本文译自 ScienceAlert，由 BALI 编辑发布。