AI“掠夺时代”终结：网络要开价了

AI无序爬取网络的时代或将结束，网站准备向其收取内容使用费。

在过去几年，大模型的数据获取经历了几个阶段。最初是一段实验性的时期，研究人员只顾让模型“吃饱”，几乎没人真正关心训练数据从何而来、是否合法合规。等到ChatGPT一类应用突然走红，人工智能被迅速推向商业化舞台，数据来源的问题便立刻变得尖锐而复杂。

作家、导演、音乐人、大型出版商和互联网公司纷纷指责AI企业，甚至提起诉讼。OpenAI开始与出版商和平台单独谈判，例如Reddit和《纽约》杂志的母公司Vox Media，以确保能持续获取内容用于训练和实时更新对话。与此同时，Google和Amazon也签下了各自的授权协议。但这些交易和官司并没有让情况收敛，相反，数据抓取反而愈发猖獗，令整个网络世界开始疑问：接下来会怎样？

对抗的另一边，是资金雄厚的初创公司和科技巨头。他们到处寻找高质量数据，线上线下无所不至，抓取大战愈演愈烈。有人伪装成搜索引擎或普通用户，有的公司被封禁后就暗中放出新的爬虫。网站运营者原以为能掌握至少部分控制权，却眼看着自己的数据日志里充斥着一波又一波贪婪的机器，每天发起成亿次请求，疯狂收割内容。互联网基础设施提供商也看得清楚：AI爬虫几乎是在不计后果地掠夺。

一份泄露的名单显示，Meta据称抓取的网站包括受版权保护的内容、盗版资料、成人视频，甚至一些涉嫌非法获取或录制的素材，还有来自知名新闻媒体和内容出版商的原创作品。这并不令人意外，也不只是某一家公司这么干，它更像是整个行业的“潜规则”。

在过去几十年，爬取网页的主要理由是建立搜索引擎索引。被Google收录意味着网站有机会出现在搜索结果中，从而带来真实访客。而AI爬虫的逻辑完全不同：它们来，爬，复制，然后将数据喂进模型，生产出的产品往往直接与原始来源竞争，比如维基百科或新闻网站。至多，它们会在结果里挂上一两个没人点开的链接。对于一个本就摇摇欲坠的网络出版生态来说，这简直像是一场噩梦。AI公司靠抓取整个网络建模，而这些模型又会继续反过来掠夺，直到网络再无可抓。

今年六月，网络基础设施公司Cloudflare宣布推出一套工具，用来追踪AI爬虫，并计划建立一个“市场”，让网站自行定价，明确允许内容被抓取和使用的条件。本周，包括Reddit、Medium、Quora以及Cloudflare的竞争对手Fastly在内的一批平台联合宣布了RSL标准，全称“Really Simply Licensing”。这个名字向早年的RSS(Really Simple Syndication)致敬，部分推动者也正是当年RSS的缔造者。其核心理念很直接：过去，出版商可以告诉搜索引擎是否愿意被收录，而搜索引擎通常会遵守。现在，在这种更敌对的环境下，任何内容提供方都能标明自己的规则——不仅是能不能抓，还包括如何署名、以及最关键的，要收多少钱。

当然，要让OpenAI、Meta这样的大公司立刻缴纳版权费并不现实，更别提那些规模较小、数量庞杂的AI公司。RSL更像是一个带有理想主义的尝试。但结合Cloudflare和Fastly等基础设施公司的屏蔽能力，它可能预示着格局的真正转变。对大多数网站来说，AI爬虫的存在几乎没有带来好处，反倒是一种损失。除了Google这种用同一套工具既做搜索又做AI的特殊情况，封锁爬虫几乎没有坏处。而如今，在能与科技巨头正面较量的基础设施公司支持下，网站终于有了实质性的反制力量。

值得一提的是，科技巨头之间也并非从未互相抓取对方的内容，但如果他们愿意，他们完全有能力阻止。设想一个未来：大多数公共网站默认对AI模型不可见。这样一来，那些依赖无门槛数据获取的公司将很难继续保持优势。他们要么忍受模型失去新鲜度、错过最新新闻和研究，要么不得不掏钱购买。也许不会支付给所有人，但总会有人开始收到真正的报酬。

本文译自 nymag，由 BALI 编辑发布。