AI无序爬取网络的时代或将结束,网站准备向其收取内容使用费。

在过去几年,大模型的数据获取经历了几个阶段。最初是一段实验性的时期,研究人员只顾让模型“吃饱”,几乎没人真正关心训练数据从何而来、是否合法合规。等到ChatGPT一类应用突然走红,人工智能被迅速推向商业化舞台,数据来源的问题便立刻变得尖锐而复杂。

作家、导演、音乐人、大型出版商和互联网公司纷纷指责AI企业,甚至提起诉讼。OpenAI开始与出版商和平台单独谈判,例如Reddit和《纽约》杂志的母公司Vox Media,以确保能持续获取内容用于训练和实时更新对话。与此同时,Google和Amazon也签下了各自的授权协议。但这些交易和官司并没有让情况收敛,相反,数据抓取反而愈发猖獗,令整个网络世界开始疑问:接下来会怎样?

对抗的另一边,是资金雄厚的初创公司和科技巨头。他们到处寻找高质量数据,线上线下无所不至,抓取大战愈演愈烈。有人伪装成搜索引擎或普通用户,有的公司被封禁后就暗中放出新的爬虫。网站运营者原以为能掌握至少部分控制权,却眼看着自己的数据日志里充斥着一波又一波贪婪的机器,每天发起成亿次请求,疯狂收割内容。互联网基础设施提供商也看得清楚:AI爬虫几乎是在不计后果地掠夺。

一份泄露的名单显示,Meta据称抓取的网站包括受版权保护的内容、盗版资料、成人视频,甚至一些涉嫌非法获取或录制的素材,还有来自知名新闻媒体和内容出版商的原创作品。这并不令人意外,也不只是某一家公司这么干,它更像是整个行业的“潜规则”。

在过去几十年,爬取网页的主要理由是建立搜索引擎索引。被Google收录意味着网站有机会出现在搜索结果中,从而带来真实访客。而AI爬虫的逻辑完全不同:它们来,爬,复制,然后将数据喂进模型,生产出的产品往往直接与原始来源竞争,比如维基百科或新闻网站。至多,它们会在结果里挂上一两个没人点开的链接。对于一个本就摇摇欲坠的网络出版生态来说,这简直像是一场噩梦。AI公司靠抓取整个网络建模,而这些模型又会继续反过来掠夺,直到网络再无可抓。

今年六月,网络基础设施公司Cloudflare宣布推出一套工具,用来追踪AI爬虫,并计划建立一个“市场”,让网站自行定价,明确允许内容被抓取和使用的条件。本周,包括Reddit、Medium、Quora以及Cloudflare的竞争对手Fastly在内的一批平台联合宣布了RSL标准,全称“Really Simply Licensing”。这个名字向早年的RSS(Really Simple Syndication)致敬,部分推动者也正是当年RSS的缔造者。其核心理念很直接:过去,出版商可以告诉搜索引擎是否愿意被收录,而搜索引擎通常会遵守。现在,在这种更敌对的环境下,任何内容提供方都能标明自己的规则——不仅是能不能抓,还包括如何署名、以及最关键的,要收多少钱。

当然,要让OpenAI、Meta这样的大公司立刻缴纳版权费并不现实,更别提那些规模较小、数量庞杂的AI公司。RSL更像是一个带有理想主义的尝试。但结合Cloudflare和Fastly等基础设施公司的屏蔽能力,它可能预示着格局的真正转变。对大多数网站来说,AI爬虫的存在几乎没有带来好处,反倒是一种损失。除了Google这种用同一套工具既做搜索又做AI的特殊情况,封锁爬虫几乎没有坏处。而如今,在能与科技巨头正面较量的基础设施公司支持下,网站终于有了实质性的反制力量。

值得一提的是,科技巨头之间也并非从未互相抓取对方的内容,但如果他们愿意,他们完全有能力阻止。设想一个未来:大多数公共网站默认对AI模型不可见。这样一来,那些依赖无门槛数据获取的公司将很难继续保持优势。他们要么忍受模型失去新鲜度、错过最新新闻和研究,要么不得不掏钱购买。也许不会支付给所有人,但总会有人开始收到真正的报酬。

本文译自 nymag,由 BALI 编辑发布。


2025王摸鱼秋款卫衣,玩梗系列