为防AI公司通过互联网档案馆免费抓取内容,新闻巨头们正通过封锁爬虫和关闭接口等手段,将这座公益数字图书馆拒之门外。
在互联网的浩瀚海洋中,总部位于旧金山的互联网档案馆一直扮演着文明记录者的角色。它旗下的时光机工具存储了超过1万亿个网页快照,初衷是让知识跨越时间,实现民主化获取。然而,随着AI浪潮席卷全球,这个公益项目正陷入一场前所未有的信任危机。
2026年1月28日,尼曼新闻实验室的作者Andrew Deck和Hanaa' Tameez发布调查指出,包括The Guardian和The New York Times在内的顶级媒体正在严密审查数字档案馆,担心这里会成为AI爬虫绕过付费墙、窃取内容的后门。
The Guardian的业务事务与许可主管Robert Hahn在检查访问日志时发现,互联网档案馆的爬虫频繁出没。他担心这些API接口会成为AI公司的完美工具,因为这些公司正渴求结构化的内容数据库,而互联网档案馆恰好提供了这样的便利。为了降低风险,The Guardian已经采取措施,将自己从互联网档案馆的API中排除,并过滤掉时光机接口中的文章链接。
这种担忧并非空穴来风。华盛顿邮报在2023年对Google的C4数据集进行分析时发现,互联网档案馆在用于训练T5和Meta的Llama等模型的1500万个域名中,排名高居第187位。这意味着,这座数字图书馆已经成为了AI模型成长的免费养料。
除了The Guardian,其他媒体的动作更加果断。The New York Times向尼曼新闻实验室证实,他们正在对互联网档案馆实施硬拦截。早在2025年底,该报就在robots.txt文件中禁用了相关爬虫。Financial Times则采取了全线封杀策略,无论是OpenAI、Anthropic这样的AI巨头,还是提供归档服务的互联网档案馆,只要试图抓取其付费内容,都会被拒之门外。
社交巨头Reddit也在2025年8月宣布限制互联网档案馆的访问。讽刺的是,Reddit本身正通过向Google出售内容数据获利数千万美元。Reddit发言人对此解释称,他们发现有AI公司违反平台政策,通过时光机抓取数据,因此在互联网档案馆能够保护好自己的网站之前,必须采取限制措施。
对于这些指控,互联网档案馆的创始人Brewster Kahle感到无奈。他认为,如果出版商限制图书馆,公众获取历史记录的机会就会减少,这会削弱他们对抗信息混乱的努力。时光机的主管Mark Graham也提到,2023年5月曾有一家AI公司因每秒发送数万次请求导致服务器崩溃。虽然对方后来道歉并捐款,但这种竭泽而渔的抓取行为确实伤害了公益机构。
这种冲突让学术界感到忧虑。奥多明尼昂大学的计算机科学家Michael Nelson教授形象地指出,Common Crawl和互联网档案馆本是互联网界的“好人”,但因为它们被AI公司这些“坏人”利用,最终成了这场版权大战中的附带损害。
根据尼曼新闻实验室对1167家新闻网站的抽样调查,已有241家网站明确禁止了至少一种来自互联网档案馆的爬虫。其中,拥有今日美国公司的美国最大报业集团甘内特反应最为激烈。甘内特旗下所有 outlet 在2025年都加入了屏蔽名单。其首席执行官Mike Reed在2025年10月的财报电话会议上透露,仅在9月份,他们就拦截了7500万个AI机器人,其中7000万个来自OpenAI。
在这场防御战中,原本脆弱的数字保存机制正面临崩塌。虽然波因特学院等机构在努力培训地方媒体保护自己的数字内容,但互联网档案馆依然是目前最完善的互联网记录方案。正如Robert Hahn所言,这是一种事与愿违的悲哀:当你为了崇高的目的去做一件事时,它却可能被他人滥用。在版权保护与知识留存的博弈中,互联网的记忆正在变得支离破碎。
本文译自 Nieman Lab,由 BALI 编辑发布。