AI搬运工的后门被堵：新闻媒体开始封杀互联网档案馆

为防AI公司通过互联网档案馆免费抓取内容，新闻巨头们正通过封锁爬虫和关闭接口等手段，将这座公益数字图书馆拒之门外。

在互联网的浩瀚海洋中，总部位于旧金山的互联网档案馆一直扮演着文明记录者的角色。它旗下的时光机工具存储了超过1万亿个网页快照，初衷是让知识跨越时间，实现民主化获取。然而，随着AI浪潮席卷全球，这个公益项目正陷入一场前所未有的信任危机。

2026年1月28日，尼曼新闻实验室的作者Andrew Deck和Hanaa' Tameez发布调查指出，包括The Guardian和The New York Times在内的顶级媒体正在严密审查数字档案馆，担心这里会成为AI爬虫绕过付费墙、窃取内容的后门。

The Guardian的业务事务与许可主管Robert Hahn在检查访问日志时发现，互联网档案馆的爬虫频繁出没。他担心这些API接口会成为AI公司的完美工具，因为这些公司正渴求结构化的内容数据库，而互联网档案馆恰好提供了这样的便利。为了降低风险，The Guardian已经采取措施，将自己从互联网档案馆的API中排除，并过滤掉时光机接口中的文章链接。

这种担忧并非空穴来风。华盛顿邮报在2023年对Google的C4数据集进行分析时发现，互联网档案馆在用于训练T5和Meta的Llama等模型的1500万个域名中，排名高居第187位。这意味着，这座数字图书馆已经成为了AI模型成长的免费养料。

除了The Guardian，其他媒体的动作更加果断。The New York Times向尼曼新闻实验室证实，他们正在对互联网档案馆实施硬拦截。早在2025年底，该报就在robots.txt文件中禁用了相关爬虫。Financial Times则采取了全线封杀策略，无论是OpenAI、Anthropic这样的AI巨头，还是提供归档服务的互联网档案馆，只要试图抓取其付费内容，都会被拒之门外。

社交巨头Reddit也在2025年8月宣布限制互联网档案馆的访问。讽刺的是，Reddit本身正通过向Google出售内容数据获利数千万美元。Reddit发言人对此解释称，他们发现有AI公司违反平台政策，通过时光机抓取数据，因此在互联网档案馆能够保护好自己的网站之前，必须采取限制措施。

对于这些指控，互联网档案馆的创始人Brewster Kahle感到无奈。他认为，如果出版商限制图书馆，公众获取历史记录的机会就会减少，这会削弱他们对抗信息混乱的努力。时光机的主管Mark Graham也提到，2023年5月曾有一家AI公司因每秒发送数万次请求导致服务器崩溃。虽然对方后来道歉并捐款，但这种竭泽而渔的抓取行为确实伤害了公益机构。

这种冲突让学术界感到忧虑。奥多明尼昂大学的计算机科学家Michael Nelson教授形象地指出，Common Crawl和互联网档案馆本是互联网界的“好人”，但因为它们被AI公司这些“坏人”利用，最终成了这场版权大战中的附带损害。

根据尼曼新闻实验室对1167家新闻网站的抽样调查，已有241家网站明确禁止了至少一种来自互联网档案馆的爬虫。其中，拥有今日美国公司的美国最大报业集团甘内特反应最为激烈。甘内特旗下所有 outlet 在2025年都加入了屏蔽名单。其首席执行官Mike Reed在2025年10月的财报电话会议上透露，仅在9月份，他们就拦截了7500万个AI机器人，其中7000万个来自OpenAI。

在这场防御战中，原本脆弱的数字保存机制正面临崩塌。虽然波因特学院等机构在努力培训地方媒体保护自己的数字内容，但互联网档案馆依然是目前最完善的互联网记录方案。正如Robert Hahn所言，这是一种事与愿违的悲哀：当你为了崇高的目的去做一件事时，它却可能被他人滥用。在版权保护与知识留存的博弈中，互联网的记忆正在变得支离破碎。

本文译自 Nieman Lab，由 BALI 编辑发布。