AI爬虫与抓取器正冲击网站,Meta与OpenAI流量占比超九成,单分钟请求高达3.9万次,网站不堪重负,需新规应对。
人工智能爬虫和抓取器正如洪水般席卷网络,给网站带来前所未有的压力。根据云服务巨头Fastly的最新报告,这些自动化工具正以惊人速度吞噬网络资源,其中Meta和OpenAI成为最大“流量黑洞”。报告指出,AI爬虫占据了80%的AI机器人流量,而抓取器则贡献了剩余20%。更令人咋舌的是,某抓取器曾在测试期间以每分钟3.9万次的请求狂轰滥炸某网站,让服务器不堪重负。
Meta的AI部门独占鳌头,贡献了52%的爬虫流量,谷歌和OpenAI紧随其后,分别占比23%和20%。这三大巨头几乎垄断了95%的AI爬虫流量。相比之下,Anthropic仅占3.76%,而为避免重复抓取设计的公共数据集项目Common Crawl仅占0.21%。Fastly高级安全研究员Arun Kumar感叹:“AI机器人正在重塑互联网的访问方式,给数字平台带来新的复杂挑战。缺乏清晰的验证标准,这些自动化工具正成为数字团队的盲点。”
与爬虫不同,抓取器通常在用户需要获取最新信息时被触发。OpenAI在这一领域几乎独霸,贡献了98%的抓取请求。这或许得益于ChatGPT的先发优势,但也可能反映其机器人基础设施亟需优化。Kumar向《The Register》透露:“这种流量激增不可持续,不仅带来运营挑战,还威胁内容创作者的商业模式。我们亟需行业规范,让AI公司获取数据的同时尊重网站规则。”
面对机器人无视robots.txt指令的乱象,Kumar呼吁:“任何负责任的AI公司都应遵守robots.txt,并公开其IP地址范围及机器人名称。”然而,他并未主张强制标准,而是认为行业论坛应先行探索解决方案。一些网站管理员已开始反击,例如采用Anubis验证机制或Nepenthes“陷阱”来对抗恶意爬虫。Fastly警告,这些措施需谨慎实施,以免误伤合法用户。
小型网站尤其深受其害,动态内容服务器常常因流量激增而瘫痪。Kumar建议,简单配置robots.txt可有效减少合规机器人的访问,而技术能力更强的网站可部署Anubis等工具。但他也坦言,机器人技术不断进化,绕过防御措施的“猫鼠游戏”将持续上演。Codeberg等网站近期就遭遇了类似困境。
Anubis开发者、Techaro首席执行官Xe Iaso直言:“只有AI泡沫破裂才能遏制这一趋势。”他认为,当前对AI的狂热让人们用自动化工具取代知识积累,冲击了内容创作的文化根基。Iaso担忧,这种“对文化节俭的攻击”将持续,直到资金链断裂。
Cloudflare产品副总裁Will Allen对此表示认同,称其观察到的数据与Fastly相近。他指出,82.7%的爬虫流量用于AI训练,且短期内需求仍将“贪得无厌”。Cloudflare推出一键屏蔽AI爬虫的功能,强调内容创作者应自主决定数据用途。Allen还透露,其AI迷宫技术通过生成式AI对抗恶意机器人,虽非终极方案,却为检测系统提供了宝贵数据。
这场流量风暴的代价由谁承担?Iaso认为,政府应介入,对破坏数字公共利益的AI公司施以重罚,并要求其赔偿受损社区。他讽刺道:“这些AI公司依赖它们所摧毁的社区,这简直像科幻小说里的悖论。”通过提高爬虫的计算成本,Anubis等工具正试图让恶意抓取变得无利可图。
网络的未来或许取决于这场博弈的结果。内容创作者与AI公司之间的较量,不仅关乎技术,更关乎谁能定义数字世界的规则。
本文译自 The Register,由 BALI 编辑发布。

2025王摸鱼秋款卫衣,玩梗系列