我们常常将互联网视为理所当然。它是一个触手可及的信息海洋,而且它总是能正常运作。但这个系统依赖于大量的“爬虫”——这些机器人漫游网络,每天访问数百万个网站,并报告它们所见。这就是谷歌为其搜索引擎提供动力的方式,亚马逊如何设定竞争性价格,以及 Kayak 如何聚合旅行列表。除了商业世界之外,爬虫对于监控网络安全、启用辅助工具和保存历史档案至关重要。学者、记者和民间社会也依靠它们进行重要的调查研究。
爬虫无处不在。它们现在占所有互联网流量的一半,很快就会超过人类流量。这条看不见的网络地铁日夜不停地将信息从一个站点运送到另一个站点。最近,它们又多了一个用途:OpenAI 等公司使用网络爬取的数据来训练其人工智能系统,例如 ChatGPT。
可以理解的是,网站现在正在反击,因为它们担心这种入侵物种——人工智能爬虫——会帮助它们被取代。但问题是:这种反击也威胁着网络的透明度和开放边界,这些边界允许非人工智能应用程序蓬勃发展。除非我们认真思考如何解决这个问题,否则网络将越来越多地被登录、付费墙和访问收费所强化,这些收费不仅会抑制人工智能,还会抑制真实用户和有用爬虫的生物多样性。
一个混乱的系统
为了理解这个问题,重要的是要了解网络在最近之前是如何运作的,当时爬虫和网站以相对共生的方式共同运作。爬虫在很大程度上是非破坏性的,甚至可能是有益的,它们可以从谷歌或必应等搜索引擎将人们带到网站,以换取他们的数据。反过来,网站对爬虫施加的限制很少,甚至帮助它们浏览网站。当时和现在的网站都使用机器可读文件(称为 robots.txt 文件)来指定它们希望爬虫避开的哪些内容。但很少有人努力执行这些规则或识别违反这些规则的爬虫。风险似乎很低,因此网站没有投入资金来阻止这些爬虫。
但现在,人工智能的流行使爬虫生态系统陷入混乱。
就像入侵物种一样,用于人工智能的爬虫对数据的胃口是贪得无厌且不加选择的,它们吞噬了维基百科文章、学术论文以及 Reddit、评论网站和博客上的帖子。所有形式的数据都在菜单上——文本、表格、图像、音频和视频。由此产生的 AI 系统可以(但并非总是)以直接与其数据来源竞争的方式使用。新闻网站担心人工智能聊天机器人会吸引走他们的读者;艺术家和设计师担心人工智能图像生成器会吸引走他们的客户;编码论坛担心人工智能代码生成器会取代他们的贡献者。
作为回应,网站开始在门口拒绝爬虫。动机基本相同:人工智能系统及其背后的爬虫可能会利用网站自己的数据来损害任何在网络上发布内容的人的经济利益。这种认识引发了一系列在表面之下波动的爬虫战争。
反击
网络出版商对人工智能做出了三方面的回应:诉讼、立法和计算机科学。从一系列版权侵权诉讼开始,包括《纽约时报》的一起诉讼,已经演变成对使用网站数据的限制浪潮,以及欧盟人工智能法案等立法,以保护版权持有者选择退出人工智能训练的权利。
然而,法律和立法判决可能需要数年时间,而人工智能采用的后果是立即的。因此,在此期间,数据创建者专注于收紧数据源头——网络爬虫——的数据阀门。自 2023 年年中以来,网站对超过 25% 的最高质量数据实施了爬虫限制。然而,其中许多限制可以被简单地忽略,虽然 OpenAI 和 Anthropic 等主要人工智能开发商声称尊重网站的限制,但他们被指控无视这些限制或积极地压倒网站(主要技术支持论坛 iFixit 就是其中之一,它提出了这样的指控)。
现在,网站正在转向最后的替代方案:反爬虫技术。许多新的初创公司(TollBit、ScalePost 等)以及 Cloudflare 等网络基础设施公司(估计支持全球 20% 的网络流量)已经开始提供工具来检测、阻止和收费非人类流量。这些工具设置了障碍,使网站更难导航,或者要求爬虫注册。
这些措施仍然提供即时保护。毕竟,人工智能公司无法使用它们无法获得的东西,无论法院如何裁决版权和合理使用。但结果是,大型网络出版商、论坛和网站经常对所有爬虫——即使是那些没有威胁的爬虫——抬起了吊桥。即使他们在与想要保留对该数据独占权的人工智能公司签订了有利可图的协议后,情况也是如此。最终,网络被细分为越来越少爬虫受欢迎的区域。
我们可能会因此而失去什么
随着这场猫捉老鼠的游戏加速,大玩家往往比小玩家更持久。大型网站和出版商将在法庭上捍卫他们的内容或谈判合同。而大型科技公司可以负担得起授权大型数据集或创建强大的爬虫来绕过限制。但小型创作者,例如视觉艺术家、YouTube 教育工作者或博主,可能觉得他们只有两种选择:将他们的内容隐藏在登录和付费墙后面,或者完全将其下线。对于真实用户来说,这使得他们更难访问新闻文章、查看他们最喜欢的创作者的内容,以及在没有遇到登录、订阅要求和验证码的情况下浏览网络。
也许更令人担忧的是,与人工智能公司签订的大型独家合同正在将网络细分。每笔交易都会提高网站保持独家性和阻止任何其他人访问数据的动机——无论竞争对手与否。这可能会导致权力进一步集中在更少的人工智能开发商和数据出版商手中。一个只有大型公司才能授权或爬取关键网络数据的未来将抑制竞争,无法服务于真实用户或许多版权持有者。
简而言之,沿着这条道路走下去将缩小网络的生物多样性。来自学术研究人员、记者和非人工智能应用程序的爬虫可能会越来越难以获得开放访问。除非我们能够培育一个对不同数据使用有不同规则的生态系统,否则我们可能会最终在网络上建立严格的边界,对开放性和透明性征收费用。
虽然这条道路并不容易避免,但开放互联网的捍卫者可以坚持制定法律、政策和技术基础设施,明确保护非竞争性使用网络数据免受独家合同的侵害,同时仍然保护数据创建者和出版商。这些权利并不矛盾。我们从争取在整个互联网上获得正确的数据访问权的斗争中,有太多东西要失去或获得。当网站寻找适应的方式时,我们不能为了商业人工智能而牺牲开放的网络。
Shayne Longpre 是麻省理工学院的博士候选人,他的研究重点是人工智能与政策的交汇点。他领导数据来源倡议。