订阅我们的每日和每周新闻通讯,获取有关行业领先的人工智能报道的最新更新和独家内容。了解更多
纽约南区法院驳回了 Raw Story Media, Inc. 和 AlterNet Media, Inc.(两家倾向于左派的在线新闻媒体)针对 OpenAI 提起的版权侵权诉讼,有效地驳回了这两家公司声称 OpenAI 在其训练数据中使用抓取的新闻内容侵犯了版权的指控。
这一裁决可以被视为版权和人工智能工具之间持续斗争中的一个重要时刻,尤其是在《数字千年版权法案》(DMCA)第 1202(b) 条款下,但值得注意的是,其他案件也未能根据该条款建立成功的索赔。
让我们深入了解发生了什么,法官为何驳回此案,以及这对人工智能、版权以及科技公司在未经创作者明确许可或补偿的情况下从网络上抓取内容的合法性意味着什么。
该诉讼围绕着 DMCA 第 1202(b) 条款展开,该条款旨在保护“版权管理信息”(CMI)。
这包括任何作者姓名、标题和其他识别版权作品的元数据。第 1202(b) 条款禁止未经授权删除或更改此类信息,尤其是在这样做会促进版权侵权的情况下。
在本案中,Raw Story 和 AlterNet 指控 OpenAI 在未保留 CMI 的情况下,使用其网站上的文章来训练 ChatGPT 和其他模型,从而违反了第 1202(b) 条款。
OpenAI 并不是唯一一家可能从网络上抓取此类材料的人工智能公司——虽然人工智能模型提供商往往会严格保护其训练数据集,但整个行业无疑已经抓取了网络上的大量数据来训练其各种模型(这种做法类似于 Google 在其主要搜索引擎产品中抓取和索引搜索结果)。从某种意义上说,一些创作者将数据抓取视为人工智能的“原罪”。
在本案中,原告 Raw Story 和 Alternet 声称 OpenAI 的人工智能输出(模型生成的响应)有时基于其文章,并且该公司在删除 CMI 后故意侵犯了版权。
法院为何驳回 Raw Story 的指控
科琳·麦克马洪法官以缺乏起诉权为由,批准了 OpenAI 的驳回诉讼动议。具体而言,法官发现,原告无法证明他们因 OpenAI 的行为而遭受了具体的实际损害——这是美国宪法第三条对任何诉讼进行的必要条件。
麦克马洪法官还考虑了大型语言模型 (LLM) 界面不断变化的格局,指出这些系统的更新进一步加剧了归属和可追溯性的复杂性。她强调,生成式人工智能的迭代改进使得内容不太可能逐字复制,这使得原告的指控更加推测性。
法官指出,“ChatGPT 输出原告文章中剽窃内容的可能性似乎很小。”这反映了这类案件中的一个关键难题:生成式人工智能旨在综合信息,而不是逐字复制。原告未能提供令人信服的证据证明其具体作品被直接侵犯,从而导致可识别的损害。
该裁决与其他案件一致,在这些案件中,法院难以将传统的版权法应用于生成式人工智能。例如,涉及微软 Copilot 的 Doe 1 v. GitHub 案件也处理了根据第 1202(b) 条款提出的索赔。在该案件中,法院发现 Copilot 生成的代码不是原始代码的“完全复制品”,而是被重新配置的片段,这使得证明违反 CMI 要求变得困难。
Raw Story 案的裁决突出了法院在第 1202(b) 条款方面面临的更广泛的不确定性,尤其是在生成式人工智能方面。
目前,关于第 1202(b) 条款如何应用于大量在线内容,还没有达成一致意见。一方面,一些法院实施了所谓的“同一性”要求——这意味着原告必须证明侵权作品是原始内容的完全复制品,减去 CMI。然而,另一些法院则允许更灵活的解释。
例如,德克萨斯州南区法院最近驳回了同一性要求,指出即使是部分复制也可能构成违反行为,如果 CMI 被故意删除。
与此同时,在莎拉·西尔弗曼和一群作者提起的诉讼中,法院裁定,原告未能提供充分的证据证明 OpenAI 积极地从她的内容中删除了 CMI。该裁决与 Raw Story 案的裁决非常相似,突出了原告面临的举证责任。
正如玛丽亚·克鲁西在为作者联盟撰写的一篇文章中所解释的那样,“第 1202(b) 条款索赔的激增引发了具有挑战性的问题,即:第 1202(b) 条款如何应用于将受版权保护的作品用作数据集的一部分,而该数据集必须以将版权管理信息与内容本身分离的方式进行清理、重构和处理?”
为何该裁决对人工智能和内容创作者很重要
驳回 Raw Story 的诉讼不仅仅是 OpenAI 的胜利——它表明了法院如何在生成式人工智能快速发展的格局中处理类似的版权索赔。鉴于 OpenAI 及其投资者微软目前正在为《纽约时报》提起的类似诉讼进行辩护,该裁决只能帮助建立一些先例来驳回此类诉讼和未来的索赔。
事实上,该裁决表明,如果没有明确的、可证明的损害或完全复制,原告可能难以获得上诉机会。
麦克马洪法官的裁决还触及了关于人工智能如何综合数据而不是直接复制数据的更广泛观点。OpenAI 的 ChatGPT 不会直接回忆 Raw Story 的文章——它而是使用训练数据生成类似人类写作的新颖输出。这使得根据现行版权法证明违反行为变得非常困难。
对于内容创作者来说,这提出了一个重大挑战:如何确保适当的署名并防止其作品在训练数据集中被未经授权使用。OpenAI 与《Vogue》和《连线》所有者康泰纳仕等大型新闻出版商签订的许可协议可能会成为一种新的标准,使公司能够合法使用受版权保护的内容,同时补偿其创作者。
法院仍在摸索如何处理生成式人工智能,最近的裁决表明,他们不愿扩展第 1202(b) 条款的保护范围,除非原告证明存在真实的、具体的损害。人工智能生成的內容是综合的,而不是复制的,这使得证明版权侵权变得很困难。
对于原告来说,这意味着证明损害是一场艰苦的战斗。法院正在发出信号,模糊的索赔是不够的——原告需要提供损害的硬性证据。对于开发人员和科技公司来说,即使胜算似乎很大,也不希望出现诉讼。透明度、数据记录和合规性对于避免法律纠纷至关重要。
麦克马洪法官指出,该案可以重新提起(“连同对为何拟议的修正案不会是徒劳的解释,”她写道),但仍然存在重大障碍。