人工智能的根基在于数据,海量的数据是训练算法实现我们目标的关键。然而,数据质量决定了人工智能模型的输出,而这正是当前面临的难题:人工智能开发者和研究人员对所用数据的来源知之甚少。与人工智能模型开发的复杂程度相比,数据收集方法显得稚嫩。庞大的数据集往往缺乏清晰的信息,无法明确其内容和来源。
为了解决这一问题,由来自学术界和工业界的50多位研究人员组成的“数据溯源计划”应运而生。他们希望简单地了解:构建人工智能的数据从何而来?他们对近4000个公共数据集进行了审计,这些数据集涵盖了600多种语言、67个国家和30年的时间跨度,来自800个独特来源和近700个组织。
他们的研究结果独家分享给了《麻省理工科技评论》,揭示了一个令人担忧的趋势:人工智能的数据实践存在将权力过度集中在少数主导科技公司手中的风险。
麻省理工学院研究员、该项目成员谢恩·朗普雷表示,在2010年代初期,数据集来自各种来源,包括百科全书、网络,以及议会记录、盈利电话和天气预报等。当时,人工智能数据集是专门为特定任务而策划和收集的,从不同来源获取数据以满足特定需求。
然而,2017年,作为语言模型基础架构的Transformer模型问世,人工智能领域开始发现,模型和数据集越大,性能越好。如今,大多数人工智能数据集都是通过从互联网上 indiscriminately hoovering 材料构建的。自2018年以来,网络已成为所有媒体(如音频、图像和视频)中用于数据集的主要来源,并且刮取数据与更精心策划的数据集之间的差距正在扩大。
朗普雷指出:“在基础模型开发中,数据规模和异质性以及网络似乎对模型能力的影响最大。”对规模的需求也极大地推动了合成数据的应用。
近年来,多模态生成式人工智能模型的兴起,能够生成视频和图像。与大型语言模型一样,它们需要尽可能多的数据,而YouTube已成为最佳来源。
正如图表所示,对于视频模型,语音和图像数据集的70%以上的数据来自同一个来源。
这可能对谷歌母公司Alphabet有利,该公司拥有YouTube。文本分散在网络上,由许多不同的网站和平台控制,而视频数据则高度集中在一个平台上。
朗普雷表示:“这将使一家公司掌握了网络上大量最重要数据的控制权。”
由于谷歌也在开发自己的 AI 模型,其巨大的优势也引发了人们对该公司如何将这些数据提供给竞争对手的质疑。人工智能 Now 研究所联合执行主任莎拉·迈尔斯·韦斯特表示。
迈尔斯·韦斯特指出:“重要的是要将数据视为一种通过特定过程创建的资源,而不是自然资源。”
她补充道:“如果我们所交互的大多数人工智能所依赖的数据集反映了大型、以利润为导向的公司的意图和设计,那么这将以反映这些大公司利益的方式重塑我们世界基础设施。”
这种单一文化也引发了人们对数据集如何准确地描绘人类体验以及我们正在构建的模型类型的质疑。科技公司 Cohere 的研究副总裁萨拉·胡克也是“数据溯源计划”的成员。
人们在上传视频到 YouTube 时会考虑特定的受众,他们在视频中的行为往往是为了特定的效果。胡克问道:“这些数据是否捕捉到了人类的所有细微差别以及我们存在的所有方式?”
隐藏的限制
人工智能公司通常不会分享用于训练模型的数据。一方面是为了保护竞争优势,另一方面,由于数据集的捆绑、打包和分发方式复杂且不透明,他们可能甚至不知道所有数据的来源。
他们可能也无法完全了解对数据使用或共享的任何限制。数据溯源计划的研究人员发现,数据集通常附带限制性许可证或条款,例如限制其用于商业目的。
胡克表示:“数据血统缺乏一致性,使得开发者很难做出关于使用哪些数据的正确选择。”
朗普雷补充道,这也使得几乎不可能完全确定你是否没有在受版权保护的数据上训练你的模型。
最近,OpenAI 和谷歌等公司与出版商、Reddit 等主要论坛以及网络上的社交媒体平台达成了独家数据共享协议。但这又成为他们集中权力的另一种方式。
朗普雷表示:“这些独家合同可以将互联网划分为不同的区域,决定谁可以访问它,谁不能访问它。”
这种趋势有利于最大的 AI 玩家,他们能够负担得起此类协议,而研究人员、非营利组织和小型公司则难以获得访问权限。最大的公司也拥有最好的数据爬取资源。
朗普雷表示:“这是我们在开放网络上从未见过的、不对称访问权限的新浪潮。”
西方与其他地区
用于训练 AI 模型的数据也严重偏向西方世界。研究人员分析的 90% 以上的数据集来自欧洲和北美,来自非洲的不到 4%。
胡克表示:“这些数据集反映了我们世界和文化的一部分,但完全忽略了其他部分。”
Hugging Face 的首席伦理学家吉亚达·皮斯蒂利(未参与该研究团队)表示,英语在训练数据中的主导地位部分解释了互联网仍然有 90% 以上是英语,而且地球上仍有很多地方互联网连接很差或根本没有。但她补充说,另一个原因是便利性:在其他语言中构建数据集并考虑其他文化需要有意识的意图和大量工作。
这些数据集的西方中心性在多模态模型中尤为明显。例如,当一个 AI 模型被提示提供婚礼的景象和声音时,它可能只能代表西方婚礼,因为它只接受过这方面的训练。胡克说。
这会强化偏见,并可能导致 AI 模型推行以美国为中心的特定世界观,抹去其他语言和文化。
胡克表示:“我们在世界各地使用这些模型,但我们所看到的世界与这些模型看不到的世界之间存在巨大差异。”