前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

AI 数据来源揭秘

NEXTECH
Last updated: 2025年1月14日 上午6:53
By NEXTECH
Share
17 Min Read
SHARE

data-train2a.jpg?resize=1200,600

人工智能的根基在于数据,海量的数据是训练算法实现我们目标的关键。然而,数据质量决定了人工智能模型的输出,而这正是当前面临的难题:人工智能开发者和研究人员对所用数据的来源知之甚少。与人工智能模型开发的复杂程度相比,数据收集方法显得稚嫩。庞大的数据集往往缺乏清晰的信息,无法明确其内容和来源。

为了解决这一问题,由来自学术界和工业界的50多位研究人员组成的“数据溯源计划”应运而生。他们希望简单地了解:构建人工智能的数据从何而来?他们对近4000个公共数据集进行了审计,这些数据集涵盖了600多种语言、67个国家和30年的时间跨度,来自800个独特来源和近700个组织。

他们的研究结果独家分享给了《麻省理工科技评论》,揭示了一个令人担忧的趋势:人工智能的数据实践存在将权力过度集中在少数主导科技公司手中的风险。

麻省理工学院研究员、该项目成员谢恩·朗普雷表示,在2010年代初期,数据集来自各种来源,包括百科全书、网络,以及议会记录、盈利电话和天气预报等。当时,人工智能数据集是专门为特定任务而策划和收集的,从不同来源获取数据以满足特定需求。

然而,2017年,作为语言模型基础架构的Transformer模型问世,人工智能领域开始发现,模型和数据集越大,性能越好。如今,大多数人工智能数据集都是通过从互联网上 indiscriminately hoovering 材料构建的。自2018年以来,网络已成为所有媒体(如音频、图像和视频)中用于数据集的主要来源,并且刮取数据与更精心策划的数据集之间的差距正在扩大。

You Might Also Like

AI威胁建模:从金融机构学习构建韧性
CES 2025: 达美航空携手优步和Joby Aviation打造个性化出行
小型 AI 模型也能强大: Moondream 获 450 万美元融资
企业优先:加速人工智能应用趋势研究

朗普雷指出:“在基础模型开发中,数据规模和异质性以及网络似乎对模型能力的影响最大。”对规模的需求也极大地推动了合成数据的应用。

近年来,多模态生成式人工智能模型的兴起,能够生成视频和图像。与大型语言模型一样,它们需要尽可能多的数据,而YouTube已成为最佳来源。

正如图表所示,对于视频模型,语音和图像数据集的70%以上的数据来自同一个来源。

这可能对谷歌母公司Alphabet有利,该公司拥有YouTube。文本分散在网络上,由许多不同的网站和平台控制,而视频数据则高度集中在一个平台上。

朗普雷表示:“这将使一家公司掌握了网络上大量最重要数据的控制权。”

由于谷歌也在开发自己的 AI 模型,其巨大的优势也引发了人们对该公司如何将这些数据提供给竞争对手的质疑。人工智能 Now 研究所联合执行主任莎拉·迈尔斯·韦斯特表示。

迈尔斯·韦斯特指出:“重要的是要将数据视为一种通过特定过程创建的资源,而不是自然资源。”

她补充道:“如果我们所交互的大多数人工智能所依赖的数据集反映了大型、以利润为导向的公司的意图和设计,那么这将以反映这些大公司利益的方式重塑我们世界基础设施。”

这种单一文化也引发了人们对数据集如何准确地描绘人类体验以及我们正在构建的模型类型的质疑。科技公司 Cohere 的研究副总裁萨拉·胡克也是“数据溯源计划”的成员。

人们在上传视频到 YouTube 时会考虑特定的受众,他们在视频中的行为往往是为了特定的效果。胡克问道:“这些数据是否捕捉到了人类的所有细微差别以及我们存在的所有方式?”

隐藏的限制

人工智能公司通常不会分享用于训练模型的数据。一方面是为了保护竞争优势,另一方面,由于数据集的捆绑、打包和分发方式复杂且不透明,他们可能甚至不知道所有数据的来源。

他们可能也无法完全了解对数据使用或共享的任何限制。数据溯源计划的研究人员发现,数据集通常附带限制性许可证或条款,例如限制其用于商业目的。

胡克表示:“数据血统缺乏一致性,使得开发者很难做出关于使用哪些数据的正确选择。”

朗普雷补充道,这也使得几乎不可能完全确定你是否没有在受版权保护的数据上训练你的模型。

最近,OpenAI 和谷歌等公司与出版商、Reddit 等主要论坛以及网络上的社交媒体平台达成了独家数据共享协议。但这又成为他们集中权力的另一种方式。

朗普雷表示:“这些独家合同可以将互联网划分为不同的区域,决定谁可以访问它,谁不能访问它。”

这种趋势有利于最大的 AI 玩家,他们能够负担得起此类协议,而研究人员、非营利组织和小型公司则难以获得访问权限。最大的公司也拥有最好的数据爬取资源。

朗普雷表示:“这是我们在开放网络上从未见过的、不对称访问权限的新浪潮。”

西方与其他地区

用于训练 AI 模型的数据也严重偏向西方世界。研究人员分析的 90% 以上的数据集来自欧洲和北美,来自非洲的不到 4%。

胡克表示:“这些数据集反映了我们世界和文化的一部分,但完全忽略了其他部分。”

Hugging Face 的首席伦理学家吉亚达·皮斯蒂利(未参与该研究团队)表示,英语在训练数据中的主导地位部分解释了互联网仍然有 90% 以上是英语,而且地球上仍有很多地方互联网连接很差或根本没有。但她补充说,另一个原因是便利性:在其他语言中构建数据集并考虑其他文化需要有意识的意图和大量工作。

这些数据集的西方中心性在多模态模型中尤为明显。例如,当一个 AI 模型被提示提供婚礼的景象和声音时,它可能只能代表西方婚礼,因为它只接受过这方面的训练。胡克说。

这会强化偏见,并可能导致 AI 模型推行以美国为中心的特定世界观,抹去其他语言和文化。

胡克表示:“我们在世界各地使用这些模型,但我们所看到的世界与这些模型看不到的世界之间存在巨大差异。”

Share This Article
Email Copy Link Print
Previous Article Birds-MIT-10.jpg?resize=1200,600 人工智能改变鸟类迁徙研究
Next Article BLT 架构 Meta新型BLT架构提升大模型效率和通用性
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20250508230245629.jpg
AI初创公司Perfect获2300万美元融资,用AI解决招聘瓶颈,招聘时间缩短75%
初创
conceptual-illustration-of-large-languag
人工智能模型拥抱类人推理
AI
GettyImages-2194950188.jpg?resize=1200,6
狗狗币圈议程风向标
AI
20250508174846548.png
Omdia:2024财年,LTE和5G专网跟踪报告
报告

相关内容

AI

特朗普AI监管下的企业应对策略

2024年11月29日
AI

AI 赋能职场:数字化代理将重塑工作方式

2024年10月1日
大型语言模型的应用不仅限于技术层面,它还逐步改变了科研的方式。
AI

大型语言模型如何革新科研方法

2024年11月22日
20241230225344862.png
AI

Lambda 推出低成本 AI 推理服务 API

2024年12月31日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?