前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

Salesforce ProVision加速多模态AI训练

NEXTECH
Last updated: 2025年3月9日 上午6:51
By NEXTECH
Share
19 Min Read
SHARE

AI 训练数据的新突破:Salesforce 推出 ProVision,程序化生成视觉指令数据

随着全球企业纷纷加码 AI 项目,高质量训练数据的获取已成为一大瓶颈。公开网络的数据资源日渐枯竭,而 OpenAI 和 Google 等巨头则通过独家合作来扩充其专有数据集,进一步限制了其他企业的获取途径。

为了应对这一挑战,Salesforce 在视觉训练数据领域迈出了重要一步,推出了 ProVision,一个能够程序化生成视觉指令数据的全新框架。这些数据集经过系统化合成,可以用于训练高性能的多模态语言模型 (MLM),使模型能够回答有关图像的问题。

Salesforce 已经发布了 ProVision-10M 数据集,并将其用于提升各种多模态 AI 模型的性能和准确性。

对于数据专业人士而言,ProVision 框架代表着重大进步。通过程序化生成高质量的视觉指令数据,ProVision 减少了对有限或标签不一致数据集的依赖,这是多模态系统训练中常见的挑战。

此外,系统化合成数据集的能力确保了更好的控制、可扩展性和一致性,从而加快迭代周期并降低获取特定领域数据的成本。这项工作是对合成数据生成领域持续研究的补充,紧随 Nvidia 发布 Cosmos 之后,Cosmos 是一套面向物理 AI 训练的世界基础模型,专门用于从文本、图像和视频等多种输入组合生成基于物理的视频。

如今,指令数据集是 AI 预训练或微调的核心。这些专门的数据集帮助模型遵循并有效地响应特定指令或查询。在多模态 AI 的情况下,模型能够在学习大量不同数据点(以及描述这些数据点的问答对,即视觉指令数据)后,分析图像等内容。

然而,生成这些视觉指令数据集并非易事。如果企业为每个训练图像手动创建数据,则会浪费大量时间和人力资源来完成项目。另一方面,如果选择使用专有语言模型来完成这项任务,则需要面对高昂的计算成本以及幻觉的风险,即问答对的质量和准确性可能不足。

此外,使用专有模型也是一个黑盒机制,因为它难以解释数据生成过程,也难以精确控制或定制输出。

为了解决这些问题,Salesforce 的 AI 研究团队开发了 ProVision 框架,该框架利用场景图与人工编写的程序相结合,系统化地合成以视觉为中心的指令数据。

场景图可以被描述为图像语义的结构化表示,其中内容中的对象被表示为节点。每个对象的属性(如颜色或大小)直接分配到其相应的节点,而这些对象之间的关系则被描绘为连接相应节点的有向边。这些表示可以来自手动标注的数据集(如 Visual Genome),也可以借助场景图生成管道生成,该管道结合了各种最先进的视觉模型,涵盖图像语义的各个方面,从对象和属性检测到深度估计。

一旦场景图准备就绪,它们就会为使用 Python 和文本模板编写的程序提供支持,这些程序充当完整的数据生成器,能够为 AI 训练管道创建问答对。

“每个 [数据] 生成器利用数百个预定义模板,这些模板系统地整合这些注释以生成多样化的指令数据。这些生成器旨在…比较、检索和推理基于每个场景图中编码的详细信息的物体、属性和关系的基本视觉概念,”框架背后的研究人员在论文中写道。

使用 Salesforce ProVision 生成指令数据

在他们的工作中,Salesforce 使用了两种方法——增强手动标注的场景图和从头开始生成——来设置场景图,为 24 个单图像数据生成器和 14 个多图像生成器提供支持。

“有了这些数据生成器,我们就可以根据图像的场景图自动合成问题和答案。例如,给定一张繁忙街道的图像,ProVision 可以生成诸如“行人和汽车之间是什么关系?”或“哪个物体更靠近红色建筑,[the] 汽车还是行人?”之类的问答对,”首席研究员张洁玉和薛乐在博客文章中指出。

第一种方法的数据生成器(使用 Depth Anything V2 和 SAM-2 从 Visual Genome 的场景图中增强深度和分割注释)帮助他们创建了 150 万个单图像指令数据点和 420 万个多图像指令数据点。同时,另一种方法(使用来自 DataComp 数据集的 12 万张高分辨率图像以及 Yolo-World、Coca、Llava-1.5 和 Osprey 等模型)生成了 230 万个单图像指令数据点和 420 万个多图像指令数据点。

总而言之,这四个部分组合起来构成了 ProVision-10M,一个包含超过 1000 万个独特指令数据点的数据集。该数据集现已在 Hugging Face 上提供,并已证明在 AI 训练管道中非常有效。

具体而言,当公司将 ProVision-10M 纳入多模态 AI 微调配方(LLaVA-1.5 用于单图像指令数据,Mantis-SigLIP-8B 用于多图像指令数据)时,观察到显著的改进,模型的平均性能高于没有 ProVision 数据的微调。

“在指令调优阶段采用我们的单图像指令数据,在 CVBench 的 2D 分割上提高了 7%,在 3D 分割上提高了 8%,在 QBench2、RealWorldQA 和 MMMU 上的性能提高了 3%。我们的多图像指令数据在 Mantis-Eval 上提高了 8%,”研究人员在论文中指出。

使用 ProVision 数据集进行微调

虽然有许多工具和平台(包括 Nvidia 新发布的 Cosmos 世界基础模型)可以生成不同类型的数据(从图像到视频),这些数据可用于多模态 AI 训练,但只有少数工具关注了创建与这些数据配对的指令数据集的问题。

Salesforce 通过 ProVision 解决了这一瓶颈,为企业提供了一种超越手动标注或黑盒语言模型的方法。程序化生成指令数据的方法确保了生成过程的可解释性和可控性,并能够高效地扩展,同时保持事实准确性。

从长远来看,Salesforce 希望研究人员能够在此基础上进一步完善场景图生成管道,并创建更多涵盖新型指令数据的生成器,例如用于视频的生成器。

Share This Article
Email Copy Link Print
Previous Article 20250308174418409.png 日本创作者经济有多赚钱?
Next Article 20250308230216826.jpg XRP ETF 谣言引爆市场,价格飙升
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251205210151551.jpg
日本拟立法严惩基因编辑婴儿,最高监禁10年
科技
20251205203546667.jpg
AI巨头“红色警报”内耗,Anthropic为何能稳坐钓鱼台?
科技
20251205190349369.jpg
Meta战略大转向:削减30%元宇宙预算,全力押注AI
科技
20251205183721458.jpg
南部非洲古人类基因组改写进化史:20万年隔离与独特基因
科技

相关内容

AI 绘制的机器人播客坐在桌子前,操作着音板,面前是显示器
AI

Google NotebookLM 推出更多 AI 生成播客控制功能

2024年10月2日
AI

微软10个新AI代理巩固企业自动化领先地位

2024年11月26日
20250220225216657.jpg
AI

RTX AI 电脑运行英伟达 AI 基础模型

2025年2月21日
AI

AI2 缩小闭源与开源模型差距

2024年11月25日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up