Salesforce ProVision加速多模态AI训练

AI 训练数据的新突破：Salesforce 推出 ProVision，程序化生成视觉指令数据

随着全球企业纷纷加码 AI 项目，高质量训练数据的获取已成为一大瓶颈。公开网络的数据资源日渐枯竭，而 OpenAI 和 Google 等巨头则通过独家合作来扩充其专有数据集，进一步限制了其他企业的获取途径。

为了应对这一挑战，Salesforce 在视觉训练数据领域迈出了重要一步，推出了 ProVision，一个能够程序化生成视觉指令数据的全新框架。这些数据集经过系统化合成，可以用于训练高性能的多模态语言模型 (MLM)，使模型能够回答有关图像的问题。

Salesforce 已经发布了 ProVision-10M 数据集，并将其用于提升各种多模态 AI 模型的性能和准确性。

对于数据专业人士而言，ProVision 框架代表着重大进步。通过程序化生成高质量的视觉指令数据，ProVision 减少了对有限或标签不一致数据集的依赖，这是多模态系统训练中常见的挑战。

此外，系统化合成数据集的能力确保了更好的控制、可扩展性和一致性，从而加快迭代周期并降低获取特定领域数据的成本。这项工作是对合成数据生成领域持续研究的补充，紧随 Nvidia 发布 Cosmos 之后，Cosmos 是一套面向物理 AI 训练的世界基础模型，专门用于从文本、图像和视频等多种输入组合生成基于物理的视频。

如今，指令数据集是 AI 预训练或微调的核心。这些专门的数据集帮助模型遵循并有效地响应特定指令或查询。在多模态 AI 的情况下，模型能够在学习大量不同数据点（以及描述这些数据点的问答对，即视觉指令数据）后，分析图像等内容。

然而，生成这些视觉指令数据集并非易事。如果企业为每个训练图像手动创建数据，则会浪费大量时间和人力资源来完成项目。另一方面，如果选择使用专有语言模型来完成这项任务，则需要面对高昂的计算成本以及幻觉的风险，即问答对的质量和准确性可能不足。

此外，使用专有模型也是一个黑盒机制，因为它难以解释数据生成过程，也难以精确控制或定制输出。

为了解决这些问题，Salesforce 的 AI 研究团队开发了 ProVision 框架，该框架利用场景图与人工编写的程序相结合，系统化地合成以视觉为中心的指令数据。

场景图可以被描述为图像语义的结构化表示，其中内容中的对象被表示为节点。每个对象的属性（如颜色或大小）直接分配到其相应的节点，而这些对象之间的关系则被描绘为连接相应节点的有向边。这些表示可以来自手动标注的数据集（如 Visual Genome），也可以借助场景图生成管道生成，该管道结合了各种最先进的视觉模型，涵盖图像语义的各个方面，从对象和属性检测到深度估计。

一旦场景图准备就绪，它们就会为使用 Python 和文本模板编写的程序提供支持，这些程序充当完整的数据生成器，能够为 AI 训练管道创建问答对。

“每个 [数据] 生成器利用数百个预定义模板，这些模板系统地整合这些注释以生成多样化的指令数据。这些生成器旨在…比较、检索和推理基于每个场景图中编码的详细信息的物体、属性和关系的基本视觉概念，”框架背后的研究人员在论文中写道。

在他们的工作中，Salesforce 使用了两种方法——增强手动标注的场景图和从头开始生成——来设置场景图，为 24 个单图像数据生成器和 14 个多图像生成器提供支持。

“有了这些数据生成器，我们就可以根据图像的场景图自动合成问题和答案。例如，给定一张繁忙街道的图像，ProVision 可以生成诸如“行人和汽车之间是什么关系？”或“哪个物体更靠近红色建筑，[the] 汽车还是行人？”之类的问答对，”首席研究员张洁玉和薛乐在博客文章中指出。

第一种方法的数据生成器（使用 Depth Anything V2 和 SAM-2 从 Visual Genome 的场景图中增强深度和分割注释）帮助他们创建了 150 万个单图像指令数据点和 420 万个多图像指令数据点。同时，另一种方法（使用来自 DataComp 数据集的 12 万张高分辨率图像以及 Yolo-World、Coca、Llava-1.5 和 Osprey 等模型）生成了 230 万个单图像指令数据点和 420 万个多图像指令数据点。

总而言之，这四个部分组合起来构成了 ProVision-10M，一个包含超过 1000 万个独特指令数据点的数据集。该数据集现已在 Hugging Face 上提供，并已证明在 AI 训练管道中非常有效。

具体而言，当公司将 ProVision-10M 纳入多模态 AI 微调配方（LLaVA-1.5 用于单图像指令数据，Mantis-SigLIP-8B 用于多图像指令数据）时，观察到显著的改进，模型的平均性能高于没有 ProVision 数据的微调。

“在指令调优阶段采用我们的单图像指令数据，在 CVBench 的 2D 分割上提高了 7%，在 3D 分割上提高了 8%，在 QBench2、RealWorldQA 和 MMMU 上的性能提高了 3%。我们的多图像指令数据在 Mantis-Eval 上提高了 8%，”研究人员在论文中指出。

虽然有许多工具和平台（包括 Nvidia 新发布的 Cosmos 世界基础模型）可以生成不同类型的数据（从图像到视频），这些数据可用于多模态 AI 训练，但只有少数工具关注了创建与这些数据配对的指令数据集的问题。

Salesforce 通过 ProVision 解决了这一瓶颈，为企业提供了一种超越手动标注或黑盒语言模型的方法。程序化生成指令数据的方法确保了生成过程的可解释性和可控性，并能够高效地扩展，同时保持事实准确性。

从长远来看，Salesforce 希望研究人员能够在此基础上进一步完善场景图生成管道，并创建更多涵盖新型指令数据的生成器，例如用于视频的生成器。

Salesforce ProVision加速多模态AI训练

AI 训练数据的新突破：Salesforce 推出 ProVision，程序化生成视觉指令数据

发表回复取消回复

最新内容

《亚洲水发展展望2025》深度解读：亚太水安全喜忧参半，未来挑战何在？

谷歌支付6800万美元和解语音助手监听诉讼，你的隐私可能被“误触发”录音

甲骨文豪掷500亿美元押注AI基建，美国数据中心版图加速扩张

OpenAI总裁豪掷2500万美元支持特朗普，科技巨头与政坛的深度捆绑引关注

相关内容

谷歌云将搜索和YouTube技术带入企业生成式AI应用

輝達挑戰Meta和谷歌，全新AI模型Fugatto文字生成音頻

LinkedIn 创始人霍夫曼在 TED AI 大会上提出“超级代理”愿景，暗讽马斯克

生成式AI数据洪流，企业需谨慎

分类

快速链接

AI 训练数据的新突破：Salesforce 推出 ProVision，程序化生成视觉指令数据

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复