Salesforce ProVision加速多模态AI训练

AI 训练数据的新突破：Salesforce 推出 ProVision，程序化生成视觉指令数据

随着全球企业纷纷加码 AI 项目，高质量训练数据的获取已成为一大瓶颈。公开网络的数据资源日渐枯竭，而 OpenAI 和 Google 等巨头则通过独家合作来扩充其专有数据集，进一步限制了其他企业的获取途径。

为了应对这一挑战，Salesforce 在视觉训练数据领域迈出了重要一步，推出了 ProVision，一个能够程序化生成视觉指令数据的全新框架。这些数据集经过系统化合成，可以用于训练高性能的多模态语言模型 (MLM)，使模型能够回答有关图像的问题。

Salesforce 已经发布了 ProVision-10M 数据集，并将其用于提升各种多模态 AI 模型的性能和准确性。

对于数据专业人士而言，ProVision 框架代表着重大进步。通过程序化生成高质量的视觉指令数据，ProVision 减少了对有限或标签不一致数据集的依赖，这是多模态系统训练中常见的挑战。

此外，系统化合成数据集的能力确保了更好的控制、可扩展性和一致性，从而加快迭代周期并降低获取特定领域数据的成本。这项工作是对合成数据生成领域持续研究的补充，紧随 Nvidia 发布 Cosmos 之后，Cosmos 是一套面向物理 AI 训练的世界基础模型，专门用于从文本、图像和视频等多种输入组合生成基于物理的视频。

如今，指令数据集是 AI 预训练或微调的核心。这些专门的数据集帮助模型遵循并有效地响应特定指令或查询。在多模态 AI 的情况下，模型能够在学习大量不同数据点（以及描述这些数据点的问答对，即视觉指令数据）后，分析图像等内容。

然而，生成这些视觉指令数据集并非易事。如果企业为每个训练图像手动创建数据，则会浪费大量时间和人力资源来完成项目。另一方面，如果选择使用专有语言模型来完成这项任务，则需要面对高昂的计算成本以及幻觉的风险，即问答对的质量和准确性可能不足。

此外，使用专有模型也是一个黑盒机制，因为它难以解释数据生成过程，也难以精确控制或定制输出。

为了解决这些问题，Salesforce 的 AI 研究团队开发了 ProVision 框架，该框架利用场景图与人工编写的程序相结合，系统化地合成以视觉为中心的指令数据。

场景图可以被描述为图像语义的结构化表示，其中内容中的对象被表示为节点。每个对象的属性（如颜色或大小）直接分配到其相应的节点，而这些对象之间的关系则被描绘为连接相应节点的有向边。这些表示可以来自手动标注的数据集（如 Visual Genome），也可以借助场景图生成管道生成，该管道结合了各种最先进的视觉模型，涵盖图像语义的各个方面，从对象和属性检测到深度估计。

一旦场景图准备就绪，它们就会为使用 Python 和文本模板编写的程序提供支持，这些程序充当完整的数据生成器，能够为 AI 训练管道创建问答对。

“每个 [数据] 生成器利用数百个预定义模板，这些模板系统地整合这些注释以生成多样化的指令数据。这些生成器旨在…比较、检索和推理基于每个场景图中编码的详细信息的物体、属性和关系的基本视觉概念，”框架背后的研究人员在论文中写道。

在他们的工作中，Salesforce 使用了两种方法——增强手动标注的场景图和从头开始生成——来设置场景图，为 24 个单图像数据生成器和 14 个多图像生成器提供支持。

“有了这些数据生成器，我们就可以根据图像的场景图自动合成问题和答案。例如，给定一张繁忙街道的图像，ProVision 可以生成诸如“行人和汽车之间是什么关系？”或“哪个物体更靠近红色建筑，[the] 汽车还是行人？”之类的问答对，”首席研究员张洁玉和薛乐在博客文章中指出。

第一种方法的数据生成器（使用 Depth Anything V2 和 SAM-2 从 Visual Genome 的场景图中增强深度和分割注释）帮助他们创建了 150 万个单图像指令数据点和 420 万个多图像指令数据点。同时，另一种方法（使用来自 DataComp 数据集的 12 万张高分辨率图像以及 Yolo-World、Coca、Llava-1.5 和 Osprey 等模型）生成了 230 万个单图像指令数据点和 420 万个多图像指令数据点。

总而言之，这四个部分组合起来构成了 ProVision-10M，一个包含超过 1000 万个独特指令数据点的数据集。该数据集现已在 Hugging Face 上提供，并已证明在 AI 训练管道中非常有效。

具体而言，当公司将 ProVision-10M 纳入多模态 AI 微调配方（LLaVA-1.5 用于单图像指令数据，Mantis-SigLIP-8B 用于多图像指令数据）时，观察到显著的改进，模型的平均性能高于没有 ProVision 数据的微调。

“在指令调优阶段采用我们的单图像指令数据，在 CVBench 的 2D 分割上提高了 7%，在 3D 分割上提高了 8%，在 QBench2、RealWorldQA 和 MMMU 上的性能提高了 3%。我们的多图像指令数据在 Mantis-Eval 上提高了 8%，”研究人员在论文中指出。