阿里新研究：WorldVLA统一VLA与世界模型，引领具身智能新突破

如果说视觉让AI看见世界，动作让AI改变世界，那么——

Contents

统一VLA与世界模型动作模型与世界模型相互助力核心作者介绍 One More Thing

WorldVLA正在让AI理解世界。

顾名思义，WorldVLA是一个将视觉语言动作模型（VLA）与世界模型相融合的统一框架，由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出。

WorldVLA框架示意图

在该框架下，

世界模型通过结合对动作与图像的理解来预测未来图像，旨在学习环境的潜在物理规律，以提升动作生成的准确性；
动作模型则基于图像观测生成后续动作，不仅有助于视觉理解，还反向促进世界模型的视觉生成能力。

实验结果表明，WorldVLA的表现显著优于独立的动作模型与世界模型，充分体现了二者之间的相互增强效应。

WorldVLA实验结果对比

下面具体来看。

统一VLA与世界模型

如今，VLA和世界模型虽在分头并进，但其在功能上的局限已成为制约发展的关键瓶颈：

VLA模型：基于预训练多模态大语言模型（MLLM）构建，虽具备跨机器人任务泛化能力，但仅将动作作为输出，未深度整合为输入进行分析，缺乏对动作的全面理解。
世界模型：能基于当前观测和动作预测未来视觉状态，理解视觉信息与行为动态，但无法直接生成动作，在需明确动作规划的场景中应用受限。

为了解决上述难题，研究团队提出了WorldVLA——一种用于统一动作与图像理解和生成的自回归动作世界模型。

WorldVLA统一动作世界模型架构

团队基于Chameleon模型进行初始化，让WorldVLA使用三套独立的分词器（tokenizer）对图像、文本和动作进行编码。

图像分词器采用VQ-GAN模型（一种结合向量量化与生成对抗网络的图像生成模型），并针对特定图像区域（如人脸、显著物体等）引入了感知损失优化。

值得一提的是，该分词器的压缩比为16，码本大小为8192。对于256×256的图像，会生成256个token；对于512×512的图像，则生成1024个token。

动作分词器将连续的机器人动作的每个维度离散化为256个区间，区间宽度根据训练数据的范围确定。动作由7个token表示，包括3个相对位置、3个相对角度，以及1个绝对夹爪状态。

WorldVLA动作分词器示例

文本分词器采用训练好的BPE分词器，词表大小为65536，其中包括8192个图像token和256个动作token。

所有文本、动作和图像都被离散化为token，并以自回归方式进行训练。

自回归模型中的标准注意力机制通常采用因果注意力掩码（causal attention mask），即当前token只能访问前面的token信息，而无法获取后续token的信息，如下图 (a) 所示。

WorldVLA新型注意力掩码机制

然而，这种传统配置在生成动作块（即多个连续动作）时存在明显不足。在默认注意力掩码下，早期动作产生的错误会传递到后续动作，从而导致性能下降。

为了解决这一问题，团队提出了一种针对动作生成的替代注意力掩码，如上图 (b) 所示。该掩码确保当前动作的生成仅依赖文本和视觉输入，而屏蔽之前动作的影响。

这种设计使自回归框架能够并行生成多个动作，世界模型部分则仍遵循传统的因果注意力掩码，如上图(c) 所示。

之后，团队通过融合动作模型数据与世界模型数据对WorldVLA进行联合训练。

其中，引入世界模型数据以增强动作生成能力，主要基于三方面考量：

1、环境物理理解：世界模型能够通过当前状态和执行的动作来预测未来观测，从而学习环境中的物理规律，这种认知对操作任务尤为重要。

2、动作评估与规避风险：世界模型能够模拟并评估候选动作的潜在结果，有助于规避可能导致不良状态的动作。

3、精确动作解析：世界模型需要对动作输入进行精确解释，这反过来支持动作模型生成更有效且符合上下文的动作。

此外，动作模型也能增强视觉理解能力，从而进一步支持世界模型的视觉生成。

动作模型与世界模型相互助力

基准测试结果

由下表可以看出，即使在没有预训练的情况下，WorldVLA模型也展现出优于离散化OpenVLA模型的性能，这证明了其架构设计的有效性。

WorldVLA基准测试性能

此外，模型性能与图像分辨率呈正相关。具体而言，512×512像素分辨率相比256×256像素分辨率带来了显著提升。

这一现象主要归因于Chameleon主干模型的预训练策略，其图像分词器与大语言模型组件在512×512分辨率下进行了优化。

同时，更高的分辨率自然提供了更多的视觉细节信息，这对需要高操作精度的机器人抓取任务尤为重要。

世界模型助力动作模型

此外，研究还表明引入世界模型能够显著提升动作模型的性能。

世界模型的核心功能是基于当前状态与执行动作预测环境状态变化，这一生成机制促使模型学习系统的底层物理规律，而掌握这种规律正是实现抓取等精细操作任务的关键前提。

世界模型增强动作模型机制

更深入来看，世界模型赋予系统前瞻推演能力：通过预判候选动作可能产生的后果，为决策过程提供关键信息，从而优化动作选择策略，提高任务成功率。

下图的对比案例直观展示了这种优势。基线动作模型会直接移动到目标点位却未能成功抓取奶酪或瓶子，而WorldVLA会持续尝试抓取，直到确认操作成功后才移向目标位置。

WorldVLA与基线模型抓取任务对比

动作模型助力世界模型

在生成质量上，WorldVLA显著优于纯世界模型，尤其是在生成较长的视频序列时表现更为突出。

WorldVLA与纯世界模型视频生成质量对比

此外，纯世界模型在多个场景中呈现明显缺陷：无法成功拉开抽屉（a）、移动盘子后导致碗消失（b）、未能将碗平稳放置在灶台上（c）。而动作世界模型在这些场景中均生成了连贯且符合物理规律的后续状态。

纯世界模型与动作世界模型在复杂场景下的表现对比

核心作者介绍

论文一作岑俊

论文一作为岑俊，2024年8月以阿里星入职阿里巴巴达摩院。本科毕业于浙江大学，硕士和博士均毕业于香港科技大学，2023年在新加坡南洋理工大学访问过半年，曾在微软亚洲研究院（MSRA）、上海AI Lab、海康威视和阿里巴巴通义实验室实习。

One More Thing

对于VLA与世界模型，小米汽车高级研究总监、主任科学家陈龙也发表了公开看法：

VLA与WM不需要二选一，二者可以结合起来相互促进的。

一个管“抽象思考”，一个管“物理感知”，VLA+WM的结合，才是通往具身智能（AGI）的答案。

论文链接：https://t.co/ZgHyhqQnyf

Github链接：https://t.co/SxDZGuhbL7

参考链接：https://x.com/EmbodiedAIRead/status/1980216687124476256_

阿里新研究：WorldVLA统一VLA与世界模型，引领具身智能新突破

统一VLA与世界模型