MolmoMotion：语言引导的3D运动预测

AI 前沿2026年6月16日· 原作者：Hugging Face· 6 分钟阅读4 阅读

AI2 发布 MolmoMotion，一种语言引导的 3D 运动预测模型。给定视频帧、物体上的 3D 点以及动作描述，它能预测未来几秒内这些点的 3D 轨迹。配合新数据集 MolmoMotion-1M 和基准 PointMotionBench，该模型在运动预测上超越现有方法，并可驱动机器人规划和视频生成等下游任务。

机器在感知运动方面已经非常出色。给定一段视频，现代模型能以极高置信度追踪物体和点在场景中的运动。但感知本质上是回顾性的：它解释已经发生的运动。而我们想要构建的许多系统和应用需要向前看。机器人抓杯子时，必须在接触前预测杯子如何移动；视频生成器如果希望生成物理合理的帧，就必须知道接下来什么样的运动是真实的。

预测运动比观察更难，但在许多场景下也更有用。

这正是 MolmoMotion 背后的动机——我们今天发布的一个新型运动预测模型。给定视频帧、标记在物体上的 3D 点以及描述预期动作的文字指令（例如“移动并旋转桌子上带有水果的木碗”），MolmoMotion 预测这些点在接下来几秒内将在 3D 空间中移动到哪里——其性能显著强于现有的预测方法。

MolmoMotion 演示：给定 RGB 观测、物体上的查询点和动作描述，模型预测物体未来的 3D 点轨迹，这些轨迹可驱动机器人规划和轨迹条件视频生成等下游应用。

除了模型，我们还发布了 MolmoMotion-1M，这是目前最大的与动作描述配对的 3D 点轨迹数据集，来自 116 万段视频。我们还发布了 PointMotionBench，一个由人工验证的基准，旨在衡量以物体为中心的 3D 运动预测精度，包含 2700 段视频片段。

我们发现，像 MolmoMotion 这样的运动预测器可以在一系列下游任务中发挥作用，从机器人规划到可控视频生成。我们开源发布模型权重、MolmoMotion-1M 数据集和 PointMotionBench 基准，供社区研究、改进和定制。

MolmoMotion：内部机制

MolmoMotion 以一种刻意设计且高效的方式表示运动：作为世界空间中的物体附着 3D 点，这可以捕获运动而无需渲染完整视频。我们选择它是因为我们需要一种具有三个属性的通用运动表示：

类别无关：不绑定到人体、手部、刚体或任何固定类别的模板。
视图稳定：相同的物理运动应在不同摄像机和视角下一致表示。
下游系统可直接使用，这些系统需要推理物理运动。

在我们考虑的各种表示中，它是唯一同时满足这三条的。一组稀疏的表面点可以描述刚性、关节式以及（有限范围内）可变形运动，而无需假设被移动物体的类型。由于点位于共享的世界坐标系中，它们的轨迹在摄像机运动和视角变化下保持稳定。由于它们是 3D 空间中的紧凑显式轨迹，可以直接传递给机器人策略或视频生成模型等系统。

为了预测这些轨迹，MolmoMotion 使用 Molmo 2 作为骨干，使其能够将语言指令与图像中的物体和点关联起来。给定一段短视频历史、一个动作描述以及一组包含初始 3D 位置的查询点，模型首先识别所指的物体、查询点以及指令描述的运动。然后它预测每个点的未来 3D 轨迹。

我们训练了两个变体：

自回归变体 (MolmoMotion-AR) 逐步预测未来坐标。它将 3D 坐标表示为结构化文本，遵循 VLM 使用的坐标风格预测，并按时间顺序写出未来轨迹。由于每个新坐标都依赖于已生成的轨迹，这鼓励平滑的 rollout，并在未来路径明确时提供最强的精度。
流匹配变体 (MolmoMotion-FM) 通过将噪声转换为运动来预测连续 3D 空间中的轨迹，当指令允许多种可能的未来时，它更适合表示不确定性。

MolmoMotion 架构：共享输入包括 RGB 观测的图像 token、动作描述的文本 token 以及从 Molmo 2 视觉编码器采样的 2D 查询点特征 token。MolmoMotion-AR 将初始 3D 查询坐标编码并将未来轨迹解码为量化的坐标文本，而 MolmoMotion-FM 则直接在连续 3D 坐标空间中表示轨迹。

引入 MolmoMotion-1M 和 PointMotionBench

为了训练 MolmoMotion，我们需要尚不存在的数据：大规模视频，其中包含与特定物体关联的 3D 点轨迹并配以动作描述。现有的 3D 跟踪数据集规模小且领域有限，而互联网视频虽然具有我们想要的规模和多样性，但缺乏 3D 标注。因此我们构建了一个自动流水线，从无约束视频中提取物体关联的 3D 轨迹。

给定输入视频及其动作描述，我们的标注流水线以米制世界坐标生成物体关联的 3D 点轨迹（下图展示了每个阶段）。挑战在于，原始轨迹来自无约束视频，存在深度和跟踪误差，导致点抖动和漂移，而且物体在视频大部分时间往往静止。为了让数据更可信，我们过滤掉与物体其余部分运动不一致的点，平滑剩余轨迹，并将每个片段剪切到物体实际运动的时间窗口。

大规模运行我们的流水线产生了 MolmoMotion-1M——据我们所知，这是目前最大的带有动作描述的物体关联 3D 点轨迹语料库，涵盖 736 种运动类型和 5600 个不同物体。

数据标注流水线概述：给定动作事件的视频及其描述，首先关联移动物体并在其上采样查询点，然后跟踪物体上的密集 2D 点，将这些轨迹提升到共有的米制 3D 帧，利用物体级空间和时间一致性先验过滤不可靠轨迹，最后在关联物体发生有意义运动的时间区间周围剪辑视频。

为了评估 MolmoMotion 的预测性能，我们还构建了 PointMotionBench，一个由人工验证的保留 3D 轨迹基准。它涵盖 2700 段视频片段，跨越 111 个物体类别和 61 种运动类型，包括室内操作、以自我为中心的手-物体交互以及室外动态场景。对每个片段，模型被提供当前观测、物体查询点和动作描述，并根据预测的 3D 点轨迹与物体实际未来运动的匹配精度进行评估。这为我们提供了一个直接的 3D 运动预测定量测试，而不是依赖生成的轨迹看起来是否合理。

实验与性能

我们从三个方面评估 MolmoMotion。首先，测试它是否比现有方法更准确地预测未来的 3D 运动。其次，测试它所学到的运动知识是否有助于机器人执行操作任务。第三，测试同样的知识是否有助于引导生成视频中的运动。

3D 运动预测

在 PointMotionBench 上，MolmoMotion 在物体、场景和动作的广泛范围内，优于我们测试的所有现有 3D 运动预测方法——包括像素空间视频生成器、参数化 3D 方法和简单的恒速基线。

MolmoMotion 可以预测多种物体和场景的运动，例如毛绒滚轮如何在布料上来回滚动，碗如何在桌子上滑动和旋转，火烈鸟如何在水中行走并低头蘸水，或者汽车如何在转弯时沿道路行驶。在每种情况下，预测路径都遵循提供给 MolmoMotion 的指令，并非常接近基准中的真实运动。

PointMotionBench 基准结果：MolmoMotion 在所有指标上优于现有方法。

下游评估：机器人规划

MolmoMotion 学到的运动知识应该能从一种设置迁移到另一种设置——用手拿起杯子和用机器人夹爪拿起杯子是非常不同的动作，但杯子本身在 3D 空间中遵循相似的路径。这使得 MolmoMotion 非常适合机器人领域，机器人需要在移动物体之前规划物体如何运动。

在 DROID（一个大型的、开放的真实世界机器人操作视频数据集）上进行微调后，我们发现 MolmoMotion 可以在不同的物体、摄像机视角、场景和任务中预测出合理的物体路径，适用于广泛的机器人规划场景。

机器人规划演示：左上：将布料从容器中取出；右下：将盖子放在锅上。机器人规划演示：将盖子放在锅上。

在仿真中，基于 MolmoMotion 的控制策略在拾取-放置任务上成功率为 76.3%，而基于 Molmo 2 的相同策略成功率为 56.0%，并且学习速度更快——经过 10K 训练步数达到 51%，而 Molmo 2 版本最高仅为 19%。在真实机器人上（微调后），MolmoMotion 达到 Molmo 2 基线在 12K 训练步数后才能达到的测试 L2 误差，仅需约 2K 步。

机器人规划训练曲线：MolmoMotion 收敛更快且最终误差更低。

下游评估：视频生成

MolmoMotion 预测的路径还可以引导视频生成。不是让图像到视频模型仅凭文本指令猜测运动，而是可以输入 MolmoMotion 的预测。结果生成的视频更紧密地遵循请求的动作，尤其是对于提示只能模糊描述的小而精确的运动。

指标也支持这一点。用于引导视频生成器时，MolmoMotion 在我们测量的所有五个与运动相关的指标上提高了运动质量，并在五个指标中的四个上击败了更大的图像到视频模型。

视频生成质量对比：DaS + MolmoMotion 在多个运动指标上优于 CogVideoX-5B 和 WAN-14B。

局限与未来工作

MolmoMotion 是一个强大的模型，但仍有一些局限。训练时每个物体使用 8 个查询点——足以预测有用的轨迹，但不足以密集表示表面几何。这限制了模型处理复杂可变形运动的能力。

我们认为，预测——在物体运动之前预测它们将如何运动——对于机器智能来说与感知已经存在的事物同样基础。MolmoMotion 朝着这个方向迈出了一步：一种跨物体类别泛化、无需每类别模板、从普通视频中学习的 3D 运动预测器，也是我们在 PointMotionBench 上测量过的最准确的 3D 运动预测器。我们预计在机器人、视频及其他领域将会有许多应用。

我们鼓励你通过下载权重、检查训练数据以及在 PointMotionBench 上评估我们的方法来尝试 MolmoMotion。

原文链接：Hugging Face
本文由前途科技编辑整理

MolmoMotion：语言引导的3D运动预测

AI 前沿2026年6月16日· 原作者：Hugging Face· 6 分钟阅读4 阅读

预测运动比观察更难，但在许多场景下也更有用。