AI2 发布 MolmoMotion,一种语言引导的 3D 运动预测模型。给定视频帧、物体上的 3D 点以及动作描述,它能预测未来几秒内这些点的 3D 轨迹。配合新数据集 MolmoMotion-1M 和基准 PointMotionBench,该模型在运动预测上超越现有方法,并可驱动机器人规划和视频生成等下游任务。
机器在感知运动方面已经非常出色。给定一段视频,现代模型能以极高置信度追踪物体和点在场景中的运动。但感知本质上是回顾性的:它解释已经发生的运动。而我们想要构建的许多系统和应用需要向前看。机器人抓杯子时,必须在接触前预测杯子如何移动;视频生成器如果希望生成物理合理的帧,就必须知道接下来什么样的运动是真实的。
预测运动比观察更难,但在许多场景下也更有用。
这正是 MolmoMotion 背后的动机——我们今天发布的一个新型运动预测模型。给定视频帧、标记在物体上的 3D 点以及描述预期动作的文字指令(例如“移动并旋转桌子上带有水果的木碗”),MolmoMotion 预测这些点在接下来几秒内将在 3D 空间中移动到哪里——其性能显著强于现有的预测方法。
除了模型,我们还发布了 MolmoMotion-1M,这是目前最大的与动作描述配对的 3D 点轨迹数据集,来自 116 万段视频。我们还发布了 PointMotionBench,一个由人工验证的基准,旨在衡量以物体为中心的 3D 运动预测精度,包含 2700 段视频片段。
我们发现,像 MolmoMotion 这样的运动预测器可以在一系列下游任务中发挥作用,从机器人规划到可控视频生成。我们开源发布模型权重、MolmoMotion-1M 数据集和 PointMotionBench 基准,供社区研究、改进和定制。
MolmoMotion 以一种刻意设计且高效的方式表示运动:作为世界空间中的物体附着 3D 点,这可以捕获运动而无需渲染完整视频。我们选择它是因为我们需要一种具有三个属性的通用运动表示:
在我们考虑的各种表示中,它是唯一同时满足这三条的。一组稀疏的表面点可以描述刚性、关节式以及(有限范围内)可变形运动,而无需假设被移动物体的类型。由于点位于共享的世界坐标系中,它们的轨迹在摄像机运动和视角变化下保持稳定。由于它们是 3D 空间中的紧凑显式轨迹,可以直接传递给机器人策略或视频生成模型等系统。
为了预测这些轨迹,MolmoMotion 使用 Molmo 2 作为骨干,使其能够将语言指令与图像中的物体和点关联起来。给定一段短视频历史、一个动作描述以及一组包含初始 3D 位置的查询点,模型首先识别所指的物体、查询点以及指令描述的运动。然后它预测每个点的未来 3D 轨迹。
我们训练了两个变体:

为了训练 MolmoMotion,我们需要尚不存在的数据:大规模视频,其中包含与特定物体关联的 3D 点轨迹并配以动作描述。现有的 3D 跟踪数据集规模小且领域有限,而互联网视频虽然具有我们想要的规模和多样性,但缺乏 3D 标注。因此我们构建了一个自动流水线,从无约束视频中提取物体关联的 3D 轨迹。
给定输入视频及其动作描述,我们的标注流水线以米制世界坐标生成物体关联的 3D 点轨迹(下图展示了每个阶段)。挑战在于,原始轨迹来自无约束视频,存在深度和跟踪误差,导致点抖动和漂移,而且物体在视频大部分时间往往静止。为了让数据更可信,我们过滤掉与物体其余部分运动不一致的点,平滑剩余轨迹,并将每个片段剪切到物体实际运动的时间窗口。
大规模运行我们的流水线产生了 MolmoMotion-1M——据我们所知,这是目前最大的带有动作描述的物体关联 3D 点轨迹语料库,涵盖 736 种运动类型和 5600 个不同物体。
为了评估 MolmoMotion 的预测性能,我们还构建了 PointMotionBench,一个由人工验证的保留 3D 轨迹基准。它涵盖 2700 段视频片段,跨越 111 个物体类别和 61 种运动类型,包括室内操作、以自我为中心的手-物体交互以及室外动态场景。对每个片段,模型被提供当前观测、物体查询点和动作描述,并根据预测的 3D 点轨迹与物体实际未来运动的匹配精度进行评估。这为我们提供了一个直接的 3D 运动预测定量测试,而不是依赖生成的轨迹看起来是否合理。
我们从三个方面评估 MolmoMotion。首先,测试它是否比现有方法更准确地预测未来的 3D 运动。其次,测试它所学到的运动知识是否有助于机器人执行操作任务。第三,测试同样的知识是否有助于引导生成视频中的运动。
在 PointMotionBench 上,MolmoMotion 在物体、场景和动作的广泛范围内,优于我们测试的所有现有 3D 运动预测方法——包括像素空间视频生成器、参数化 3D 方法和简单的恒速基线。
MolmoMotion 可以预测多种物体和场景的运动,例如毛绒滚轮如何在布料上来回滚动,碗如何在桌子上滑动和旋转,火烈鸟如何在水中行走并低头蘸水,或者汽车如何在转弯时沿道路行驶。在每种情况下,预测路径都遵循提供给 MolmoMotion 的指令,并非常接近基准中的真实运动。

MolmoMotion 学到的运动知识应该能从一种设置迁移到另一种设置——用手拿起杯子和用机器人夹爪拿起杯子是非常不同的动作,但杯子本身在 3D 空间中遵循相似的路径。这使得 MolmoMotion 非常适合机器人领域,机器人需要在移动物体之前规划物体如何运动。
在 DROID(一个大型的、开放的真实世界机器人操作视频数据集)上进行微调后,我们发现 MolmoMotion 可以在不同的物体、摄像机视角、场景和任务中预测出合理的物体路径,适用于广泛的机器人规划场景。
在仿真中,基于 MolmoMotion 的控制策略在拾取-放置任务上成功率为 76.3%,而基于 Molmo 2 的相同策略成功率为 56.0%,并且学习速度更快——经过 10K 训练步数达到 51%,而 Molmo 2 版本最高仅为 19%。在真实机器人上(微调后),MolmoMotion 达到 Molmo 2 基线在 12K 训练步数后才能达到的测试 L2 误差,仅需约 2K 步。

MolmoMotion 预测的路径还可以引导视频生成。不是让图像到视频模型仅凭文本指令猜测运动,而是可以输入 MolmoMotion 的预测。结果生成的视频更紧密地遵循请求的动作,尤其是对于提示只能模糊描述的小而精确的运动。
指标也支持这一点。用于引导视频生成器时,MolmoMotion 在我们测量的所有五个与运动相关的指标上提高了运动质量,并在五个指标中的四个上击败了更大的图像到视频模型。

MolmoMotion 是一个强大的模型,但仍有一些局限。训练时每个物体使用 8 个查询点——足以预测有用的轨迹,但不足以密集表示表面几何。这限制了模型处理复杂可变形运动的能力。
我们认为,预测——在物体运动之前预测它们将如何运动——对于机器智能来说与感知已经存在的事物同样基础。MolmoMotion 朝着这个方向迈出了一步:一种跨物体类别泛化、无需每类别模板、从普通视频中学习的 3D 运动预测器,也是我们在 PointMotionBench 上测量过的最准确的 3D 运动预测器。我们预计在机器人、视频及其他领域将会有许多应用。
我们鼓励你通过下载权重、检查训练数据以及在 PointMotionBench 上评估我们的方法来尝试 MolmoMotion。
原文链接:Hugging Face
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断