前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

MolmoMotion:语言引导的3D运动预测

AI 前沿2026年6月16日· 原作者:Hugging Face· 6 分钟阅读4 阅读

AI2 发布 MolmoMotion,一种语言引导的 3D 运动预测模型。给定视频帧、物体上的 3D 点以及动作描述,它能预测未来几秒内这些点的 3D 轨迹。配合新数据集 MolmoMotion-1M 和基准 PointMotionBench,该模型在运动预测上超越现有方法,并可驱动机器人规划和视频生成等下游任务。

机器在感知运动方面已经非常出色。给定一段视频,现代模型能以极高置信度追踪物体和点在场景中的运动。但感知本质上是回顾性的:它解释已经发生的运动。而我们想要构建的许多系统和应用需要向前看。机器人抓杯子时,必须在接触前预测杯子如何移动;视频生成器如果希望生成物理合理的帧,就必须知道接下来什么样的运动是真实的。

预测运动比观察更难,但在许多场景下也更有用。

这正是 MolmoMotion 背后的动机——我们今天发布的一个新型运动预测模型。给定视频帧、标记在物体上的 3D 点以及描述预期动作的文字指令(例如“移动并旋转桌子上带有水果的木碗”),MolmoMotion 预测这些点在接下来几秒内将在 3D 空间中移动到哪里——其性能显著强于现有的预测方法。

MolmoMotion 演示:给定 RGB 观测、物体上的查询点和动作描述,模型预测物体未来的 3D 点轨迹,这些轨迹可驱动机器人规划和轨迹条件视频生成等下游应用。

除了模型,我们还发布了 MolmoMotion-1M,这是目前最大的与动作描述配对的 3D 点轨迹数据集,来自 116 万段视频。我们还发布了 PointMotionBench,一个由人工验证的基准,旨在衡量以物体为中心的 3D 运动预测精度,包含 2700 段视频片段。

我们发现,像 MolmoMotion 这样的运动预测器可以在一系列下游任务中发挥作用,从机器人规划到可控视频生成。我们开源发布模型权重、MolmoMotion-1M 数据集和 PointMotionBench 基准,供社区研究、改进和定制。

MolmoMotion:内部机制

MolmoMotion 以一种刻意设计且高效的方式表示运动:作为世界空间中的物体附着 3D 点,这可以捕获运动而无需渲染完整视频。我们选择它是因为我们需要一种具有三个属性的通用运动表示:

  1. 类别无关:不绑定到人体、手部、刚体或任何固定类别的模板。
  2. 视图稳定:相同的物理运动应在不同摄像机和视角下一致表示。
  3. 下游系统可直接使用,这些系统需要推理物理运动。

在我们考虑的各种表示中,它是唯一同时满足这三条的。一组稀疏的表面点可以描述刚性、关节式以及(有限范围内)可变形运动,而无需假设被移动物体的类型。由于点位于共享的世界坐标系中,它们的轨迹在摄像机运动和视角变化下保持稳定。由于它们是 3D 空间中的紧凑显式轨迹,可以直接传递给机器人策略或视频生成模型等系统。

为了预测这些轨迹,MolmoMotion 使用 Molmo 2 作为骨干,使其能够将语言指令与图像中的物体和点关联起来。给定一段短视频历史、一个动作描述以及一组包含初始 3D 位置的查询点,模型首先识别所指的物体、查询点以及指令描述的运动。然后它预测每个点的未来 3D 轨迹。

我们训练了两个变体:

  • 自回归变体 (MolmoMotion-AR) 逐步预测未来坐标。它将 3D 坐标表示为结构化文本,遵循 VLM 使用的坐标风格预测,并按时间顺序写出未来轨迹。由于每个新坐标都依赖于已生成的轨迹,这鼓励平滑的 rollout,并在未来路径明确时提供最强的精度。
  • 流匹配变体 (MolmoMotion-FM) 通过将噪声转换为运动来预测连续 3D 空间中的轨迹,当指令允许多种可能的未来时,它更适合表示不确定性。

MolmoMotion 架构:共享输入包括 RGB 观测的图像 token、动作描述的文本 token 以及从 Molmo 2 视觉编码器采样的 2D 查询点特征 token。MolmoMotion-AR 将初始 3D 查询坐标编码并将未来轨迹解码为量化的坐标文本,而 MolmoMotion-FM 则直接在连续 3D 坐标空间中表示轨迹。

引入 MolmoMotion-1M 和 PointMotionBench

为了训练 MolmoMotion,我们需要尚不存在的数据:大规模视频,其中包含与特定物体关联的 3D 点轨迹并配以动作描述。现有的 3D 跟踪数据集规模小且领域有限,而互联网视频虽然具有我们想要的规模和多样性,但缺乏 3D 标注。因此我们构建了一个自动流水线,从无约束视频中提取物体关联的 3D 轨迹。

给定输入视频及其动作描述,我们的标注流水线以米制世界坐标生成物体关联的 3D 点轨迹(下图展示了每个阶段)。挑战在于,原始轨迹来自无约束视频,存在深度和跟踪误差,导致点抖动和漂移,而且物体在视频大部分时间往往静止。为了让数据更可信,我们过滤掉与物体其余部分运动不一致的点,平滑剩余轨迹,并将每个片段剪切到物体实际运动的时间窗口。

大规模运行我们的流水线产生了 MolmoMotion-1M——据我们所知,这是目前最大的带有动作描述的物体关联 3D 点轨迹语料库,涵盖 736 种运动类型和 5600 个不同物体。

数据标注流水线概述:给定动作事件的视频及其描述,首先关联移动物体并在其上采样查询点,然后跟踪物体上的密集 2D 点,将这些轨迹提升到共有的米制 3D 帧,利用物体级空间和时间一致性先验过滤不可靠轨迹,最后在关联物体发生有意义运动的时间区间周围剪辑视频。

为了评估 MolmoMotion 的预测性能,我们还构建了 PointMotionBench,一个由人工验证的保留 3D 轨迹基准。它涵盖 2700 段视频片段,跨越 111 个物体类别和 61 种运动类型,包括室内操作、以自我为中心的手-物体交互以及室外动态场景。对每个片段,模型被提供当前观测、物体查询点和动作描述,并根据预测的 3D 点轨迹与物体实际未来运动的匹配精度进行评估。这为我们提供了一个直接的 3D 运动预测定量测试,而不是依赖生成的轨迹看起来是否合理。

实验与性能

我们从三个方面评估 MolmoMotion。首先,测试它是否比现有方法更准确地预测未来的 3D 运动。其次,测试它所学到的运动知识是否有助于机器人执行操作任务。第三,测试同样的知识是否有助于引导生成视频中的运动。

3D 运动预测

在 PointMotionBench 上,MolmoMotion 在物体、场景和动作的广泛范围内,优于我们测试的所有现有 3D 运动预测方法——包括像素空间视频生成器、参数化 3D 方法和简单的恒速基线。

MolmoMotion 可以预测多种物体和场景的运动,例如毛绒滚轮如何在布料上来回滚动,碗如何在桌子上滑动和旋转,火烈鸟如何在水中行走并低头蘸水,或者汽车如何在转弯时沿道路行驶。在每种情况下,预测路径都遵循提供给 MolmoMotion 的指令,并非常接近基准中的真实运动。

PointMotionBench 基准结果:MolmoMotion 在所有指标上优于现有方法。

下游评估:机器人规划

MolmoMotion 学到的运动知识应该能从一种设置迁移到另一种设置——用手拿起杯子和用机器人夹爪拿起杯子是非常不同的动作,但杯子本身在 3D 空间中遵循相似的路径。这使得 MolmoMotion 非常适合机器人领域,机器人需要在移动物体之前规划物体如何运动。

在 DROID(一个大型的、开放的真实世界机器人操作视频数据集)上进行微调后,我们发现 MolmoMotion 可以在不同的物体、摄像机视角、场景和任务中预测出合理的物体路径,适用于广泛的机器人规划场景。

机器人规划演示:左上:将布料从容器中取出;右下:将盖子放在锅上。 机器人规划演示:将盖子放在锅上。

在仿真中,基于 MolmoMotion 的控制策略在拾取-放置任务上成功率为 76.3%,而基于 Molmo 2 的相同策略成功率为 56.0%,并且学习速度更快——经过 10K 训练步数达到 51%,而 Molmo 2 版本最高仅为 19%。在真实机器人上(微调后),MolmoMotion 达到 Molmo 2 基线在 12K 训练步数后才能达到的测试 L2 误差,仅需约 2K 步。

机器人规划训练曲线:MolmoMotion 收敛更快且最终误差更低。

下游评估:视频生成

MolmoMotion 预测的路径还可以引导视频生成。不是让图像到视频模型仅凭文本指令猜测运动,而是可以输入 MolmoMotion 的预测。结果生成的视频更紧密地遵循请求的动作,尤其是对于提示只能模糊描述的小而精确的运动。

指标也支持这一点。用于引导视频生成器时,MolmoMotion 在我们测量的所有五个与运动相关的指标上提高了运动质量,并在五个指标中的四个上击败了更大的图像到视频模型。

视频生成质量对比:DaS + MolmoMotion 在多个运动指标上优于 CogVideoX-5B 和 WAN-14B。

局限与未来工作

MolmoMotion 是一个强大的模型,但仍有一些局限。训练时每个物体使用 8 个查询点——足以预测有用的轨迹,但不足以密集表示表面几何。这限制了模型处理复杂可变形运动的能力。

我们认为,预测——在物体运动之前预测它们将如何运动——对于机器智能来说与感知已经存在的事物同样基础。MolmoMotion 朝着这个方向迈出了一步:一种跨物体类别泛化、无需每类别模板、从普通视频中学习的 3D 运动预测器,也是我们在 PointMotionBench 上测量过的最准确的 3D 运动预测器。我们预计在机器人、视频及其他领域将会有许多应用。

我们鼓励你通过下载权重、检查训练数据以及在 PointMotionBench 上评估我们的方法来尝试 MolmoMotion。


原文链接:Hugging Face
本文由前途科技编辑整理

标签:视频生成

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

特朗普政府拒绝G7盟友获取Anthropic AI
TOP1

特朗普政府拒绝G7盟友获取Anthropic AI

黄仁勋:AI时代需要新社会规范
TOP2

黄仁勋:AI时代需要新社会规范

3

OpenAI一季度烧掉37亿美元,超营收一半

22小时前
OpenAI一季度烧掉37亿美元,超营收一半
4

Anthropic 企业用户占比达 41%,特朗普打压反成推手

22小时前
Anthropic 企业用户占比达 41%,特朗普打压反成推手
5

微软放弃与甲骨文30亿美元云交易

22小时前
微软放弃与甲骨文30亿美元云交易
6

意大利首次依据DMA调查苹果iCloud

22小时前
意大利首次依据DMA调查苹果iCloud
7

OpenAI等公司担忧AI出口管制扩大

22小时前
OpenAI等公司担忧AI出口管制扩大
8

Adobe报告:75%创作者视AI为必备工具

22小时前
Adobe报告:75%创作者视AI为必备工具
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款