英伟达在今年的计算机视觉与模式识别大会(CVPR)上展示三项研究:首个零样本抓取基础模型GraspGen-X、用压缩潜空间加速自动驾驶推理的LCDrive、以及基于Isaac GR00T的通用游戏AI基础模型NitroGen。这些工作表明,规模化训练能够创建泛化能力更强的物理AI系统。

一个有用的机器人夹爪,不在于能抓起一件物品,而在于能用从未握过的工具,连续抓取下一件、再一件。
一套安全的自动驾驶系统,不仅需要能推理路况,还要能在车上实际运行的硬件上快速做出判断。
一个强大的虚拟智能体,需要在面对现实世界之前,尽可能多地接触不同环境。
在今年的计算机视觉与模式识别大会(CVPR)上,英伟达研究院发表了三篇论文,分别应对上述挑战。它们的共同主题是:大规模训练能创造出在多种应用中泛化的系统。
三篇论文覆盖了物理AI研究中不同方向的挑战:
英伟达还在CVPR上发布了 新的物理AI智能体技能,帮助研究人员和开发者加速自动驾驶、机器人和视觉AI系统的开发。
大多数机器人抓取AI系统都是专才。
针对双指夹爪训练的 视觉-语言-行动 策略,只学会了用两根手指抓取。同样,为灵巧抓取训练的策略,也只适用于定制的多指夹爪。每次遇到新形态,整个过程通常需要重来——收集新训练数据、微调、验证。这一限制意味着大多数机器人公司会选定一种夹爪,专门训练然后一直用下去。
GraspGen-X 是第一个旨在消除这一瓶颈的抓取基础模型。
就像大语言模型无需重新训练就能将语言理解应用于新任务,GraspGen-X 将其对几何和接触的理解应用于任何遇到的机器人夹爪。给定一个新夹爪的几何形状和一个从未见过的未知物体,模型会生成可靠的抓取姿态建议,使机器人能够抓取该物体。
视频
为了达到这一目标,研究人员需要一个在现实世界中无法大规模收集的数据集。他们模拟生成了20亿次抓取,覆盖数千种物体形状和合成夹爪配置,涵盖了部署机器人可能遇到的各种形态因子。
对机器人开发者来说,这个基础模型消除了为每个夹爪单独训练的需求,可以直接应用于多种常用夹爪。GraspGenX 可与 curoboV2(一个新的CUDA加速运动规划库)结合使用,在未知环境中实现这些抓取姿态。
在 GraspGen 研究基础上,另一篇论文 Grasp-MPC(发表于ICRA 2026)进一步推进了流水线的下一步:从抓取生成迈向闭环抓取执行。
近年来,研究人员发现,让AI进行推理——在给出答案前生成中间思考步骤——能可靠地改善其决策质量。
对自动驾驶汽车而言,挑战在于在车上实际硬件上进行这种推理。基于文本的思维链推理会生成词语,每个词都是一个需要时间生成的令牌。在汽车内部运行的处理器上,令牌数量是系统响应速度的真正瓶颈。
LCDrive 通过用压缩的潜表示替换词语来解决这个问题。
系统不再生成人类可读的推理步骤,而是在一个紧凑的潜空间中进行思考——这些状态捕捉空间信息,而不是生成文本。架构在两种思考模式之间交替:提出候选行动,然后预测如果采取这些行动世界会变成什么样。
它利用预测的世界状态来优化下一步。这是同样的推理循环,只是采用了比自然语言计算效率更高的形式。
结果:输出轨迹质量与基于文本的推理相当,但令牌数量大约减少了一半。
该模型基于 英伟达 Alpamayo 构建,并使用从现有车辆数据中提取的监督信号进行训练。
英伟达 Isaac GR00T(用于人形机器人的开放基础模型)建立在一个简单原则上:让模型接触足够多的不同场景,它就能泛化到从未见过的场景。
NitroGen 将该原则扩展到虚拟环境,利用 GR00T 架构为基础模型训练具身智能体,覆盖广泛的虚拟世界。
电子游戏提供了难以从头构建的东西:结构化的、多样的世界,具有明确的目标和成功条件。它们是高质量的训练环境,并且可以大规模获取。
NitroGen 正是这样使用它们——作为智能体的训练场,这些智能体最终将学会处理新颖的现实或模拟世界场景,比如根据“把这些东西放到食品柜里”这样的大致指令来帮助做家务的机器人。
基于 GR00T 的模型在超过1000个游戏和4万小时的交互中训练,由此产生的智能体学会了跨环境泛化。该模型在各种动作角色扮演游戏、平台游戏、roguelike 和开放世界游戏中进行了评估,展示了包括战斗、导航和探索在内的游戏行为。
视频
同样的技术最终可以帮助游戏内创建更自适应的非玩家角色、AI 同伴和玩法系统,以及对复杂游戏环境进行更广泛的测试。
在数据稀缺条件下——智能体只见过新环境的少数例子——从 NitroGen 开始会给智能体带来巨大优势,性能相比之前的最先进方法提高了多达52%。
该模型是开源的,可在 GitHub 和 Hugging Face 上获取。
原文链接:NVIDIA AI Blog
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断