在ICRA 2025上,英伟达研究团队展示了8篇聚焦仿真到现实(sim-to-real)迁移的论文,涵盖多臂协调、通用导航、杂波抓取、精密装配和视觉-语言-动作模型。这些成果正推动机器人从受控演示走向可靠自适应实体自主。
机器人领域正在进入新阶段:从受控演示和脚本自动化,迈向现实世界中可泛化、可靠的实体自主。
在国际机器人与自动化大会(ICRA)上,英伟达研究团队28篇被接收的论文中有8篇展示了仿真到现实的迁移如何成为这一转变的基础,帮助机器人在动态、不可预测的环境中感知、推理、规划与行动。
这8篇论文覆盖了机器人开发者面临的全栈挑战:多臂并行协调、构建跨机器人本体的策略、杂波中抓取新物体、精密装配以及开发在行动前先推理的视觉-语言-动作模型。
主线清晰:仿真到现实正成为机器人适应、泛化并更可靠地在实验室外运行的基础。
想象一个由机器人手臂操作的制药实验室:拿起试管、转移液体、混合试剂——每一步耗时不同,都需要精细协调。
传统机器人调度软件按顺序一次处理一个手臂。
ScheduleStream 改变了这一点:它在GPU上运行计算,让多个手臂并行规划运动。在NVIDIA Jetson边缘AI平台等硬件上,多臂规划场景实现了3倍加速。相关代码已发布在GitHub上。
视频
一个学会在空间中导航的机器人——避开障碍物、找到目的地——通常是用一个本体学会的。将同样的导航软件放到形状不同的机器人上,常常会失败,因为各部件运动方式不同。
COMPASS 策略框架解决了这个问题:首先用模仿学习构建基础导航功能,然后在NVIDIA Isaac Lab中用残差强化学习为多种机器人本体构建专用模块。关键是,整个过程不涉及任何真实世界机器人数据:全部在Isaac Lab仿真中训练。
与模仿学习基线相比,COMPASS的平均成功率提升了4.5倍。它还能无缝迁移到真实环境,在自主移动机器人和人形机器人上进行了20次真实导航试验,成功率约80%。
COMPASS是「代理友好」的,带有专用技能。开发者可以通过NVIDIA Omniverse NuRec在目标环境的数字孪生中后训练和验证机器人,然后再部署。
大多数抓取系统先识别物体、预测抓取、规划路径、然后执行。但最后几厘米是微小误差最关键的阶段。
Grasp-MPC 自适应计算机器人抓取,在机器人接近物体时不断修正运动,而不是执行固定计划——就像人抓东西时靠感觉,而不是事先计算每个关节角度。
为了构建策略,研究人员利用GraspGen数据集的注释和cuRobo(一个CUDA加速的机器人运动生成库)的运动规划数据,生成了8000个物体的200万条模拟轨迹。
在成功和失败轨迹上训练后,Grasp-MPC学会了在杂乱的桌面和货架上抓取新物体——真实机器人上的总体成功率约75%,而基线只有41%。
视频
可变形簇操作 引入了一个框架应对并行挑战:让系统不仅能抓取一个物体,还能抓住整捆柔性与缠绕材料。
该框架源于一个真实任务:清除长到电线上的树枝团——没有单个干净物体可抓。系统使用整个手臂(不仅是夹爪)绕住树枝簇并将其扫开,就像人们揽起一捆电缆或推开一团灌木。
研究人员用生物生长方程构建了一个树木生成器,创建了多种形状和尺寸的合成树木——然后在数千棵这样的树上,使用NVIDIA Isaac开放仿真框架训练系统。
该策略零样本部署到真实树枝。除了电线,研究人员还看到了在电缆管理、农业检查以及任何机器人需要处理缠绕物而非单一可抓物品的场景中的应用潜力。

零样本仿真到现实部署,清除树枝。
精密装配——将螺母拧到螺栓上、将齿轮插入轴、将销钉压入孔——仅靠仿真很难做对。
现实世界复杂:真实表面并非完美光滑,传感器性能也与规格不符,仿真器忽略的微小误差可能让机器人寸步难行。
SPARR 方法将任务一分为二:在Isaac Lab中训练一个策略学习装配任务的通用策略;然后在真实硬件上,第二层学习纠正仿真器的错误——仅使用机器人自己的摄像头,无需任何人类演示或指导。
与零样本的仿真到现实基线相比,SPARR成功率提升了38%,循环时间减少了约30%。
在训练中未见过的国家标准与技术研究所(NIST)装配任务上,成功率提升了近75%——接近需要人类介入的方法的性能。
Refinery 框架应对装配中更高难度的层级:多顺序步骤的任务,其中第一步的完成方式决定了第二步是否可能。就像组装家具——一块面板角度不对,下一个紧固件就装不上。
通过理解成功率在不同初始条件下的变化,并在数百个模拟装配场景中训练,Refinery学会如何完成每一步,并将每个部件放置在为下一步做准备的位置。它在仿真中达到91%的成功率,相比基线平均提升近11%,在真实世界中也取得了可比结果。其策略可以串联起来处理长序列任务。
PEEK 管道帮助机器人看穿杂乱。在典型操作任务中,机器人摄像头捕捉到场景中的所有物体——但大部分是无关噪声。
PEEK项目页面演示了一个任务:「把香蕉给英伟达创始人兼CEO黄仁勋」:桌上摆着黄仁勋的照片、迈克尔·乔丹的照片、一堆无关物体和其他干扰物。
人类做这个任务会立刻聚焦香蕉和正确的照片;标准机器人策略必须处理所有信息,常常被混淆。PEEK通过让视觉语言模型读取任务指令,将机器人的视线聚焦到相关物体——显示移动路径、高亮相关物体周边,同时淡出其他内容。
然后策略基于这个注释后的视图行动,而非原始场景。对于纯仿真训练的策略,加入PEEK使真实世界准确率提升了41倍。对于大型VLA模型和较小的策略,提升幅度在2-3.5倍之间。由于在图像层面工作,PEEK无需修改即可集成到任何基于摄像头的策略中。
视频
Do What You Say——与卡内基梅隆大学、犹他大学和悉尼大学的研究人员合作——解决了一个随着机器人处理更长、更复杂任务而日益重要的特定失败模式。
给机器人一个指令如「把这张桌子上的所有东西放进柜子里」或「准备一杯曼哈顿」,它需要分解成单独步骤并按顺序执行。
问题是:AI模型可以正确推理需要做什么——但执行时却做出不同的事情。
这个方法称为SEAL,在运行时无需重新训练即可纠正:机器人生成几个候选动作序列,思考每个序列实际会导致的结果,然后选择与它声称要做的事情相匹配的结果。SEAL相比先前工作准确率提升高达15%,对改写指令、物体变化、场景杂乱和相机角度变化都有鲁棒性。
视频
除了论文,英伟达还通过大规模开放数据集扩大机器人研究基础设施。NVIDIA Physical AI Dataset是最大的物理开发开放数据集,下载量超过1500万次;NVIDIA Isaac GR00T X Embodiment Sim已成为下载量最高的机器人数据集之一。
来自卡内基梅隆大学、苏黎世联邦理工学院、麻省理工学院和德克萨斯大学奥斯汀分校的机器人团队正在利用NVIDIA技术,将物理AI研究从仿真推向真实系统——近50篇被引用的论文涉及NVIDIA加速仿真、机器学习和计算。
例如,CMU的一篇论文展示了在NVIDIA Isaac Lab中训练的机器人控制框架,MIT的工作则利用NVIDIA GPU进行大语言模型引导的强化学习。
探索NVIDIA Research的物理AI工作。开发者可以从Isaac Lab和Isaac Sim开始。
原文链接:NVIDIA AI Blog
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断