NVIDIA发布物理AI新技能，加速自动驾驶与机器人研究

产品2026年6月2日· 原作者：Pranjali Joshi· 7 分钟阅读32 阅读

NVIDIA在CVPR上发布一系列物理AI智能体技能，整合Cosmos 3等工具，帮助研究人员自动化场景重建、数据生成和策略训练等工作流，加速自动驾驶、机器人及视觉AI系统的研发。

NVIDIA在CVPR上发布新的物理AI智能体技能，帮助研究人员和开发者加速自动驾驶、机器人和视觉AI系统的开发。

物理AI研究的核心挑战并非开发更强的模型，而是为其构建完整的工作流——重建真实场景、生成边缘案例、训练策略、评估行为并快速迭代。过去，这些步骤分散在各自独立的工具中，研究人员不得不费力拼凑，拖慢了实验节奏。

本周早些时候，NVIDIA发布了NVIDIA Cosmos 3，物理AI的开放前沿模型，也是全球首个统一视觉推理、世界生成和动作生成的全能模型。这一世界基础模型在物理AI开放模型排行榜上领先，为物理AI开发提供了核心能力。NVIDIA物理AI智能体技能与Cosmos、NVIDIA库和仿真框架配合，帮助研究人员更快地从模型能力迈向可扩展的端到端工作流。

自动驾驶研究：超越记录里程

对自动驾驶研究人员而言，问题在于驾驶的“长尾”——罕见交互、异常路形、光照变化和边缘案例行为，这些难以反复收集，但对训练和验证至关重要。

视频播放器
Neural Reconstruction技能演示（OpenClaw平台），展示从虚拟高视点重渲染的视频。

借助NVIDIA自动驾驶技能，研究人员可以让AI智能体自动化工作流：从车队数据中重建场景、生成合成场景。Neural Reconstruction技能帮助AI智能体将车队采集的数据转化为可编辑的3D场景，用于仿真和合成数据生成。NVIDIA Omniverse NuRec、InstantNuRec、Harmonizer和HiGS加速渲染器等技术支持加速重建、提升场景真实感并生成新视角。

视频播放器
InstantNuRec实现从图像快速生成3D高斯路况场景，无需逐场景优化。

对于自动驾驶研究人员，可复现的仿真有助于改变条件、比较系统响应并发现超出真实数据范围的不同场景下的故障模式。NVIDIA AlpaGym是一个开源的闭环强化学习框架，通过将策略滚动与高保真仿真结合智能体技能，扩展到数千个GPU，帮助研究人员完成设置、滚动和评估。 NVIDIA OmniDreams是一个基于动作条件的生成式世界模型，为仿真循环增加真实感渲染，实时生成响应策略动作的相机帧。

NVIDIA还推出了其最强大的开源驾驶基础模型NVIDIA Alpamayo 2 Super，一个320亿参数的视觉语言动作（VLA）模型，能够推理、规划并执行完整驾驶堆栈，支持更安全、可扩展的L4级开发与部署。

视觉AI系统：应对真实世界瓶颈

对视觉AI研究而言，瓶颈在于创建足够的受控示例，以研究模型在视觉条件、对象状态或时间事件变化时的行为。零样本异常检测、合成异常生成和小样本缺陷识别等工作都面临数据墙。

视频播放器
新的视觉检测技能可在不同表面生成多种罕见缺陷。

NVIDIA Metropolis新技能帮助研究人员使用AI智能体生成合成视觉场景（包括异常），扩充数据并支持伪标签。这些技能受益于Cosmos 3的混合Transformer架构，该架构使用推理Transformer分析观察结果并向生成塔提供指令，帮助扩展具有物理基础性的虚拟世界。

构建高精度视觉检测模型的研究人员可以使用缺陷图像生成技能，利用真实图像创建不同表面上的不同缺陷示例。该工作流结合了NVIDIA Isaac Sim仿真、Cosmos 3和NVIDIA OSMO编排与视觉语言推理——让研究人员能够创建罕见视觉案例并评估模型是否正确响应。

视频播放器
新的NVIDIA Metropolis VSS蓝本技能可从海量视频数据中提取洞察。

对于视频AI智能体，NVIDIA Metropolis视频搜索与摘要（VSS）蓝本、NVIDIA TAO和视频增广技能可帮助从海量视频数据中提取洞察、微调模型并自动化构建与评估循环。这为研究人员提供了一种更可复现的方式来开发推理型视觉AI智能体，使其能够检测事件、推理复杂场景、摘要活动并发送警报。

机器人学习：代理就绪的仿真工作流

教授机器人导航或操作等技能归结为迭代。对研究人员来说，瓶颈在于构建足够的受控环境和策略滚动，以理解机器人在不同任务、设置和实体上的行为变化——这项工作通常需要手动拼接仿真环境、任务变体、策略训练和评估。

视频播放器
NVIDIA Isaac Sim 6.0包含代理友好的技能和连接器，帮助自动化工作流。

利用NVIDIA机器人技能，研究人员可以委托AI智能体自动化场景准备、仿真和机器人学习中的大部分常见开发步骤，借助NVIDIA Omniverse库、Isaac Sim和Isaac Lab框架。智能体可以启动仿真会话、撰写场景、控制仿真、捕获数据并验证环境，而Isaac Lab技能支持强化学习设置、训练、评估和自定义环境开发。

视频播放器
新的NVIDIA Isaac移动技能自动化导航工作流。

专门的技能将工作流扩展到移动和操作。Isaac移动技能支持导航工作流，涵盖场景搜索、USD转换、环境注册、残留强化学习和策略评估，而专门的Isaac Lab代理工作流则支持仿真到仿真以及仿真到真实的任务，如环境构建、物理调试、调试和分析。

对于医疗机器人，Cosmos-H-Surgical-Simulator通过生成逼真的手术机器人数据用于策略训练和评估，推动研究发展。该模拟器直接从真实手术数据学习，而非人工设计的物理模型，有助于缩小仿真与真实差距，支持自主手术任务开发。

Cosmos 3还能进一步帮助生成合成数据和场景变体，然后支持针对特定实体行为和环境数据的后训练，涵盖从拾放到灵巧操作等任务。

CVPR上的NVIDIA研究

NVIDIA的技术——包括GPU、开放模型、仿真框架和CUDA加速库——被多数CVPR 2026录用论文引用，并被全球领先研究实验室和机构采用，包括卡内基梅隆大学、斯坦福大学、加州大学伯克利分校、清华大学和北京大学。

NVIDIA研究人员在CVPR（6月3日至7日，丹佛）上展示计算机视觉、物理AI、自主系统、神经渲染、生成式AI和机器人领域的工作。

NVIDIA在CVPR上的亮相还包括开放研究挑战赛，用于评估物理AI进展：

AI City Challenge，智能城市应用的顶级计算机视觉竞赛，今年已是第十届。
PAI-AV推理挑战，一个新开放基准，评估VLA模型使用因果链标签解释驾驶决策的能力。
AlpaSim闭环端到端驾驶挑战，一个新开放基准，在真实重建场景的闭环仿真中测试自动驾驶策略。

NVIDIA还通过用于训练、微调和评估的数据集扩展了物理AI的研究基础设施。NVIDIA物理AI数据集在Hugging Face上的下载量已超过1500万次，而NVIDIA Isaac GR00T X Embodiment Sim已成为下载量最高的机器人数据集之一。新发布的数据集包括GRAIL（约50小时的人形物体交互数据），以及用于训练Cosmos 3的六个合成视频数据集，涵盖机器人、物理、数字人、自动驾驶、仓库安全和空间推理领域。

可用性

NVIDIA物理AI代理工具和技能现已在GitHub上开源。用于合成数据生成的代理技能和工具——Neural Reconstruction、Video Augmentation、Defect Image Generation——也可在NVIDIA Brev上以物理AI Launchables形式立即试用，这些预配置环境捆绑了代理技能和工具，用于更快的合成数据生成和评估。Launchables运行在托管的NVIDIA H100 Tensor Core GPU上，并为研究人员提供免费试用积分。

原文链接：NVIDIA AI Blog
本文由前途科技编辑整理

NVIDIA发布物理AI新技能，加速自动驾驶与机器人研究

产品2026年6月2日· 原作者：Pranjali Joshi· 7 分钟阅读32 阅读

NVIDIA发布物理AI新技能，加速自动驾驶与机器人研究

NVIDIA在CVPR上发布新的物理AI智能体技能，帮助研究人员和开发者加速自动驾驶、机器人和视觉AI系统的开发。

自动驾驶研究：超越记录里程

视频播放器
Neural Reconstruction技能演示（OpenClaw平台），展示从虚拟高视点重渲染的视频。

视频播放器
InstantNuRec实现从图像快速生成3D高斯路况场景，无需逐场景优化。

视觉AI系统：应对真实世界瓶颈

视频播放器
新的视觉检测技能可在不同表面生成多种罕见缺陷。

视频播放器
新的NVIDIA Metropolis VSS蓝本技能可从海量视频数据中提取洞察。

机器人学习：代理就绪的仿真工作流

视频播放器
NVIDIA Isaac Sim 6.0包含代理友好的技能和连接器，帮助自动化工作流。

视频播放器
新的NVIDIA Isaac移动技能自动化导航工作流。

Cosmos 3还能进一步帮助生成合成数据和场景变体，然后支持针对特定实体行为和环境数据的后训练，涵盖从拾放到灵巧操作等任务。

CVPR上的NVIDIA研究

NVIDIA研究人员在CVPR（6月3日至7日，丹佛）上展示计算机视觉、物理AI、自主系统、神经渲染、生成式AI和机器人领域的工作。

NVIDIA在CVPR上的亮相还包括开放研究挑战赛，用于评估物理AI进展：

AI City Challenge，智能城市应用的顶级计算机视觉竞赛，今年已是第十届。
PAI-AV推理挑战，一个新开放基准，评估VLA模型使用因果链标签解释驾驶决策的能力。
AlpaSim闭环端到端驾驶挑战，一个新开放基准，在真实重建场景的闭环仿真中测试自动驾驶策略。

可用性

原文链接：NVIDIA AI Blog
本文由前途科技编辑整理

NVIDIA发布物理AI新技能，加速自动驾驶与机器人研究

自动驾驶研究：超越记录里程

视觉AI系统：应对真实世界瓶颈

机器人学习：代理就绪的仿真工作流

CVPR上的NVIDIA研究

可用性

想了解 AI 如何助力您的企业？

置顶文章

会打字,就能"拍"电影:ScriptTask 开放限量内测

24小时热榜

OpenAI模型自主逃逸，安全专家称已越过“临界”红线

特斯拉Cybercab需自积累FSD验证里程

免费获取 AI 落地指南

NVIDIA发布物理AI新技能，加速自动驾驶与机器人研究

自动驾驶研究：超越记录里程

视觉AI系统：应对真实世界瓶颈

机器人学习：代理就绪的仿真工作流

CVPR上的NVIDIA研究

可用性

想了解 AI 如何助力您的企业？

置顶文章

会打字,就能"拍"电影:ScriptTask 开放限量内测

24小时热榜

OpenAI模型自主逃逸，安全专家称已越过“临界”红线

特斯拉Cybercab需自积累FSD验证里程

免费获取 AI 落地指南