NVIDIA在CVPR上发布一系列物理AI智能体技能,整合Cosmos 3等工具,帮助研究人员自动化场景重建、数据生成和策略训练等工作流,加速自动驾驶、机器人及视觉AI系统的研发。

NVIDIA在CVPR上发布新的物理AI智能体技能,帮助研究人员和开发者加速自动驾驶、机器人和视觉AI系统的开发。
物理AI研究的核心挑战并非开发更强的模型,而是为其构建完整的工作流——重建真实场景、生成边缘案例、训练策略、评估行为并快速迭代。过去,这些步骤分散在各自独立的工具中,研究人员不得不费力拼凑,拖慢了实验节奏。
本周早些时候,NVIDIA发布了NVIDIA Cosmos 3,物理AI的开放前沿模型,也是全球首个统一视觉推理、世界生成和动作生成的全能模型。这一世界基础模型在物理AI开放模型排行榜上领先,为物理AI开发提供了核心能力。NVIDIA物理AI智能体技能与Cosmos、NVIDIA库和仿真框架配合,帮助研究人员更快地从模型能力迈向可扩展的端到端工作流。
对自动驾驶研究人员而言,问题在于驾驶的“长尾”——罕见交互、异常路形、光照变化和边缘案例行为,这些难以反复收集,但对训练和验证至关重要。
视频播放器
Neural Reconstruction技能演示(OpenClaw平台),展示从虚拟高视点重渲染的视频。
借助NVIDIA自动驾驶技能,研究人员可以让AI智能体自动化工作流:从车队数据中重建场景、生成合成场景。Neural Reconstruction技能帮助AI智能体将车队采集的数据转化为可编辑的3D场景,用于仿真和合成数据生成。NVIDIA Omniverse NuRec、InstantNuRec、Harmonizer和HiGS加速渲染器等技术支持加速重建、提升场景真实感并生成新视角。
视频播放器
InstantNuRec实现从图像快速生成3D高斯路况场景,无需逐场景优化。
对于自动驾驶研究人员,可复现的仿真有助于改变条件、比较系统响应并发现超出真实数据范围的不同场景下的故障模式。NVIDIA AlpaGym是一个开源的闭环强化学习框架,通过将策略滚动与高保真仿真结合智能体技能,扩展到数千个GPU,帮助研究人员完成设置、滚动和评估。 NVIDIA OmniDreams是一个基于动作条件的生成式世界模型,为仿真循环增加真实感渲染,实时生成响应策略动作的相机帧。
NVIDIA还推出了其最强大的开源驾驶基础模型NVIDIA Alpamayo 2 Super,一个320亿参数的视觉语言动作(VLA)模型,能够推理、规划并执行完整驾驶堆栈,支持更安全、可扩展的L4级开发与部署。
对视觉AI研究而言,瓶颈在于创建足够的受控示例,以研究模型在视觉条件、对象状态或时间事件变化时的行为。零样本异常检测、合成异常生成和小样本缺陷识别等工作都面临数据墙。
视频播放器
新的视觉检测技能可在不同表面生成多种罕见缺陷。
NVIDIA Metropolis新技能帮助研究人员使用AI智能体生成合成视觉场景(包括异常),扩充数据并支持伪标签。这些技能受益于Cosmos 3的混合Transformer架构,该架构使用推理Transformer分析观察结果并向生成塔提供指令,帮助扩展具有物理基础性的虚拟世界。
构建高精度视觉检测模型的研究人员可以使用缺陷图像生成技能,利用真实图像创建不同表面上的不同缺陷示例。该工作流结合了NVIDIA Isaac Sim仿真、Cosmos 3和NVIDIA OSMO编排与视觉语言推理——让研究人员能够创建罕见视觉案例并评估模型是否正确响应。
视频播放器
新的NVIDIA Metropolis VSS蓝本技能可从海量视频数据中提取洞察。
对于视频AI智能体,NVIDIA Metropolis视频搜索与摘要(VSS)蓝本、NVIDIA TAO和视频增广技能可帮助从海量视频数据中提取洞察、微调模型并自动化构建与评估循环。这为研究人员提供了一种更可复现的方式来开发推理型视觉AI智能体,使其能够检测事件、推理复杂场景、摘要活动并发送警报。
教授机器人导航或操作等技能归结为迭代。对研究人员来说,瓶颈在于构建足够的受控环境和策略滚动,以理解机器人在不同任务、设置和实体上的行为变化——这项工作通常需要手动拼接仿真环境、任务变体、策略训练和评估。
视频播放器
NVIDIA Isaac Sim 6.0包含代理友好的技能和连接器,帮助自动化工作流。
利用NVIDIA机器人技能,研究人员可以委托AI智能体自动化场景准备、仿真和机器人学习中的大部分常见开发步骤,借助NVIDIA Omniverse库、Isaac Sim和Isaac Lab框架。智能体可以启动仿真会话、撰写场景、控制仿真、捕获数据并验证环境,而Isaac Lab技能支持强化学习设置、训练、评估和自定义环境开发。
视频播放器
新的NVIDIA Isaac移动技能自动化导航工作流。
专门的技能将工作流扩展到移动和操作。Isaac移动技能支持导航工作流,涵盖场景搜索、USD转换、环境注册、残留强化学习和策略评估,而专门的Isaac Lab代理工作流则支持仿真到仿真以及仿真到真实的任务,如环境构建、物理调试、调试和分析。
对于医疗机器人,Cosmos-H-Surgical-Simulator通过生成逼真的手术机器人数据用于策略训练和评估,推动研究发展。该模拟器直接从真实手术数据学习,而非人工设计的物理模型,有助于缩小仿真与真实差距,支持自主手术任务开发。
Cosmos 3还能进一步帮助生成合成数据和场景变体,然后支持针对特定实体行为和环境数据的后训练,涵盖从拾放到灵巧操作等任务。
NVIDIA的技术——包括GPU、开放模型、仿真框架和CUDA加速库——被多数CVPR 2026录用论文引用,并被全球领先研究实验室和机构采用,包括卡内基梅隆大学、斯坦福大学、加州大学伯克利分校、清华大学和北京大学。
NVIDIA研究人员在CVPR(6月3日至7日,丹佛)上展示计算机视觉、物理AI、自主系统、神经渲染、生成式AI和机器人领域的工作。
NVIDIA在CVPR上的亮相还包括开放研究挑战赛,用于评估物理AI进展:
NVIDIA还通过用于训练、微调和评估的数据集扩展了物理AI的研究基础设施。NVIDIA物理AI数据集在Hugging Face上的下载量已超过1500万次,而NVIDIA Isaac GR00T X Embodiment Sim已成为下载量最高的机器人数据集之一。新发布的数据集包括GRAIL(约50小时的人形物体交互数据),以及用于训练Cosmos 3的六个合成视频数据集,涵盖机器人、物理、数字人、自动驾驶、仓库安全和空间推理领域。
NVIDIA物理AI代理工具和技能现已在GitHub上开源。用于合成数据生成的代理技能和工具——Neural Reconstruction、Video Augmentation、Defect Image Generation——也可在NVIDIA Brev上以物理AI Launchables形式立即试用,这些预配置环境捆绑了代理技能和工具,用于更快的合成数据生成和评估。Launchables运行在托管的NVIDIA H100 Tensor Core GPU上,并为研究人员提供免费试用积分。
原文链接:NVIDIA AI Blog
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断