前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

NVIDIA发布物理AI新技能,加速自动驾驶与机器人研究

产品2026年6月2日· 原作者:Pranjali Joshi· 7 分钟阅读0 阅读

NVIDIA在CVPR上发布一系列物理AI智能体技能,整合Cosmos 3等工具,帮助研究人员自动化场景重建、数据生成和策略训练等工作流,加速自动驾驶、机器人及视觉AI系统的研发。

NVIDIA发布物理AI新技能,加速自动驾驶与机器人研究

NVIDIA在CVPR上发布新的物理AI智能体技能,帮助研究人员和开发者加速自动驾驶、机器人和视觉AI系统的开发。

物理AI研究的核心挑战并非开发更强的模型,而是为其构建完整的工作流——重建真实场景、生成边缘案例、训练策略、评估行为并快速迭代。过去,这些步骤分散在各自独立的工具中,研究人员不得不费力拼凑,拖慢了实验节奏。

本周早些时候,NVIDIA发布了NVIDIA Cosmos 3,物理AI的开放前沿模型,也是全球首个统一视觉推理、世界生成和动作生成的全能模型。这一世界基础模型在物理AI开放模型排行榜上领先,为物理AI开发提供了核心能力。NVIDIA物理AI智能体技能与Cosmos、NVIDIA库和仿真框架配合,帮助研究人员更快地从模型能力迈向可扩展的端到端工作流。

自动驾驶研究:超越记录里程

对自动驾驶研究人员而言,问题在于驾驶的“长尾”——罕见交互、异常路形、光照变化和边缘案例行为,这些难以反复收集,但对训练和验证至关重要。

视频播放器
Neural Reconstruction技能演示(OpenClaw平台),展示从虚拟高视点重渲染的视频。

借助NVIDIA自动驾驶技能,研究人员可以让AI智能体自动化工作流:从车队数据中重建场景、生成合成场景。Neural Reconstruction技能帮助AI智能体将车队采集的数据转化为可编辑的3D场景,用于仿真和合成数据生成。NVIDIA Omniverse NuRec、InstantNuRec、Harmonizer和HiGS加速渲染器等技术支持加速重建、提升场景真实感并生成新视角。

视频播放器
InstantNuRec实现从图像快速生成3D高斯路况场景,无需逐场景优化。

对于自动驾驶研究人员,可复现的仿真有助于改变条件、比较系统响应并发现超出真实数据范围的不同场景下的故障模式。NVIDIA AlpaGym是一个开源的闭环强化学习框架,通过将策略滚动与高保真仿真结合智能体技能,扩展到数千个GPU,帮助研究人员完成设置、滚动和评估。 NVIDIA OmniDreams是一个基于动作条件的生成式世界模型,为仿真循环增加真实感渲染,实时生成响应策略动作的相机帧。

NVIDIA还推出了其最强大的开源驾驶基础模型NVIDIA Alpamayo 2 Super,一个320亿参数的视觉语言动作(VLA)模型,能够推理、规划并执行完整驾驶堆栈,支持更安全、可扩展的L4级开发与部署。

视觉AI系统:应对真实世界瓶颈

对视觉AI研究而言,瓶颈在于创建足够的受控示例,以研究模型在视觉条件、对象状态或时间事件变化时的行为。零样本异常检测、合成异常生成和小样本缺陷识别等工作都面临数据墙。

视频播放器
新的视觉检测技能可在不同表面生成多种罕见缺陷。

NVIDIA Metropolis新技能帮助研究人员使用AI智能体生成合成视觉场景(包括异常),扩充数据并支持伪标签。这些技能受益于Cosmos 3的混合Transformer架构,该架构使用推理Transformer分析观察结果并向生成塔提供指令,帮助扩展具有物理基础性的虚拟世界。

构建高精度视觉检测模型的研究人员可以使用缺陷图像生成技能,利用真实图像创建不同表面上的不同缺陷示例。该工作流结合了NVIDIA Isaac Sim仿真、Cosmos 3和NVIDIA OSMO编排与视觉语言推理——让研究人员能够创建罕见视觉案例并评估模型是否正确响应。

视频播放器
新的NVIDIA Metropolis VSS蓝本技能可从海量视频数据中提取洞察。

对于视频AI智能体,NVIDIA Metropolis视频搜索与摘要(VSS)蓝本、NVIDIA TAO和视频增广技能可帮助从海量视频数据中提取洞察、微调模型并自动化构建与评估循环。这为研究人员提供了一种更可复现的方式来开发推理型视觉AI智能体,使其能够检测事件、推理复杂场景、摘要活动并发送警报。

机器人学习:代理就绪的仿真工作流

教授机器人导航或操作等技能归结为迭代。对研究人员来说,瓶颈在于构建足够的受控环境和策略滚动,以理解机器人在不同任务、设置和实体上的行为变化——这项工作通常需要手动拼接仿真环境、任务变体、策略训练和评估。

视频播放器
NVIDIA Isaac Sim 6.0包含代理友好的技能和连接器,帮助自动化工作流。

利用NVIDIA机器人技能,研究人员可以委托AI智能体自动化场景准备、仿真和机器人学习中的大部分常见开发步骤,借助NVIDIA Omniverse库、Isaac Sim和Isaac Lab框架。智能体可以启动仿真会话、撰写场景、控制仿真、捕获数据并验证环境,而Isaac Lab技能支持强化学习设置、训练、评估和自定义环境开发。

视频播放器
新的NVIDIA Isaac移动技能自动化导航工作流。

专门的技能将工作流扩展到移动和操作。Isaac移动技能支持导航工作流,涵盖场景搜索、USD转换、环境注册、残留强化学习和策略评估,而专门的Isaac Lab代理工作流则支持仿真到仿真以及仿真到真实的任务,如环境构建、物理调试、调试和分析。

对于医疗机器人,Cosmos-H-Surgical-Simulator通过生成逼真的手术机器人数据用于策略训练和评估,推动研究发展。该模拟器直接从真实手术数据学习,而非人工设计的物理模型,有助于缩小仿真与真实差距,支持自主手术任务开发。

Cosmos 3还能进一步帮助生成合成数据和场景变体,然后支持针对特定实体行为和环境数据的后训练,涵盖从拾放到灵巧操作等任务。

CVPR上的NVIDIA研究

NVIDIA的技术——包括GPU、开放模型、仿真框架和CUDA加速库——被多数CVPR 2026录用论文引用,并被全球领先研究实验室和机构采用,包括卡内基梅隆大学、斯坦福大学、加州大学伯克利分校、清华大学和北京大学。

NVIDIA研究人员在CVPR(6月3日至7日,丹佛)上展示计算机视觉、物理AI、自主系统、神经渲染、生成式AI和机器人领域的工作。

NVIDIA在CVPR上的亮相还包括开放研究挑战赛,用于评估物理AI进展:

  • AI City Challenge,智能城市应用的顶级计算机视觉竞赛,今年已是第十届。
  • PAI-AV推理挑战,一个新开放基准,评估VLA模型使用因果链标签解释驾驶决策的能力。
  • AlpaSim闭环端到端驾驶挑战,一个新开放基准,在真实重建场景的闭环仿真中测试自动驾驶策略。

NVIDIA还通过用于训练、微调和评估的数据集扩展了物理AI的研究基础设施。NVIDIA物理AI数据集在Hugging Face上的下载量已超过1500万次,而NVIDIA Isaac GR00T X Embodiment Sim已成为下载量最高的机器人数据集之一。新发布的数据集包括GRAIL(约50小时的人形物体交互数据),以及用于训练Cosmos 3的六个合成视频数据集,涵盖机器人、物理、数字人、自动驾驶、仓库安全和空间推理领域。

可用性

NVIDIA物理AI代理工具和技能现已在GitHub上开源。用于合成数据生成的代理技能和工具——Neural Reconstruction、Video Augmentation、Defect Image Generation——也可在NVIDIA Brev上以物理AI Launchables形式立即试用,这些预配置环境捆绑了代理技能和工具,用于更快的合成数据生成和评估。Launchables运行在托管的NVIDIA H100 Tensor Core GPU上,并为研究人员提供免费试用积分。


原文链接:NVIDIA AI Blog
本文由前途科技编辑整理

标签:NVIDIA物理AI自动驾驶机器人

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

AI驱动网络攻击年度分析:三大发现揭示安全框架滞后
TOP1

AI驱动网络攻击年度分析:三大发现揭示安全框架滞后

G7聚焦青少年AI安全,OpenAI提出九项原则
TOP2

G7聚焦青少年AI安全,OpenAI提出九项原则

3

FCC 考虑终止 30 亿美元学校互联网补贴

3小时前
FCC 考虑终止 30 亿美元学校互联网补贴
4

康涅狄格州通过全面法律:规范儿童社交媒体与AI使用

3小时前
康涅狄格州通过全面法律:规范儿童社交媒体与AI使用
5

科技CEO因向伊朗走私设备被捕

3小时前
科技CEO因向伊朗走私设备被捕
6

Meta 考虑 Hatch 智能体月费 200 美元

3小时前
Meta 考虑 Hatch 智能体月费 200 美元
7

五眼联盟警告:中国利用LinkedIn招募间谍

3小时前
五眼联盟警告:中国利用LinkedIn招募间谍
8

Uber 部署 500 辆车采集自动驾驶数据

3小时前
Uber 部署 500 辆车采集自动驾驶数据
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款