NVIDIA 推出基于 OpenUSD 的 Omniverse 工作流,帮助开发者通过合成数据生成、模型微调和智能体组装,突破视觉 AI 精度瓶颈。康宁、Linker Vision 和富士康的案例显示,该方法可将数季度的项目压缩至数天,并大幅提升检测与运营效率。

视觉 AI 智能体正在成为将物理世界视频数据转化为工厂、城市、仓库和交通系统运营智能的实用工具。随着越来越多 AI 工作负载靠近数据生成端,这一趋势正在加速。Gartner 预计,到 2028 年,超过三分之二的企业管理数据将在数据中心或云之外创建和处理;到 2029 年,全球超过三分之二的企业将部署边缘 AI,而 2025 年这一比例仅为 10% (1)。
但更多的边缘数据并不会自动产生更多的智能。根据同一份 Gartner 报告,多达 90% 的边缘数据未被处理。将这些数据转化为有用的行动,需要视觉 AI 智能体能够理解视频、适应现实条件并将洞察连接到运营工作流。这些智能体通常运行在摄像头、机器和传感器附近,模型必须满足延迟、功耗、成本和连接性要求,同时适应特定场景的条件。
为了构建这些智能体,开发者需要可复现的方法来生成训练数据、微调模型,并在边缘和云环境中部署智能体视频应用。
NVIDIA Metropolis 智能体技能和蓝图为开发者提供了可复用的工作流,涵盖视觉 AI 智能体从构建、运营到优化的全生命周期。在仿真和合成数据方面,通用场景描述(OpenUSD)提供了一个用于描述、组合和复用 3D 世界的通用框架。基于 OpenUSD 的 NVIDIA Omniverse 库帮助团队构建仿真、合成数据生成和数字孪生工作流,模拟真实环境,并扩展光照、天气、交通模式、摄像头角度、遮挡和罕见事件等场景覆盖。
当组织迈向自主视觉智能体时,通常会遇到三个挑战:
NVIDIA 智能体技能和蓝图 — 与用于基于 OpenUSD 的仿真和合成数据生成的 NVIDIA Omniverse、以及用于模型开发和视频 AI 部署的 NVIDIA Metropolis 配合使用 — 为开发者提供了关键工作流的可复用起点:
开发者无需从头重建每个步骤,而是可以使用这些可复用工作流来生成数据、改进模型并更快地部署视觉 AI 智能体。
在制造业中,工厂越成功地预防缺陷,就越难收集足够的缺陷样本来训练下一代检测模型。
Roboflow 正在将 NVIDIA 缺陷图像生成技能和 NVIDIA Cosmos 世界基础模型集成到其视觉 AI 平台中,为康宁等客户生成合成缺陷图像。当真实训练数据稀缺时,该方法实现了近乎完美的检测性能,同时显著减少了对每日人工图像检查的需求。
在与康宁光纤制造工程团队进行的基准测试中,仅使用 8 张真实缺陷图像 — 并通过 NVIDIA 缺陷图像生成技能生成的合成数据进行增强 — 训练的模型在最难检测的缺陷类别上达到了 95% 的平均精度和完美的召回率。这一性能超过了仅使用真实数据训练的基线模型,实际上将需要多个季度的检测项目压缩到了几天。
观看视频,了解合成数据生成工作流如何帮助开发者创建训练和改进物理 AI 模型所需的数据:
大规模城市运营展示了为什么视觉 AI 智能体需要连接的工作流,而不仅仅是推理。
Linker Vision 正在使用 NVIDIA Metropolis VSS 蓝图 构建智慧城市 AI 系统,以加速城市基础设施中的视频推理智能体部署。在该工作流中,VSS 技能可以帮助将常见的视频 AI 任务(如搜索、摘要、告警、报告和流管理)打包为可复用的智能体可执行工作流。
基于 OpenUSD 的 NVIDIA Omniverse 数字孪生帮助模拟城市环境,并测试视觉 AI 系统如何应对不同的交通模式、天气条件、紧急事件和基础设施变化。Linker Vision 使用 NVIDIA Cosmos 进行视频数据增强,并使用 NVIDIA TAO 进行 Cosmos 模型微调。
在高雄,Linker Vision 使用 VSS 蓝图将开发工作量减少了 85%,并将事件响应时间缩短了最多 80%。其最新的 AI-GRID 扩展在此基础上,采用 NVIDIA NemoClaw 蓝图实现安全的智能体 AI,支持跨城市和交通环境的自主视频推理。
在工业环境中,挑战不仅在于检测视频画面中出现的内容。团队需要智能体能够:
在富士康,DeepHow 的实时标准操作程序(SOP)验证智能体使用 NVIDIA Metropolis VSS 蓝图作为智能体视频工作流层,实现跨运营环境的搜索、摘要和分析。NVIDIA Cosmos 提供推理能力,帮助智能体理解复杂的人类活动和作业序列,例如装配步骤是否按正确顺序执行。
该解决方案已在 NVIDIA GB300 服务器生产线上使用,首次通过率提高了 3%,关键 SOP 步骤的微动作理解准确率达到 99%,并通过帮助团队更早发现问题减少了重复工作。
查看开发者如何构建和部署视频分析 AI 智能体,请观看此技术演示:使用 NVIDIA VSS 技能与编码智能体。
探索 NVIDIA 智能体技能和蓝图以构建、运营和优化视频分析 AI 智能体。
原文链接:NVIDIA AI Blog
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断