NVIDIA Omniverse三大工作流，用合成数据提升视觉AI智能体精度

视觉 AI 智能体正在成为将物理世界视频数据转化为工厂、城市、仓库和交通系统运营智能的实用工具。随着越来越多 AI 工作负载靠近数据生成端，这一趋势正在加速。Gartner 预计，到 2028 年，超过三分之二的企业管理数据将在数据中心或云之外创建和处理；到 2029 年，全球超过三分之二的企业将部署边缘 AI，而 2025 年这一比例仅为 10% (1)。

但更多的边缘数据并不会自动产生更多的智能。根据同一份 Gartner 报告，多达 90% 的边缘数据未被处理。将这些数据转化为有用的行动，需要视觉 AI 智能体能够理解视频、适应现实条件并将洞察连接到运营工作流。这些智能体通常运行在摄像头、机器和传感器附近，模型必须满足延迟、功耗、成本和连接性要求，同时适应特定场景的条件。

为了构建这些智能体，开发者需要可复现的方法来生成训练数据、微调模型，并在边缘和云环境中部署智能体视频应用。

NVIDIA Metropolis 智能体技能和蓝图为开发者提供了可复用的工作流，涵盖视觉 AI 智能体从构建、运营到优化的全生命周期。在仿真和合成数据方面，通用场景描述（OpenUSD）提供了一个用于描述、组合和复用 3D 世界的通用框架。基于 OpenUSD 的 NVIDIA Omniverse 库帮助团队构建仿真、合成数据生成和数字孪生工作流，模拟真实环境，并扩展光照、天气、交通模式、摄像头角度、遮挡和罕见事件等场景覆盖。

视觉 AI 智能体项目中的常见瓶颈

当组织迈向自主视觉智能体时，通常会遇到三个挑战：

数据缺口导致精度停滞： 视觉 AI 智能体需要发现罕见缺陷、异常事件和动态环境。例如在制造业中，检测模型可能对常见划痕或凹痕表现良好，但对训练数据中未出现的新型发丝裂纹却难以识别。
缺乏微调专业能力： 一旦团队发现性能差距，改进模型并非简单的交接。微调需要标注数据集、训练配置、实验跟踪、评估，以及判断是否针对目标场景有所改进。许多构建视觉 AI 智能体的组织缺乏内部大型机器学习团队来快速管理这一过程，尤其是在拥有多个站点、产品或摄像头视角的情况下。
复杂耗时的智能体组装工作流： 部署视觉 AI 智能体不仅仅是运行推理。开发者需要拼接视频流水线、AI 模型、元数据、嵌入、索引、搜索、告警、报告和系统集成。为特定环境定制这一工作流会大幅增加时间，并需要专门的专业知识。如果没有 OpenUSD 的共享场景描述层，团队每次当条件或部署站点变化时，往往需要从头重建 3D 环境。

视觉 AI 智能体的全生命周期方法

NVIDIA 智能体技能和蓝图 — 与用于基于 OpenUSD 的仿真和合成数据生成的 NVIDIA Omniverse、以及用于模型开发和视频 AI 部署的 NVIDIA Metropolis 配合使用 — 为开发者提供了关键工作流的可复用起点：

缺陷图像生成技能帮助创建合成缺陷数据。
视频数据增强技能帮助扩展场景覆盖。
NVIDIA TAO 技能支持模型微调。
NVIDIA 视频搜索与摘要（VSS）技能帮助将视频理解转化为可用于告警、报告、流管理等部署的工作流。

开发者无需从头重建每个步骤，而是可以使用这些可复用工作流来生成数据、改进模型并更快地部署视觉 AI 智能体。

视觉检测：生成产线上缺失的数据

在制造业中，工厂越成功地预防缺陷，就越难收集足够的缺陷样本来训练下一代检测模型。

Roboflow 正在将 NVIDIA 缺陷图像生成技能和 NVIDIA Cosmos 世界基础模型集成到其视觉 AI 平台中，为康宁等客户生成合成缺陷图像。当真实训练数据稀缺时，该方法实现了近乎完美的检测性能，同时显著减少了对每日人工图像检查的需求。

在与康宁光纤制造工程团队进行的基准测试中，仅使用 8 张真实缺陷图像 — 并通过 NVIDIA 缺陷图像生成技能生成的合成数据进行增强 — 训练的模型在最难检测的缺陷类别上达到了 95% 的平均精度和完美的召回率。这一性能超过了仅使用真实数据训练的基线模型，实际上将需要多个季度的检测项目压缩到了几天。

观看视频，了解合成数据生成工作流如何帮助开发者创建训练和改进物理 AI 模型所需的数据：

Video 5

智慧城市：从视频分析到自主运营

大规模城市运营展示了为什么视觉 AI 智能体需要连接的工作流，而不仅仅是推理。

Linker Vision 正在使用 NVIDIA Metropolis VSS 蓝图构建智慧城市 AI 系统，以加速城市基础设施中的视频推理智能体部署。在该工作流中，VSS 技能可以帮助将常见的视频 AI 任务（如搜索、摘要、告警、报告和流管理）打包为可复用的智能体可执行工作流。

基于 OpenUSD 的 NVIDIA Omniverse 数字孪生帮助模拟城市环境，并测试视觉 AI 系统如何应对不同的交通模式、天气条件、紧急事件和基础设施变化。Linker Vision 使用 NVIDIA Cosmos 进行视频数据增强，并使用 NVIDIA TAO 进行 Cosmos 模型微调。

在高雄，Linker Vision 使用 VSS 蓝图将开发工作量减少了 85%，并将事件响应时间缩短了最多 80%。其最新的 AI-GRID 扩展在此基础上，采用 NVIDIA NemoClaw 蓝图实现安全的智能体 AI，支持跨城市和交通环境的自主视频推理。

Video 6

工业运营：对正在进行的作业进行推理

在工业环境中，挑战不仅在于检测视频画面中出现的内容。团队需要智能体能够：

理解作业是否正在正确执行
将执行情况与标准操作程序进行对比
在缺陷流向下游之前生成洞察

在富士康，DeepHow 的实时标准操作程序（SOP）验证智能体使用 NVIDIA Metropolis VSS 蓝图作为智能体视频工作流层，实现跨运营环境的搜索、摘要和分析。NVIDIA Cosmos 提供推理能力，帮助智能体理解复杂的人类活动和作业序列，例如装配步骤是否按正确顺序执行。

该解决方案已在 NVIDIA GB300 服务器生产线上使用，首次通过率提高了 3%，关键 SOP 步骤的微动作理解准确率达到 99%，并通过帮助团队更早发现问题减少了重复工作。

查看开发者如何构建和部署视频分析 AI 智能体，请观看此技术演示：使用 NVIDIA VSS 技能与编码智能体。

探索 NVIDIA 智能体技能和蓝图以构建、运营和优化视频分析 AI 智能体。

原文链接：NVIDIA AI Blog
本文由前途科技编辑整理

NVIDIA Omniverse三大工作流，用合成数据提升视觉AI智能体精度

为了构建这些智能体，开发者需要可复现的方法来生成训练数据、微调模型，并在边缘和云环境中部署智能体视频应用。

视觉 AI 智能体项目中的常见瓶颈

当组织迈向自主视觉智能体时，通常会遇到三个挑战：

数据缺口导致精度停滞： 视觉 AI 智能体需要发现罕见缺陷、异常事件和动态环境。例如在制造业中，检测模型可能对常见划痕或凹痕表现良好，但对训练数据中未出现的新型发丝裂纹却难以识别。
缺乏微调专业能力： 一旦团队发现性能差距，改进模型并非简单的交接。微调需要标注数据集、训练配置、实验跟踪、评估，以及判断是否针对目标场景有所改进。许多构建视觉 AI 智能体的组织缺乏内部大型机器学习团队来快速管理这一过程，尤其是在拥有多个站点、产品或摄像头视角的情况下。
复杂耗时的智能体组装工作流： 部署视觉 AI 智能体不仅仅是运行推理。开发者需要拼接视频流水线、AI 模型、元数据、嵌入、索引、搜索、告警、报告和系统集成。为特定环境定制这一工作流会大幅增加时间，并需要专门的专业知识。如果没有 OpenUSD 的共享场景描述层，团队每次当条件或部署站点变化时，往往需要从头重建 3D 环境。

视觉 AI 智能体的全生命周期方法

缺陷图像生成技能帮助创建合成缺陷数据。
视频数据增强技能帮助扩展场景覆盖。
NVIDIA TAO 技能支持模型微调。
NVIDIA 视频搜索与摘要（VSS）技能帮助将视频理解转化为可用于告警、报告、流管理等部署的工作流。

开发者无需从头重建每个步骤，而是可以使用这些可复用工作流来生成数据、改进模型并更快地部署视觉 AI 智能体。

视觉检测：生成产线上缺失的数据

在制造业中，工厂越成功地预防缺陷，就越难收集足够的缺陷样本来训练下一代检测模型。

观看视频，了解合成数据生成工作流如何帮助开发者创建训练和改进物理 AI 模型所需的数据：

Video 5

智慧城市：从视频分析到自主运营

大规模城市运营展示了为什么视觉 AI 智能体需要连接的工作流，而不仅仅是推理。

Video 6

工业运营：对正在进行的作业进行推理

在工业环境中，挑战不仅在于检测视频画面中出现的内容。团队需要智能体能够：

理解作业是否正在正确执行
将执行情况与标准操作程序进行对比
在缺陷流向下游之前生成洞察

查看开发者如何构建和部署视频分析 AI 智能体，请观看此技术演示：使用 NVIDIA VSS 技能与编码智能体。

探索 NVIDIA 智能体技能和蓝图以构建、运营和优化视频分析 AI 智能体。

原文链接：NVIDIA AI Blog
本文由前途科技编辑整理

NVIDIA Omniverse三大工作流，用合成数据提升视觉AI智能体精度

视觉 AI 智能体项目中的常见瓶颈

视觉 AI 智能体的全生命周期方法

视觉检测：生成产线上缺失的数据

智慧城市：从视频分析到自主运营

工业运营：对正在进行的作业进行推理

想了解 AI 如何助力您的企业？

24小时热榜

CERN关闭大型强子对撞机进行15亿美元升级

塔塔电子遭勒索，iPhone 18 Pro 数据泄露

预览 GPT-5.6 Sol：新一代模型

MIT发现磁场增强的石墨烯超导态

Anthropic 发布 Claude Sonnet 5，智能体能力显著提升

一个姿态检测项目的踩坑实录

OpenAI用流行病学方法修复18年C++漏洞

OpenAI发布GeneBench-Pro：评估AI科研判断力新基准

免费获取 AI 落地指南

NVIDIA Omniverse三大工作流，用合成数据提升视觉AI智能体精度

视觉 AI 智能体项目中的常见瓶颈

视觉 AI 智能体的全生命周期方法

视觉检测：生成产线上缺失的数据

智慧城市：从视频分析到自主运营

工业运营：对正在进行的作业进行推理

想了解 AI 如何助力您的企业？

24小时热榜

CERN关闭大型强子对撞机进行15亿美元升级

塔塔电子遭勒索，iPhone 18 Pro 数据泄露

预览 GPT-5.6 Sol：新一代模型

MIT发现磁场增强的石墨烯超导态

Anthropic 发布 Claude Sonnet 5，智能体能力显著提升

一个姿态检测项目的踩坑实录

OpenAI用流行病学方法修复18年C++漏洞

OpenAI发布GeneBench-Pro：评估AI科研判断力新基准

免费获取 AI 落地指南