AI 工厂：智能时代的新基础设施

AI 工厂是一种新型基础设施，专门用于持续、实时地生产智能。工业时代，发电厂将能源转化为电力；AI 时代，AI 工厂将能源转化为 token——推理模型、智能体和智能系统的产出单位。

它的经济性由产出决定：每秒 token 数、每瓦 token 数、每 token 成本、利用率和运行时长。在这个模式下，每瓦性能直接转化为营收，每 token 成本则影响整座工厂的经济效益。

AI 不再是单纯的软件，它已成为关键基础设施。

AI 工厂将大规模基础设施转化为持续智能生产

AI 工厂在服务数十亿请求的同时，协调海量计算资源。由软件编排、由持续运行的自主多智能体系统组成，它全天候生产智能。智能体系统利用性能最佳的 AI 模型（包括专有模型和开源模型如 NVIDIA Nemotron）进行推理和规划。开源模型可按企业特定需求进行定制、优化并安全部署——所有这些都在 AI 工厂内完成。

AI 工厂在整栈上优化——包括模型、计算、网络、内存、软件、存储、供电和冷却——以保持智能持续输出

智能体 AI 生成合成训练数据，创造场景帮助自主系统从下一个边缘案例中学习

现已投产的 AI 工厂在整栈上优化——包括模型、计算、网络、内存、软件、存储、供电和冷却——以保持智能持续输出。

智能体 AI 改变了工作负载

AI 工厂针对一种新型工作负载而建：始终在线的推理，它不仅仅是回答问题。自主智能体进行推理、规划、搜索、使用工具、检索数据、编写代码并采取行动。它们创建自己的子智能体，学习使用特定领域工具，发展自己的 AI 技能。这些多智能体系统使 AI 工作负载变得更长、更深、计算强度更高，也改变了基础设施的要求。性能取决于整个工作流能否高效运转，使智能在生产中为下一步、下一个动作和下一个决策保持就绪。

智能体 AI 工作负载示意图

自主智能体重塑架构

自主智能体依赖加速计算，同时需要快速内存、用于上下文存储的存储、用于协调的网络、用于编排的软件以及用于执行的 CPU。工作负载跨越整个栈，每一步通常都有严格的延迟要求。AI 工厂由全栈系统组成，旨在让这些工作流持续流动，保持高效生产 token 所需的吞吐量、响应性和利用率。

AI 工厂依赖极致的协同设计

硬件、网络、内存、存储和软件经过协同架构设计，每一层持续优化，以提高利用率、降低每 token 成本并提升产出。它们在始终在线、交互式 AI 工作负载的响应性与生产最大化所需的吞吐量之间取得平衡。

推理是实时编排挑战

随着 AI 工作流变得更长、更具交互性，工厂必须实时运行。这意味着路由请求、管理内存、协调服务、平衡延迟与吞吐量，以及保持全栈高利用率。在 AI 工厂中，软件层至关重要，因为工厂的运行效率决定了它生产多少智能以及创造多大价值。推理已成为一个跨越整机的实时编排挑战。

协同设计超越摩尔定律

Jensen Huang 展示全栈 AI 工厂

但高效运营 AI 工厂在系统上线之前就开始了。用于推理的相同全栈协同设计也改变了 AI 工厂的规划、验证和上线方式。

在 AI 计算中，每瓦性能已成为 AI 工厂竞争力的最终衡量标准。数据中心曾经存储文件，现在 AI 工厂生产 token。对 AI 生产者而言，产出直接影响营收；对企业而言，每 token 成本决定了他们能否以盈利规模扩展 AI。

SemiAnalysis InferenceX 基准测试量化了这一转变。NVIDIA Blackwell Ultra GPU 实现了最低的每 token 成本，使得 AI 工厂能在相同功耗范围内以更低的单位成本生产更多智能。每瓦更多 token 意味着单位基础设施成本、空间或电力下更高的吞吐量。更低的每 token 成本改善了大规模推理的经济性。

NVIDIA GB300 NVL72 系统每兆瓦 token 产出提升 50 倍，每 token 成本降低 35 倍

NVIDIA GB300 NVL72 系统每兆瓦 token 产出比上一代提升 50 倍，每 token 成本比 NVIDIA Hopper 平台降低 35 倍。

基于 NVIDIA Blackwell Ultra 构建的 AI 工厂每兆瓦吞吐量提升高达 50 倍，每 token 成本降低 35 倍——在大规模场景下平衡了性能、响应性和能效。NVIDIA Dynamo 框架帮助编排长上下文推理和巨大的推理吞吐量，随着工作负载变得更交互、更复杂，保持高利用率。两者共同展示了 AI 工厂性能的新衡量标准：工厂实时生产智能的效率。

推理性能与效率驱动结果

NVIDIA Vera Rubin 平台进一步延续了这条曲线。随着推理和智能体 AI 持续扩展，基于 Vera Rubin 的系统借助 LPX 将每瓦性能提升高达 35 倍，并通过更深入的全栈优化降低 token 成本。结果是在工厂层面实现更高效的智能生产。

NVIDIA Vera Rubin 平台
NVIDIA Vera Rubin 平台细节

从芯片到全栈 AI 工厂

始于 GPU 的演进已扩展为全栈 AI 工厂，包含加速计算、高速互连、液冷系统、推理软件、自主智能体、参考架构以及构建和运营大规模工厂所需的生态系统。

全栈 AI 工厂是英伟达正在帮助定义和建设的更广泛生态系统的一部分。英伟达与全球系统合作伙伴如 Cisco、Dell、HPE、Lenovo 和 Supermicro 紧密合作，将 AI 基础设施引入企业数据中心。英伟达还依赖精心策划的 AI 软件合作伙伴生态系统，为每个企业的用例构建 AI 解决方案。该生态系统支持多种模型选择，包括专有和开源选项。

这些 AI 工厂可部署于广泛用例，从智能体 AI 工作负载到物理 AI 和机器人。每个行业的每个组织——从金融服务、生命科学到制造业和公共部门——都将需要构建或租赁 AI 工厂。

英伟达运行自己的企业 AI 工厂，以加速公司内部开发，数百个自主 AI 智能体协助工程、软件和运营团队。这是一个实际证明：AI 工厂可以改变企业构建、设计和运营的方式。它们可以提高企业内部生产力，将 AI 从偶尔使用的工具转变为融入日常工作的能力。

AI 工厂可以从支持单个业务部门或工作负载开始，也可以从零开始构建，支持超大规模的高性能 AI 推理和训练。NVIDIA DSX 参考设计统一了设计、仿真、运营和生态系统技术，以构建每兆瓦 token 成本最低的吉瓦级 AI 工厂。

构建这些吉瓦级 AI 工厂需要的远不止优化的计算。它需要一个共享的数字环境，在建设前将设施设计、硬件系统、供电、冷却和运营一起建模，并在部署后持续改进。NVIDIA Omniverse DSX Blueprint 通过数字孪生支持这一工作流，连接设施、硬件和软件，利用 Omniverse、OpenUSD 和 SimReady 资源帮助合作伙伴验证设计并优化 AI 工厂全生命周期的运营。

全栈方法帮助组织从每套系统中提取更多智能