最快、最大、最强：NVIDIA Blackwell 横扫 MLPerf 训练 6.0

每个突破性 AI 模型的起点都一样：一次训练运行。运行这些训练任务的基础设施决定了团队迭代的速度、可构建的模型规模以及任务能否可靠完成。

随着模型在规模、复杂度和智能程度上不断增长，对训练基础设施的要求也在提高。

在 MLPerf 训练 6.0——最新一轮严格、同行评审的 AI 训练性能行业基准测试中——NVIDIA Blackwell 平台在所有类别中均领先：

每项基准训练时间最短
最大规模训练：使用 NVIDIA Blackwell NVL72 系统扩展到 8192 GPU
唯一一个在所有 7 项基准上均有提交的平台

NVIDIA 通过极致协同设计，将性能、规模和可靠性整合在一个平台中，帮助 AI 模型构建者更快推出前沿模型、降低训练成本并尽早获得收入。

性能：每项基准训练时间最短

MLPerf 训练 6.0 新增了两个混合专家模型（MoE）预训练工作负载：DeepSeek-V3 671B 和 GPT-OSS-20B，反映了 MoE 架构日益凸显的重要性。NVIDIA 平台是唯一提交全部基准的平台，并在所有 7 项基准上实现了最短训练时间。

图1：MLPerf 6.0 训练基准性能图表

本轮，NVIDIA 提交了基于 NVIDIA GB200 NVL72 和 GB300 NVL72 机架级系统的结果。在每个机架级系统中，第五代 NVIDIA NVLink 交换机以高带宽连接所有 72 个 GPU，形成统一的计算和内存池，使其像一块巨型 GPU 一样工作。

大规模 MoE 训练面临的点对点通信挑战与 MoE 推理类似——token 必须在 GPU 间路由，到达正确的专家子网络——NVLink 的带宽优势正是使其在规模上快速且高效的关键。

NVIDIA 还展示了 NVFP4 训练方法，在大规模和小规模预训练以及微调工作负载中，在满足严格精度要求的同时提升性能。NVIDIA 持续推动不同模型架构的低精度训练创新，最近使用 NVFP4 预训练了 5500 亿参数的 NVIDIA Nemotron 3 Ultra 模型。

NVIDIA GB300 NVL72 比 GB200 NVL72 性能最高提升 1.6 倍： 在本轮中，GB300 NVL72 在同一规模下比 GB200 NVL72 训练速度最高提升 1.6 倍。Blackwell Ultra 的关键能力（如 NVFP4 更高的计算密度、更大的内存容量以及更高的功率上限，使 GPU 维持峰值性能）推动了这一改进。

图2：GB300 vs GB200 性能对比

规模：MLPerf 训练中最大的 Blackwell 集群

为了支持大规模分布式训练，NVIDIA 提供两种互补的横向扩展网络平台——NVIDIA Quantum InfiniBand 和 NVIDIA Spectrum-X 以太网——让数据中心能够灵活构建针对其基础设施优化的大规模集群。

在套件中最大的 MoE 模型 DeepSeek-V3 671B 上，NVIDIA 使用 GB200 NVL72 系统将提交规模扩展到 8192 GPU，这是迄今为止 MLPerf 训练中基于 Blackwell 的最大规模提交。

NVIDIA 还在套件中最大的密集大语言模型之一 Llama 3.1 405B 上，使用 GB200 NVL72 系统以 5120 GPU 规模提交了结果。

图3：大规模训练扩展结果

本轮结果也反映了 NVIDIA 与合作伙伴在系统架构、网络和软件上的深度协同工程：

Microsoft Azure 使用 GB200 NVL72 系统将 Llama 3.1 405B 训练扩展到 8192 GPU，并在 7.07 分钟内达到参考质量目标，是该基准的最短训练时间。
CoreWeave 在 DeepSeek-V3 671B 上实现了最短训练时间，使用连接 Spectrum-X 以太网的 GB300 NVL72 系统，在 8192 GPU 规模下 2.02 分钟达到质量目标。

大规模可靠性：为生产环境而生

在生产训练环境中，训练运行可能持续数周或数月，涉及数十万 GPU。在这种规模下，有效训练吞吐量既取决于系统性能，也取决于能在长期运行中保持可重复性的弹性能力。

上述 MLPerf 训练 v6.0 结果体现了 NVIDIA 平台的性能。在弹性方面，NVIDIA 平台在两个维度上进行工程优化：

更少的中断：NVIDIA GPU 旨在故障发生前避免故障。GPU 进入数据中心前，经过 30 多个制造测试阶段筛选，提前发现潜在缺陷。部署后，可靠性、可用性和服务性引擎几乎监控整个芯片，自愈功能自动绕过检测到的故障，不中断工作负载。在网络层面，Spectrum-X 以太网在毫秒级内绕过故障链路，保持结构健康而不中断任务。
中断后更快恢复：NVIDIA 弹性扩展（NVRx）通过覆盖集群的故障检测、恢复和健康监控能力，最大限度减少故障发生时损失的时间。它自动检测并管理表现不佳的节点，防止它们拖慢整个集群。当节点发生中断时，系统从最近的检查点（训练状态的快照）恢复，而非重新启动作业。

基于 NVIDIA 的前沿 AI

NVIDIA 生态合作伙伴也广泛参与本轮，来自 19 个组织（包括 ASUSTeK、Microsoft Azure、Cisco、CoreWeave、Dell Technologies、Fujitsu、Giga Computing、Google Cloud、Hewlett Packard Enterprise、Inventec、Krai、Lambda、Nebius、Netweb Technologies India Ltd.、Quanta Cloud Computing (QCT)、ScitiX、Supermicro 和 TTA）提交了令人瞩目的结果。其中许多合作伙伴正在 NVIDIA 基础设施上运行最苛刻的 AI 训练工作负载。

CoreWeave 将其 NVIDIA 基础设施部署在 Dell PowerRack 系统（含 Dell PowerEdge 服务器）中，承载了多个此类工作负载。Cohere 使用 GB200 NVL72 为其 North 智能体 AI 平台实现了 3 倍的训练加速。Midjourney 在 Blackwell 集群上训练了其 v8 图像生成模型，现正大规模扩展 Blackwell Ultra GPU 集群，用于训练即将推出的图像和视频模型。

在 Google Cloud 上，Thinking Machines Lab 使用 GB300 NVL72 比前代 GPU 训练和服务速度提升 2 倍，加速了前沿模型研究和强化学习工作流。

Nebius 在其 AI 云上运行 NVIDIA Blackwell 和 Blackwell Ultra 基础设施，使 Higgsfield 将模型训练时间减少 30%，支持一个目前服务 2200 万用户、每天生成超过 600 万 AI 内容的平台。

想深入了解 MLPerf 训练 6.0 结果及其背后的优化，请阅读此技术博客。

原文链接：NVIDIA AI Blog
本文由前途科技编辑整理

每个突破性 AI 模型的起点都一样：一次训练运行。运行这些训练任务的基础设施决定了团队迭代的速度、可构建的模型规模以及任务能否可靠完成。

随着模型在规模、复杂度和智能程度上不断增长，对训练基础设施的要求也在提高。

在 MLPerf 训练 6.0——最新一轮严格、同行评审的 AI 训练性能行业基准测试中——NVIDIA Blackwell 平台在所有类别中均领先：

每项基准训练时间最短
最大规模训练：使用 NVIDIA Blackwell NVL72 系统扩展到 8192 GPU
唯一一个在所有 7 项基准上均有提交的平台

NVIDIA 通过极致协同设计，将性能、规模和可靠性整合在一个平台中，帮助 AI 模型构建者更快推出前沿模型、降低训练成本并尽早获得收入。

性能：每项基准训练时间最短

图1：MLPerf 6.0 训练基准性能图表

图2：GB300 vs GB200 性能对比

规模：MLPerf 训练中最大的 Blackwell 集群

NVIDIA 还在套件中最大的密集大语言模型之一 Llama 3.1 405B 上，使用 GB200 NVL72 系统以 5120 GPU 规模提交了结果。

图3：大规模训练扩展结果

本轮结果也反映了 NVIDIA 与合作伙伴在系统架构、网络和软件上的深度协同工程：

Microsoft Azure 使用 GB200 NVL72 系统将 Llama 3.1 405B 训练扩展到 8192 GPU，并在 7.07 分钟内达到参考质量目标，是该基准的最短训练时间。
CoreWeave 在 DeepSeek-V3 671B 上实现了最短训练时间，使用连接 Spectrum-X 以太网的 GB300 NVL72 系统，在 8192 GPU 规模下 2.02 分钟达到质量目标。

大规模可靠性：为生产环境而生

上述 MLPerf 训练 v6.0 结果体现了 NVIDIA 平台的性能。在弹性方面，NVIDIA 平台在两个维度上进行工程优化：

更少的中断：NVIDIA GPU 旨在故障发生前避免故障。GPU 进入数据中心前，经过 30 多个制造测试阶段筛选，提前发现潜在缺陷。部署后，可靠性、可用性和服务性引擎几乎监控整个芯片，自愈功能自动绕过检测到的故障，不中断工作负载。在网络层面，Spectrum-X 以太网在毫秒级内绕过故障链路，保持结构健康而不中断任务。
中断后更快恢复：NVIDIA 弹性扩展（NVRx）通过覆盖集群的故障检测、恢复和健康监控能力，最大限度减少故障发生时损失的时间。它自动检测并管理表现不佳的节点，防止它们拖慢整个集群。当节点发生中断时，系统从最近的检查点（训练状态的快照）恢复，而非重新启动作业。

基于 NVIDIA 的前沿 AI

在 Google Cloud 上，Thinking Machines Lab 使用 GB300 NVL72 比前代 GPU 训练和服务速度提升 2 倍，加速了前沿模型研究和强化学习工作流。

想深入了解 MLPerf 训练 6.0 结果及其背后的优化，请阅读此技术博客。

原文链接：NVIDIA AI Blog
本文由前途科技编辑整理

最快、最大、最强：NVIDIA Blackwell 横扫 MLPerf 训练 6.0

性能：每项基准训练时间最短

规模：MLPerf 训练中最大的 Blackwell 集群

大规模可靠性：为生产环境而生

基于 NVIDIA 的前沿 AI

想了解 AI 如何助力您的企业？

24小时热榜

谷歌披露中国黑客长期入侵美加研究机构

AMD收购MEXT应对AI内存瓶颈

法官永久驳回xAI对OpenAI商业秘密诉讼

EPA 文件曝光特斯拉 Cybercab 完整规格

英国加拿大寻求AI出口禁令豁免

中国最高法院维持英飞凌GaN芯片销售禁令

佛罗里达起诉TikTok违反儿童保护法

QuEra与AWS计划2028年推出容错量子计算机

免费获取 AI 落地指南

最快、最大、最强：NVIDIA Blackwell 横扫 MLPerf 训练 6.0

性能：每项基准训练时间最短

规模：MLPerf 训练中最大的 Blackwell 集群

大规模可靠性：为生产环境而生

基于 NVIDIA 的前沿 AI

想了解 AI 如何助力您的企业？

24小时热榜

谷歌披露中国黑客长期入侵美加研究机构

AMD收购MEXT应对AI内存瓶颈

法官永久驳回xAI对OpenAI商业秘密诉讼

EPA 文件曝光特斯拉 Cybercab 完整规格

英国加拿大寻求AI出口禁令豁免

中国最高法院维持英飞凌GaN芯片销售禁令

佛罗里达起诉TikTok违反儿童保护法

QuEra与AWS计划2028年推出容错量子计算机

免费获取 AI 落地指南