MLPerf 训练 6.0 基准测试中,NVIDIA Blackwell 平台在所有 7 项基准上取得最快训练时间,并扩展到 8192 GPU。其 GB300 NVL72 性能比上一代提升 1.6 倍,展示出在混合专家模型和大规模密集模型训练中的领先地位,有助于降低训练成本、加速模型发布。
每个突破性 AI 模型的起点都一样:一次训练运行。运行这些训练任务的基础设施决定了团队迭代的速度、可构建的模型规模以及任务能否可靠完成。
随着模型在规模、复杂度和智能程度上不断增长,对训练基础设施的要求也在提高。
在 MLPerf 训练 6.0——最新一轮严格、同行评审的 AI 训练性能行业基准测试中——NVIDIA Blackwell 平台在所有类别中均领先:
NVIDIA 通过极致协同设计,将性能、规模和可靠性整合在一个平台中,帮助 AI 模型构建者更快推出前沿模型、降低训练成本并尽早获得收入。
MLPerf 训练 6.0 新增了两个混合专家模型(MoE)预训练工作负载:DeepSeek-V3 671B 和 GPT-OSS-20B,反映了 MoE 架构日益凸显的重要性。NVIDIA 平台是唯一提交全部基准的平台,并在所有 7 项基准上实现了最短训练时间。

本轮,NVIDIA 提交了基于 NVIDIA GB200 NVL72 和 GB300 NVL72 机架级系统的结果。在每个机架级系统中,第五代 NVIDIA NVLink 交换机以高带宽连接所有 72 个 GPU,形成统一的计算和内存池,使其像一块巨型 GPU 一样工作。
大规模 MoE 训练面临的点对点通信挑战与 MoE 推理类似——token 必须在 GPU 间路由,到达正确的专家子网络——NVLink 的带宽优势正是使其在规模上快速且高效的关键。
NVIDIA 还展示了 NVFP4 训练方法,在大规模和小规模预训练以及微调工作负载中,在满足严格精度要求的同时提升性能。NVIDIA 持续推动不同模型架构的低精度训练创新,最近使用 NVFP4 预训练了 5500 亿参数的 NVIDIA Nemotron 3 Ultra 模型。
NVIDIA GB300 NVL72 比 GB200 NVL72 性能最高提升 1.6 倍: 在本轮中,GB300 NVL72 在同一规模下比 GB200 NVL72 训练速度最高提升 1.6 倍。Blackwell Ultra 的关键能力(如 NVFP4 更高的计算密度、更大的内存容量以及更高的功率上限,使 GPU 维持峰值性能)推动了这一改进。

为了支持大规模分布式训练,NVIDIA 提供两种互补的横向扩展网络平台——NVIDIA Quantum InfiniBand 和 NVIDIA Spectrum-X 以太网——让数据中心能够灵活构建针对其基础设施优化的大规模集群。
在套件中最大的 MoE 模型 DeepSeek-V3 671B 上,NVIDIA 使用 GB200 NVL72 系统将提交规模扩展到 8192 GPU,这是迄今为止 MLPerf 训练中基于 Blackwell 的最大规模提交。
NVIDIA 还在套件中最大的密集大语言模型之一 Llama 3.1 405B 上,使用 GB200 NVL72 系统以 5120 GPU 规模提交了结果。

本轮结果也反映了 NVIDIA 与合作伙伴在系统架构、网络和软件上的深度协同工程:
在生产训练环境中,训练运行可能持续数周或数月,涉及数十万 GPU。在这种规模下,有效训练吞吐量既取决于系统性能,也取决于能在长期运行中保持可重复性的弹性能力。
上述 MLPerf 训练 v6.0 结果体现了 NVIDIA 平台的性能。在弹性方面,NVIDIA 平台在两个维度上进行工程优化:
NVIDIA 生态合作伙伴也广泛参与本轮,来自 19 个组织(包括 ASUSTeK、Microsoft Azure、Cisco、CoreWeave、Dell Technologies、Fujitsu、Giga Computing、Google Cloud、Hewlett Packard Enterprise、Inventec、Krai、Lambda、Nebius、Netweb Technologies India Ltd.、Quanta Cloud Computing (QCT)、ScitiX、Supermicro 和 TTA)提交了令人瞩目的结果。其中许多合作伙伴正在 NVIDIA 基础设施上运行最苛刻的 AI 训练工作负载。
CoreWeave 将其 NVIDIA 基础设施部署在 Dell PowerRack 系统(含 Dell PowerEdge 服务器)中,承载了多个此类工作负载。Cohere 使用 GB200 NVL72 为其 North 智能体 AI 平台实现了 3 倍的训练加速。Midjourney 在 Blackwell 集群上训练了其 v8 图像生成模型,现正大规模扩展 Blackwell Ultra GPU 集群,用于训练即将推出的图像和视频模型。
在 Google Cloud 上,Thinking Machines Lab 使用 GB300 NVL72 比前代 GPU 训练和服务速度提升 2 倍,加速了前沿模型研究和强化学习工作流。
Nebius 在其 AI 云上运行 NVIDIA Blackwell 和 Blackwell Ultra 基础设施,使 Higgsfield 将模型训练时间减少 30%,支持一个目前服务 2200 万用户、每天生成超过 600 万 AI 内容的平台。
想深入了解 MLPerf 训练 6.0 结果及其背后的优化,请阅读此技术博客。
原文链接:NVIDIA AI Blog
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断