前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

最快、最大、最强:NVIDIA Blackwell 横扫 MLPerf 训练 6.0

AI 前沿2026年6月15日· 原作者:Shruti Koparkar· 6 分钟阅读1 阅读

MLPerf 训练 6.0 基准测试中,NVIDIA Blackwell 平台在所有 7 项基准上取得最快训练时间,并扩展到 8192 GPU。其 GB300 NVL72 性能比上一代提升 1.6 倍,展示出在混合专家模型和大规模密集模型训练中的领先地位,有助于降低训练成本、加速模型发布。

每个突破性 AI 模型的起点都一样:一次训练运行。运行这些训练任务的基础设施决定了团队迭代的速度、可构建的模型规模以及任务能否可靠完成。

随着模型在规模、复杂度和智能程度上不断增长,对训练基础设施的要求也在提高。

在 MLPerf 训练 6.0——最新一轮严格、同行评审的 AI 训练性能行业基准测试中——NVIDIA Blackwell 平台在所有类别中均领先:

  • 每项基准训练时间最短
  • 最大规模训练:使用 NVIDIA Blackwell NVL72 系统扩展到 8192 GPU
  • 唯一一个在所有 7 项基准上均有提交的平台

NVIDIA 通过极致协同设计,将性能、规模和可靠性整合在一个平台中,帮助 AI 模型构建者更快推出前沿模型、降低训练成本并尽早获得收入。

性能:每项基准训练时间最短

MLPerf 训练 6.0 新增了两个混合专家模型(MoE)预训练工作负载:DeepSeek-V3 671B 和 GPT-OSS-20B,反映了 MoE 架构日益凸显的重要性。NVIDIA 平台是唯一提交全部基准的平台,并在所有 7 项基准上实现了最短训练时间。

图1:MLPerf 6.0 训练基准性能图表

本轮,NVIDIA 提交了基于 NVIDIA GB200 NVL72 和 GB300 NVL72 机架级系统的结果。在每个机架级系统中,第五代 NVIDIA NVLink 交换机以高带宽连接所有 72 个 GPU,形成统一的计算和内存池,使其像一块巨型 GPU 一样工作。

大规模 MoE 训练面临的点对点通信挑战与 MoE 推理类似——token 必须在 GPU 间路由,到达正确的专家子网络——NVLink 的带宽优势正是使其在规模上快速且高效的关键。

NVIDIA 还展示了 NVFP4 训练方法,在大规模和小规模预训练以及微调工作负载中,在满足严格精度要求的同时提升性能。NVIDIA 持续推动不同模型架构的低精度训练创新,最近使用 NVFP4 预训练了 5500 亿参数的 NVIDIA Nemotron 3 Ultra 模型。

NVIDIA GB300 NVL72 比 GB200 NVL72 性能最高提升 1.6 倍: 在本轮中,GB300 NVL72 在同一规模下比 GB200 NVL72 训练速度最高提升 1.6 倍。Blackwell Ultra 的关键能力(如 NVFP4 更高的计算密度、更大的内存容量以及更高的功率上限,使 GPU 维持峰值性能)推动了这一改进。

图2:GB300 vs GB200 性能对比

规模:MLPerf 训练中最大的 Blackwell 集群

为了支持大规模分布式训练,NVIDIA 提供两种互补的横向扩展网络平台——NVIDIA Quantum InfiniBand 和 NVIDIA Spectrum-X 以太网——让数据中心能够灵活构建针对其基础设施优化的大规模集群。

在套件中最大的 MoE 模型 DeepSeek-V3 671B 上,NVIDIA 使用 GB200 NVL72 系统将提交规模扩展到 8192 GPU,这是迄今为止 MLPerf 训练中基于 Blackwell 的最大规模提交。

NVIDIA 还在套件中最大的密集大语言模型之一 Llama 3.1 405B 上,使用 GB200 NVL72 系统以 5120 GPU 规模提交了结果。

图3:大规模训练扩展结果

本轮结果也反映了 NVIDIA 与合作伙伴在系统架构、网络和软件上的深度协同工程:

  • Microsoft Azure 使用 GB200 NVL72 系统将 Llama 3.1 405B 训练扩展到 8192 GPU,并在 7.07 分钟内达到参考质量目标,是该基准的最短训练时间。
  • CoreWeave 在 DeepSeek-V3 671B 上实现了最短训练时间,使用连接 Spectrum-X 以太网的 GB300 NVL72 系统,在 8192 GPU 规模下 2.02 分钟达到质量目标。

大规模可靠性:为生产环境而生

在生产训练环境中,训练运行可能持续数周或数月,涉及数十万 GPU。在这种规模下,有效训练吞吐量既取决于系统性能,也取决于能在长期运行中保持可重复性的弹性能力。

上述 MLPerf 训练 v6.0 结果体现了 NVIDIA 平台的性能。在弹性方面,NVIDIA 平台在两个维度上进行工程优化:

  • 更少的中断:NVIDIA GPU 旨在故障发生前避免故障。GPU 进入数据中心前,经过 30 多个制造测试阶段筛选,提前发现潜在缺陷。部署后,可靠性、可用性和服务性引擎几乎监控整个芯片,自愈功能自动绕过检测到的故障,不中断工作负载。在网络层面,Spectrum-X 以太网在毫秒级内绕过故障链路,保持结构健康而不中断任务。
  • 中断后更快恢复:NVIDIA 弹性扩展(NVRx)通过覆盖集群的故障检测、恢复和健康监控能力,最大限度减少故障发生时损失的时间。它自动检测并管理表现不佳的节点,防止它们拖慢整个集群。当节点发生中断时,系统从最近的检查点(训练状态的快照)恢复,而非重新启动作业。

基于 NVIDIA 的前沿 AI

NVIDIA 生态合作伙伴也广泛参与本轮,来自 19 个组织(包括 ASUSTeK、Microsoft Azure、Cisco、CoreWeave、Dell Technologies、Fujitsu、Giga Computing、Google Cloud、Hewlett Packard Enterprise、Inventec、Krai、Lambda、Nebius、Netweb Technologies India Ltd.、Quanta Cloud Computing (QCT)、ScitiX、Supermicro 和 TTA)提交了令人瞩目的结果。其中许多合作伙伴正在 NVIDIA 基础设施上运行最苛刻的 AI 训练工作负载。

CoreWeave 将其 NVIDIA 基础设施部署在 Dell PowerRack 系统(含 Dell PowerEdge 服务器)中,承载了多个此类工作负载。Cohere 使用 GB200 NVL72 为其 North 智能体 AI 平台实现了 3 倍的训练加速。Midjourney 在 Blackwell 集群上训练了其 v8 图像生成模型,现正大规模扩展 Blackwell Ultra GPU 集群,用于训练即将推出的图像和视频模型。

在 Google Cloud 上,Thinking Machines Lab 使用 GB300 NVL72 比前代 GPU 训练和服务速度提升 2 倍,加速了前沿模型研究和强化学习工作流。

Nebius 在其 AI 云上运行 NVIDIA Blackwell 和 Blackwell Ultra 基础设施,使 Higgsfield 将模型训练时间减少 30%,支持一个目前服务 2200 万用户、每天生成超过 600 万 AI 内容的平台。

想深入了解 MLPerf 训练 6.0 结果及其背后的优化,请阅读此技术博客。


原文链接:NVIDIA AI Blog
本文由前途科技编辑整理

标签:NVIDIABlackwell基准测试

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

谷歌披露中国黑客长期入侵美加研究机构
TOP1

谷歌披露中国黑客长期入侵美加研究机构

AMD收购MEXT应对AI内存瓶颈
TOP2

AMD收购MEXT应对AI内存瓶颈

3

法官永久驳回xAI对OpenAI商业秘密诉讼

22小时前
法官永久驳回xAI对OpenAI商业秘密诉讼
4

EPA 文件曝光特斯拉 Cybercab 完整规格

22小时前
EPA 文件曝光特斯拉 Cybercab 完整规格
5

英国加拿大寻求AI出口禁令豁免

22小时前
英国加拿大寻求AI出口禁令豁免
6

中国最高法院维持英飞凌GaN芯片销售禁令

22小时前
中国最高法院维持英飞凌GaN芯片销售禁令
7

佛罗里达起诉TikTok违反儿童保护法

22小时前
佛罗里达起诉TikTok违反儿童保护法
8

QuEra与AWS计划2028年推出容错量子计算机

22小时前
QuEra与AWS计划2028年推出容错量子计算机
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款