OpenAI 联合 Microsoft、Nvidia 等公司发布了多路径可靠连接协议(MRC),旨在解决大规模 GPU 集群的网络拥塞和硬件故障问题,已部署于多个大型训练设施。
周三,OpenAI 发布了一项新网络协议,旨在提升大规模 AI 训练集群的速度与稳定性,并通过 Open Compute Project 将其作为开放规范公开发布。这一多路径可靠连接协议(MRC)由 OpenAI 联合 Microsoft、AMD、Broadcom、Nvidia 和 Intel 共同研发,着力解决大规模 GPU 集群面临的两大核心难题:网络拥塞与硬件故障。thedeepview
目前,该协议已在 OpenAI 和 Microsoft 的多个大型训练设施中完成部署,其中包括位于德克萨斯州阿比林的 Oracle 数据中心以及 Microsoft 的 Fairwater 超算集群,GPT-5.5 等模型均在这些设施中完成训练。thedeepview
nvidia [技术预览] NVIDIA Spectrum-X 网卡配置

据 OpenAI 网络负责人 Mark Handley 介绍,MRC 依赖"数据包喷射"技术,将数据同时分散到数百条网络路径上,从而避免任何单一链路出现拥塞。这种方式构建出结构更"扁平"的网络,能够降低能耗和算力开销。一旦某条路径发生故障,MRC 能在微秒级时间内检测到并重新路由流量,让训练任务得以不间断地持续运行。thedeepview
该协议还与 SRv6(即 IPv6 段路由)协同工作。SRv6 可为数据预先规划精确的传输路径,无需交换机自行做出路由决策,从而降低交换机层面的能耗。thedeepview
"我们希望尽可能多地使用算力,同时也希望确保高效、有效地加以利用,而这正是其中的关键所在,"OpenAI 工作负载负责人 Greg Steinbrecher 在接受 The Deep View 采访时表示。thedeepview

Steinbrecher 强调,OpenAI 此举并非为了在这项技术上建立差异化优势,而是希望推动整个行业彻底摆脱他们眼中的历史遗留瓶颈。他表示:"业内多家厂商各自开发了私有协议实现方案……这种市场碎片化对网络行业有害无益。大家应该齐心协力、朝同一个方向努力,只有这样,所有人才能跑得更快。"thedeepview
此次发布恰逢 AI 行业在算力资源方面承压日益加剧之际。通过将 MRC 确立为开放标准,该联盟旨在加速以太网 AI 网络架构的普及,并降低对专有网络协议栈的依赖——这一转变或将重塑下一代 AI 训练所需数据中心的建设方式。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断