马斯克xAI超级计算机“巨像”诞生

全球最大液冷GPU集群：xAI Colossus的超级计算力

由Supermicro和NVIDIA携手打造的xAI团队正在构建全球最大的液冷GPU集群，名为Colossus。这个庞大的AI超级计算机拥有超过10万个NVIDIA HGX H100 GPU，数艾字节的存储空间以及闪电般的网络速度，旨在训练和驱动xAI开发的生成式AI聊天机器人Grok。

这个耗资数十亿美元的数据中心位于田纳西州孟菲斯，从一个空荡荡的建筑，没有必要的电力发电机、变压器或多厅结构，到一个生产AI超级计算机，仅用了122天。为了让世界了解xAI Colossus集群的非凡成就，VentureBeat很高兴与Supermicro合作，由ServeTheHome制作了这段独家详细的视频导览。

pic.twitter.com/eVdrVdi3b8 [pic.twitter.com]

— Supermicro (@Supermicro_SMCI) October 25, 2024

以下是这个庞大工程的亮点概述。

当你着手构建全球最大的AI超级计算机时，从一开始就清楚地知道，需要大量的计算能力。它必须准备好安装，并在第一天投入运营。并且，整个解决方案需要根据xAI的独特需求进行定制。

设计采用了一种相当常见的架空地板数据中心，电力位于上方，液冷管道通向下方设施的冷水机。四个计算中心中的每一个都拥有大约25,000个NVIDIA GPU，以及所有内置的存储、光纤高速网络和电力。

XAI Colossus数据中心Supermicro液冷节点低角度，由ServeTheHome提供

从那里开始，事情变得更加专业。每个集群都包含Colossus的基本构建模块：Supermicro液冷机架。每个机架包含八个Supermicro 4U通用GPU系统，其中包括液冷的NVIDIA HGX H100 8-GPU和两个液冷的x86 CPU。因此，每个机架包含64个NVIDIA Hopper GPU。八个这样的GPU服务器，加上一个Supermicro冷却液分配单元（CDU）和冷却液分配歧管（CDM）构成一个机架。机架以八组的形式排列，每组包含512个GPU，以及一个网络机架，为更大的系统提供微集群。

xAI Colossus数据中心的Supermicro 4U通用GPU液冷服务器是当今最密集、最先进的AI服务器，拥有复杂的液冷系统，并且能够在不从机架中取出系统的情况下进行维护。

XAI Colossus数据中心Supermicro 4U通用GPU液冷服务器特写，由ServeTheHome提供

每个服务器上方的水平1U机架冷却液分配歧管（CDM）将冷液送入，并将温液送出；快速断开连接使液冷设备能够快速简便地用一只手拆卸或重新安装，以露出两个底部托盘。机架配备了八个Supermicro 4U通用GPU系统，用于液冷的NVIDIA HGX H100和HGX H200 Tensor Core GPU。每个系统的顶部托盘都容纳了NVIDIA HGX H100 8-GPU复杂结构和NVIDIA HGX板上用于冷却GPU的冷板。底部托盘容纳了主板、CPU、RAM和PCIe交换机，以及双插槽CPU上的冷板。

独特的是，Supermicro的主板在底部托盘上集成了四个Broadcom PCIe交换机，这些交换机在当今几乎所有NVIDIA HGX服务器中使用，位于主板的右侧，而不是将这些交换机放在单独的主板上。与行业中其他AI服务器不同，其他AI服务器在制造后将液冷添加到风冷设计中，Supermicro的服务器从一开始就被设计为液冷，并配备了定制的液冷块。这种紧凑的功率、可访问性和可维护性使这些系统具有极高的可扩展性，并在行业中独树一帜。

Supermicro 4U通用GPU系统，用于液冷的NVIDIA HGX H100和HGX H200，在SC23上展示，由ServeTheHome提供

此外，每个CDU都有自己的监控系统，用于监控流量、温度和其他关键功能，这些功能与中央管理界面相连。每个CDU都配备了冗余泵和电源，因此如果一个发生故障，可以在几分钟内进行维护或更换，而不会中断运行系统。

Supermicro服务器仍然使用系统风扇来冷却DIMM、电源、低功耗基板管理控制器、NIC和其他电子元件。为了保持每个机架的冷却中性，服务器风扇从前面吸入较冷的空气，并将较热的空气通过液冷的后门热交换器排出。从Supermicro的液冷GPU服务器以及存储、CPU计算集群和网络组件中去除额外的热量。与风冷服务器相比，风扇使用的功率大大降低，从而降低了每个服务器所需的功率。

数据中心的庞大网络运行在NVIDIA Spectrum-X以太网网络平台上，它被用于数据中心，以扩展其庞大的AI集群，这是其他任何技术都无法比拟的。Spectrum-X是一个尖端的网络平台，提供快速可靠的数据传输，旨在满足AI工作负载的高要求。它提供诸如更智能的数据路由、减少延迟和更好地控制网络流量等功能。它还包括增强的AI结构可视性和监控，使其成为共享基础设施环境中大型AI项目的理想选择。

每个集群都使用NVIDIA Bluefield-3 SuperNIC，提供每秒400吉比特的网络速度。它与任何台式机以太网电缆使用的基本技术相同，但在数据中心，它是400GbE，或者说每个光纤连接的速度快400倍。每个系统九个链路提供每GPU计算服务器3.6Tbps的带宽。GPU的RDMA（远程直接内存访问）网络构成了大部分带宽。每个GPU都与自己的NVIDIA Bluefield-3 SuperNIC和Spectrum-X网络技术配对。

xAI Colossus数据中心交换机光纤1，由ServeTheHome提供

除了GPU RDMA网络之外，CPU也获得了400GbE连接，它使用完全不同的交换机结构。xAI为其GPU运行一个网络，为集群的其余部分运行另一个网络，这是高性能计算集群中非常常见的架构设计。

NVIDIA Spectrum SN5600是一款64端口800Gb以太网交换机，可以拆分并运行128个400吉比特以太网链路，以确保NVIDIA GPU和整个集群以最大性能水平运行和扩展。它可以卸载各种安全协议，使用高级流量管理来避免网络拥塞，并处理集群中所有CPU超级计算机任务，这是世界上首次部署这种类型的交换机之一。

总而言之，这项庞大的工程在规模上超越了之前尝试过的任何超级计算机。我们将继续关注xAI与Supermicro和NVIDIA携手合作，在超级计算的新时代进一步突破界限。

深入了解Colossus！不要错过上面的视频中的详细导览。

赞助文章是由支付文章费用或与VentureBeat有业务关系的公司制作的内容，并且始终明确标明。有关更多信息，请联系sales@venturebeat.com。

马斯克xAI超级计算机“巨像”诞生

全球最大液冷GPU集群：xAI Colossus的超级计算力

发表回复取消回复

最新内容

传奇游戏重磅回归：科技与流媒体时代的经典复兴

2026年AI模型必备：四大顶尖网页抓取API深度评测与选型指南

星链让我在任何地方都能“居家办公”——如今，我渴望改变

谷歌眼镜的功与过：一场超前13年的科技预言与争议

相关内容

RAGFlow 开源RAG引擎深度解析：功能、部署与优化实践

京东云JoyAgent 3.0：从入门到实战，办公智能体搭建与应用场景全解析

思科研究：公用事业拥抱 AI 实现运营一体化

特朗普第二任期将改变人工智能、能源等领域

分类

快速链接

全球最大液冷GPU集群：xAI Colossus的超级计算力

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复