前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

马斯克xAI超级计算机“巨像”诞生

NEXTECH
Last updated: 2025年3月18日 上午6:52
By NEXTECH
Share
22 Min Read
SHARE

全球最大液冷GPU集群:xAI Colossus的超级计算力

由Supermicro和NVIDIA携手打造的xAI团队正在构建全球最大的液冷GPU集群,名为Colossus。这个庞大的AI超级计算机拥有超过10万个NVIDIA HGX H100 GPU,数艾字节的存储空间以及闪电般的网络速度,旨在训练和驱动xAI开发的生成式AI聊天机器人Grok。

这个耗资数十亿美元的数据中心位于田纳西州孟菲斯,从一个空荡荡的建筑,没有必要的电力发电机、变压器或多厅结构,到一个生产AI超级计算机,仅用了122天。为了让世界了解xAI Colossus集群的非凡成就,VentureBeat很高兴与Supermicro合作,由ServeTheHome制作了这段独家详细的视频导览。

pic.twitter.com/eVdrVdi3b8 [pic.twitter.com]

— Supermicro (@Supermicro_SMCI) October 25, 2024

以下是这个庞大工程的亮点概述。

当你着手构建全球最大的AI超级计算机时,从一开始就清楚地知道,需要大量的计算能力。它必须准备好安装,并在第一天投入运营。并且,整个解决方案需要根据xAI的独特需求进行定制。

设计采用了一种相当常见的架空地板数据中心,电力位于上方,液冷管道通向下方设施的冷水机。四个计算中心中的每一个都拥有大约25,000个NVIDIA GPU,以及所有内置的存储、光纤高速网络和电力。

 XAI Colossus数据中心Supermicro液冷节点低角度,由ServeTheHome提供

从那里开始,事情变得更加专业。每个集群都包含Colossus的基本构建模块:Supermicro液冷机架。每个机架包含八个Supermicro 4U通用GPU系统,其中包括液冷的NVIDIA HGX H100 8-GPU和两个液冷的x86 CPU。因此,每个机架包含64个NVIDIA Hopper GPU。八个这样的GPU服务器,加上一个Supermicro冷却液分配单元(CDU)和冷却液分配歧管(CDM)构成一个机架。机架以八组的形式排列,每组包含512个GPU,以及一个网络机架,为更大的系统提供微集群。

xAI Colossus数据中心的Supermicro 4U通用GPU液冷服务器是当今最密集、最先进的AI服务器,拥有复杂的液冷系统,并且能够在不从机架中取出系统的情况下进行维护。

XAI Colossus数据中心Supermicro 4U通用GPU液冷服务器特写,由ServeTheHome提供

每个服务器上方的水平1U机架冷却液分配歧管(CDM)将冷液送入,并将温液送出;快速断开连接使液冷设备能够快速简便地用一只手拆卸或重新安装,以露出两个底部托盘。机架配备了八个Supermicro 4U通用GPU系统,用于液冷的NVIDIA HGX H100和HGX H200 Tensor Core GPU。每个系统的顶部托盘都容纳了NVIDIA HGX H100 8-GPU复杂结构和NVIDIA HGX板上用于冷却GPU的冷板。底部托盘容纳了主板、CPU、RAM和PCIe交换机,以及双插槽CPU上的冷板。

独特的是,Supermicro的主板在底部托盘上集成了四个Broadcom PCIe交换机,这些交换机在当今几乎所有NVIDIA HGX服务器中使用,位于主板的右侧,而不是将这些交换机放在单独的主板上。与行业中其他AI服务器不同,其他AI服务器在制造后将液冷添加到风冷设计中,Supermicro的服务器从一开始就被设计为液冷,并配备了定制的液冷块。这种紧凑的功率、可访问性和可维护性使这些系统具有极高的可扩展性,并在行业中独树一帜。

Supermicro 4U通用GPU系统,用于液冷的NVIDIA HGX H100和HGX H200,在SC23上展示,由ServeTheHome提供

此外,每个CDU都有自己的监控系统,用于监控流量、温度和其他关键功能,这些功能与中央管理界面相连。每个CDU都配备了冗余泵和电源,因此如果一个发生故障,可以在几分钟内进行维护或更换,而不会中断运行系统。

Supermicro服务器仍然使用系统风扇来冷却DIMM、电源、低功耗基板管理控制器、NIC和其他电子元件。为了保持每个机架的冷却中性,服务器风扇从前面吸入较冷的空气,并将较热的空气通过液冷的后门热交换器排出。从Supermicro的液冷GPU服务器以及存储、CPU计算集群和网络组件中去除额外的热量。与风冷服务器相比,风扇使用的功率大大降低,从而降低了每个服务器所需的功率。

数据中心的庞大网络运行在NVIDIA Spectrum-X以太网网络平台上,它被用于数据中心,以扩展其庞大的AI集群,这是其他任何技术都无法比拟的。Spectrum-X是一个尖端的网络平台,提供快速可靠的数据传输,旨在满足AI工作负载的高要求。它提供诸如更智能的数据路由、减少延迟和更好地控制网络流量等功能。它还包括增强的AI结构可视性和监控,使其成为共享基础设施环境中大型AI项目的理想选择。

每个集群都使用NVIDIA Bluefield-3 SuperNIC,提供每秒400吉比特的网络速度。它与任何台式机以太网电缆使用的基本技术相同,但在数据中心,它是400GbE,或者说每个光纤连接的速度快400倍。每个系统九个链路提供每GPU计算服务器3.6Tbps的带宽。GPU的RDMA(远程直接内存访问)网络构成了大部分带宽。每个GPU都与自己的NVIDIA Bluefield-3 SuperNIC和Spectrum-X网络技术配对。

xAI Colossus数据中心交换机光纤1,由ServeTheHome提供

除了GPU RDMA网络之外,CPU也获得了400GbE连接,它使用完全不同的交换机结构。xAI为其GPU运行一个网络,为集群的其余部分运行另一个网络,这是高性能计算集群中非常常见的架构设计。

NVIDIA Spectrum SN5600是一款64端口800Gb以太网交换机,可以拆分并运行128个400吉比特以太网链路,以确保NVIDIA GPU和整个集群以最大性能水平运行和扩展。它可以卸载各种安全协议,使用高级流量管理来避免网络拥塞,并处理集群中所有CPU超级计算机任务,这是世界上首次部署这种类型的交换机之一。

总而言之,这项庞大的工程在规模上超越了之前尝试过的任何超级计算机。我们将继续关注xAI与Supermicro和NVIDIA携手合作,在超级计算的新时代进一步突破界限。

深入了解Colossus!不要错过上面的视频中的详细导览。

赞助文章是由支付文章费用或与VentureBeat有业务关系的公司制作的内容,并且始终明确标明。有关更多信息,请联系sales@venturebeat.com。

Share This Article
Email Copy Link Print
Previous Article 20250317175616947.jpg TrendForce:2024年全球前十大IC设计厂商营收2498亿美元 韦尔半导体排名第九
Next Article VoIP软电话:提升团队灵活性和效率
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20250522055348358.png
IDC:未来五年云基础设施市场复合年均增长率为17.8%
报告
20250522055148403.png
Counterpoint:2025年第一季度印度TWS出货量同比增长4%
报告
Fireblocks:2025年90%机构正采用或探索稳定币
报告
福特:2025年Q1 F-150 Lightning美国注册量7913辆
报告

相关内容

教育界人士在黄昆辉基金会座谈中指出,AI科技、数位輔助教學,能實現因材施教的願景。
AI

AI 教科书助推个性化教学,六大建议优化数字化课堂

2024年11月15日
20250218225214924.png
AI

谷歌地图AI代理未来:五点商业启示

2025年2月19日
ai-china-4stepup.jpg?resize=1200,600
AI

除了DeepSeek,值得关注的四家中国AI创业公司

2025年5月2日
AI

企业为何关注微软安全和苹果云隐私

2024年9月30日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?