NVIDIA Rubin架构实现100%液冷,冷却液高达45°C,无需风扇,可减少40%能耗,节约数百万美元电费,并将水耗降至零。这一创新为AI工厂冷却树立新标准。
热水浴缸的温度通常在38到40摄氏度之间,大多数人只能泡15分钟。而NVIDIA最新AI服务器的冷却液温度可以更高——高达45摄氏度。正是这个更高的温度上限,让它们更加节能。
NVIDIA Rubin代AI基础设施是全球首个实现100%液冷的系统——每个芯片、每个网络组件,全部由封闭循环的液体冷却,系统中没有任何风扇。这套液冷方案被纳入 NVIDIA DSX AI工厂参考设计,该指南概述了设计、建造和运营整个AI工厂基础设施堆栈的最佳实践。
尽管每一代产品在每瓦功耗下都提供了显著更高的计算能力,但全液冷AI计算基础设施使数据中心能够大幅降低冷却能耗——在超大规模下,这对数据中心的整体能源使用产生了实质性影响。
“NVIDIA DSX AI工厂参考设计实现了零水消耗——我们消除了大量的电力消耗和几乎所有的水消耗,”NVIDIA数据中心冷却与基础设施总监Ali Heydari表示。“基于干式冷却器的设计是一个闭式循环系统,没有蒸发式水冷——除了在某些气候下,一年中可能只有约1%的时间需要启用冷水机组。”
历史上,冷却本身占数据中心电力消耗的比例高达 40%,因此这是可以通过效率提升来降低运营支出和能源需求的最重要领域之一。
行业估计 表明,将冷水机组的温度提高1摄氏度,就可以降低约4%的冷却能源成本。在规模效应下,这些节省会迅速累积。一个50兆瓦的超大规模设施通过转向液冷基础设施,每年可在冷却相关的能源和水费上节省超过400万美元。
在气候适宜的地区,NVIDIA的45度液冷架构可以通过干式冷却器实现无冷水机组运行,将设施冷却水消耗从传统冷却塔系统每兆瓦每年约260万加仑降至接近零——水资源使用减少高达100%。
原因在于:传统的风冷数据中心依赖大量冷空气来带走IT设备的热量,在炎热天气下往往需要高能耗的冷却基础设施。而NVIDIA的45度液冷系统直接在芯片处捕获热量,并通过温度更高的液体回路进行传输,使得室外干式冷却器在一年中大部分时间都能高效散热,同时大幅减少机械冷却需求和设施水耗。
数据中心的 ambient 温度非常灵活——夏季的暖空气也没有问题,因为服务器内部没有任何部件依赖冷空气。液体完成了所有工作——并且同一种液体可以在闭式循环中重新循环,因此不需要消耗新的水来冷却芯片。

在AI工厂中,冷却液从冷却液分配单元流向服务器,形成闭式循环。
行业新标准
由于NVIDIA Rubin平台集成了100%液冷基础设施,所有为其构建的云服务商和数据中心运营商都在进行转型。
生态系统也在同步跟进。Schneider Electric旗下先进冷却部门Motivair与NVIDIA的产品路线图合作了近十年——其总裁兼CEO Richard Whitmore表示,当功率密度超过风冷不再可行的阈值时,双方的关系更加紧密。
“一旦每颗芯片的瓦数超过一定水平,液冷就成为了必然选择,”Whitmore说。
AI基础设施的冷却温度比你想象的要高
长久以来,行业内存在一个误解:冷的数据中心就是高效的数据中心。几十年前,如果数据中心不像步入式冷库那样冷,人们会认为出了问题。
实际上,芯片能够承受的环境温度远比这种直觉要温暖。硅处理器内部会产生巨大的热量——进入全液冷芯片的冷却液在45摄氏度时,离开时约为55摄氏度,吸收芯片表面的热量。但性能并不会下降。
处理器继续以全性能运行,因为液冷冷板将器件温度保持在校准的工作范围内,即使机架入口的冷却液温度高达45摄氏度。
无风扇、无冷通道——一种完全不同的机器
走进传统数据中心,你会注意到两件事:噪音——冷却风扇贡献了总噪音水平达到或超过85分贝,需要佩戴耳罩保护听力;以及热通道和冷通道的物理布置,需要精心管理以推动冷空气流过组件。
Rubin架构改变了这一图景。
冷却液——75%的水和25%的丙二醇——流过直接放置在处理器上的冷板,在源头处带走热量。冷却液温度高达45摄氏度,意味着在许多气候条件下,设施环路无需启动机械冷水机组和噪音风扇即可散热。

液冷基础设施的架空管道将冷却液引入强大的AI服务器。
这带来了超出节能的可能性:完全消除水消耗。
在合适的地理位置——例如外界空气持续凉爽的地区——液冷数据中心可以通过冷却液分配单元捕获源头的热量,并将其传输到室外的干式冷却器(本质上就是安装在建筑物外的大型散热器盘管)来散热。
循环回路一次注满后,在设施整个生命周期内保持闭式运行。而且它在AI工厂中占用的空间远小于传统风冷基础设施。
“在合适的地理位置和正确的系统设计下,你不需要任何制冷设备,”Whitmore说。“你只需在外面放置大型散热器盘管,利用空气温度进行所有冷却。这非常高效。”
地理位置约束很重要。苏格兰高地的数据中心和亚利桑那州凤凰城的数据中心面临截然不同的现实。但即使在较温暖的气候中,转向45摄氏度冷却液也能让运营商更接近无冷水机组的理想状态——冷水机组可能一年只需开启几天,当外界空气温度要求时才启动。
这种AI工厂新模式的一个关键好处是废热回收的潜力,即将AI工厂运营产生的余热重新用于加热附近的商业或住宅建筑。
此前无人解决的工程难题
之前的液冷服务器是混合型的:GPU和CPU使用冷板,但系统的其余部分仍采用风冷,带有翅片式散热器,将热量散发到流动空气中。在全液冷服务器中,这些组件的冷却需要完全重新设计,改用液体。
NVIDIA的热工程团队重新设计了这些组件的散热方式,设计了冷却回路,简化了液体在板级多个高功率芯片之间的流道路径,仅使用一个入口和一个出口,从而实现了更整洁的托盘级冷却架构。
一个明显的成果:Rubin服务器具有干净、密封的前面板,而风冷服务器的前面板带有散热开孔。另一个成果:全液冷服务器比风冷服务器实现了更高的机架密度,因此以前占用六个机架单元的系统现在只需两个——更多计算,更少空间,更低噪音。
AI工作负载并未减轻。驱动数据中心建设的计算需求增长速度快于几乎所有其他类别的基础设施投资。
如果在计算冷却方面没有效率提升,大规模运行AI的能源成本将与硬件同步增长。高达45摄氏度的液冷——比热水浴缸还热,却对地球更友好——是业界缩小这一差距最重要的工具之一。
原文链接:NVIDIA AI Blog
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会