AI 工厂的未来:高效、可持续的算力
由 Applied Digital 赞助
生成式 AI 应用和机器学习模型对算力有着极高的需求。如今,从 GenAI 模型训练和推理到视频、图像和文本数据的预处理和后处理,再到合成数据生成、SQL 和向量数据库处理等,这些工作负载都极其庞大。下一代模型,例如使用代理 AI 的新应用,将需要 10 到 20 倍的计算能力来训练,并使用更多的数据。
英伟达加速计算产品总监 Dave Salvator 表示,这些大规模 AI 部署的可行性取决于能否以经济、可扩展和弹性的方式应用这些技术。
“生成式 AI,以及 AI 整体而言,是一个全栈问题,”Salvator 说。“芯片显然是平台的核心,但芯片仅仅是开始。完整的 AI 堆栈包括位于堆栈顶部的应用程序和服务,位于堆栈中间的数百个库,当然还有不断优化以适应最新、最强大的模型。”
为了充分释放 AI 时代加速计算的潜力,需要新的技术和方法,包括 AI 平台创新、可再生能源和大型液冷系统,以提供更经济、更弹性和更节能的高性能计算,尤其是在企业面临日益严峻的能源挑战之际。
Applied Digital 首席执行官兼董事长 Wes Cummins 补充道,这些数据中心无法进行改造,而是需要专门建造。
“升级到所需的冷却、功率密度、电力、管道和 HVAC 系统是一个巨大的工程。然而,最大的问题还是电力,”Cummins 说。“效率直接转化为更低的成本。通过最大限度地提高能源效率、优化空间利用率以及改善数据中心的设施和设备利用率,我们可以降低硬件生成产品的成本。”
Applied Digital 正在与英伟达合作,提供构建未来 AI 工厂所需的经济、弹性和节能的高性能计算。
AI 工厂解决了端到端的流程问题,帮助开发人员更快地将 AI 产品推向市场。其计算密集型流程的性能显著提高,使用更多电力,但效率更高,因此数据准备、从头开始构建模型以及预训练或微调基础模型可以在更短的时间内完成,并且消耗的能量更少。
借助真正全栈解决方案的支持,模型的构建速度更快、效率更高、更轻松。随着高级生成式 AI 和代理 AI 应用开始进入市场,即使是部署的推理方面也将成为一项多 GPU、多节点的挑战。
英伟达最近的加速计算创新提供了满足这些高级加速计算需求所需的性能和效率,例如英伟达 Blackwell 平台。它使用名为英伟达 NVLink 的闪电般快速的结构技术,其速度比 PCIe 快约 7 倍,可在单个域中连接 72 个 GPU,并可扩展至 576 个 GPU,从而为万亿参数和多万亿参数 AI 模型释放加速性能。英伟达 NVLink Switch 技术完全互连每个 GPU,因此这 72 个 GPU 中的任何一个 GPU 都可以以全线速率与任何其他 GPU 通信,没有带宽折衷,并且延迟很低。NVLink 支持快速全对全和全简化通信,这些通信在 AI 训练和推理中被广泛使用。
让服务器节点相互通信越来越成为限制性能或允许性能继续扩展的重要因素,因此真正快速、高性能且可配置的网络成为大型系统的关键组成部分。英伟达 Quantum-2 InfiniBand 网络专为 AI 工作负载量身定制,提供高度可扩展的性能,并具有先进的卸载引擎,可减少大型 AI 模型的训练时间。
“我们的目标是确保这些扩展效率尽可能高,因为扩展得越多,扩展通信就越成为性能方程的关键部分,”Salvatore 说。
让高性能超级计算机全天候运行可能是一个挑战,故障可能代价高昂。训练作业中断会浪费时间和金钱;对于已部署的应用程序,如果服务器宕机,其他服务器必须承担额外的负载,用户体验会受到很大影响,等等。
为了解决 GPU 加速基础设施的特定正常运行时间挑战,Blackwell 采用专用的可靠性、可用性和可维护性 (RAS) 引擎设计。RAS 引擎使基础设施管理员了解服务器运行状况,服务器会自动报告任何问题,以便能够在数百个机架中快速定位问题。
满足 AI 基础设施需求并推动 AI 应用发展所需的电力数量正成为一个日益严峻的挑战。Applied Digital 采用了一种独特的方法来解决这个问题,包括“闲置”电力,即尚未开发或未充分利用的现有能源资源,以及可再生能源。这些现有的电力资源可以加快上市时间,同时提供更环保的能源供应方式,并将成为该公司战略的核心,直到更有效、低碳的电力生产系统变得普遍。
闲置电力在北美主要通过两种方式产生:一是当拥有电力密集型应用的企业倒闭时,例如铝冶炼厂或钢铁厂。最初为支持该工厂而建立了大量的发电和配电基础设施。
Applied Digital 的主要可再生能源来源是风能,来自土地价格低廉且风力充足的州的风力发电场。风力涡轮机经常被限制,因为经常没有足够的来源将这些能量推送到,而将这些能量推送到电网会导致价格跌至负值。该公司在这些风力发电场附近共同部署数据中心——在北达科他州,他们利用了两个千兆瓦的风力发电场,这些发电场将电力输送到附近的变电站。
“AI 工作负载的独特之处在于它们对最终用户的网络延迟并不敏感,”Cummins 说。“我们能够更加灵活,并将负载、应用程序直接带到电力来源,我们已经在多个地点做到了这一点。我们不仅能够使用很大比例的可再生能源,而且还使用原本会闲置的电力。这为美国过去 20 年来被遗忘的地区带来了很多地方经济效益,并带来了很多有趣的高科技工作岗位。”
液冷技术方面的进步进一步优化了电力效率和可持续性。液冷可以降低热负荷,并限制对电力消耗的需求。直接芯片液冷服务器机架还可以减少与风冷或蒸发式冷却系统相比对水资源的消耗。到 2025 年,Applied Digital 将在芯片级别大规模部署液冷。目标是将 PUE 指标(即电力利用效率)尽可能地接近 1。
对于 PUE 为 1,100% 的电力用于驱动 IT 工作负载;高于 1 的任何值都使用该数量的电力用于冷却和机械。从历史上看,一个非常高效的超大规模数据中心的 PUE,取决于位置,在 1.35 到 1.5 之间,而低于 1.5 的数据中心则被认为是绿色数据中心。
“在我们使用液冷的所在地,我们预计 PUE 在全年范围内将达到 1.15,”Cummins 说。“由于效率高,液冷将显著提高任何数据中心的 PUE,与位置无关。”
液冷还带来了一些其他优势——它可以大幅降低数据中心的噪音水平,而无需使用机箱中用于风冷的风扇。去除这些风扇还可以提高能源效率。直接液冷还可以消除对冷水机的需求,从而再次减少电力使用。此外,用于冷却数据中心的 HVAC 数量也大幅减少。
“如果你将我们位于北达科他州的设施与位于南部州的设施进行比较,电力价格、低 PUE 以及设施以每年 100 兆瓦的效率运行,”Cummins 说,“我们估计,我们每年可以为客户节省大约 5000 万美元的运营成本。”
深入了解:要详细了解如何构建未来的 AI 工厂,请联系 Applied Digital。了解我们如何通过创新的解决方案来提高能源效率、增强性能并支持下一代计算的可持续性。
赞助文章是由付费发布文章或与 VentureBeat 有业务关系的公司制作的内容,并且始终明确标明。有关更多信息,请联系 sales@venturebeat.com。