订阅我们的每日和每周新闻通讯,获取有关行业领先人工智能报道的最新更新和独家内容。了解更多
时光倒流 60 年,来到阿拉巴马州的史蒂文森,你会看到一座名为“寡妇溪化石电厂”的 16 亿瓦发电站,它拥有世界上最高的烟囱之一。如今,这座电厂的旧址上矗立着一座谷歌数据中心。它不再燃烧煤炭,而是通过旧设施的输电线路引入可再生能源,为公司的在线服务提供动力。
从碳排放设施到数字工厂的转变,象征着全球向数字基础设施的转型。而随着人工智能工厂的崛起,我们即将见证智能生产的加速发展。
这些数据中心是决策引擎,它们吞噬着计算、网络和存储资源,将信息转化为洞察力。为了满足对人工智能的巨大需求,密集型数据中心正在以前所未有的速度涌现。
支撑人工智能的基础设施继承了工业工厂的许多挑战,从电力到可扩展性和可靠性,都需要现代解决方案来解决百年难题。
在蒸汽和钢铁的时代,劳动力意味着数千名工人昼夜不停地操作机器。在今天的人工智能工厂,产出由计算能力决定。训练大型人工智能模型需要大量的处理资源。据 Meta 工程副总裁阿帕娜·拉马尼介绍,整个行业训练这些模型的增长速度每年约为四倍。
这种规模的增长正在创造着工业世界中存在的瓶颈。首先,供应链存在限制。GPU——人工智能革命的引擎——来自少数几家制造商。它们极其复杂,需求量很大,因此价格波动也就不足为奇了。
为了规避一些供应限制,AWS、谷歌、IBM、英特尔和 Meta 等巨头正在设计自己的定制芯片。这些芯片针对功率、性能和成本进行了优化,使其成为各自工作负载的专家,拥有独特的特性。
然而,这种转变不仅仅关乎硬件。人们还担心人工智能技术将如何影响就业市场。哥伦比亚商学院发表的一项研究调查了投资管理行业,发现采用人工智能会导致收入中劳动份额下降 5%,这与工业革命期间出现的转变相呼应。
“人工智能很可能对经济的许多,也许是所有部门产生变革性影响,”该论文作者之一、劳拉·维尔德坎普教授说。“我相当乐观地认为,我们将为许多人找到有用的工作。但转型将付出代价。”
除了成本和可用性之外,充当人工智能工厂劳动力的 GPU notoriouly 耗电。当 xAI 团队在 2024 年 9 月上线其 Colossus 超级计算机集群时,据报道它从田纳西河谷管理局获得了 7 到 8 兆瓦的电力。但该集群的 10 万个 H100 GPU 需要远远超过这个数字。因此,xAI 引入了 VoltaGrid 移动发电机来暂时弥补这一差距。11 月初,孟菲斯轻气和水务公司与田纳西河谷管理局达成一项更永久的协议,为 xAI 提供额外的 150 兆瓦容量。但批评者反驳说,该地点的能耗正在给该市的电网带来压力,并加剧了该市糟糕的空气质量。而埃隆·马斯克已经计划在同一屋檐下再安装 10 万个 H100/H200 GPU。
麦肯锡表示,到本世纪末,数据中心的电力需求预计将增长到目前容量的三倍左右。与此同时,处理器性能翻倍的效率正在放缓。这意味着每瓦性能仍在提高,但速度正在放缓,而且肯定不足以满足对计算能力的需求。
那么,要如何才能与人工智能技术的狂热采用相匹配呢?高盛的一份报告表明,美国公用事业公司需要投资约 500 亿美元用于新建发电能力,才能仅仅支持数据中心。分析师还预计,到 2030 年,数据中心的电力消耗将推动每天约 33 亿立方英尺的新天然气需求。
训练使人工智能工厂准确高效的模型可能需要数万个 GPU,它们并行工作,持续数月。如果 GPU 在训练过程中出现故障,则必须停止运行,恢复到最近的检查点并重新开始。然而,随着人工智能工厂的复杂性不断提高,出现故障的可能性也在不断增加。拉马尼在一次人工智能基础设施规模化研讨会上谈到了这个问题。
“停止和重启非常痛苦。但更糟糕的是,随着 GPU 数量的增加,出现故障的可能性也在增加。在某个时刻,故障数量可能会变得如此之多,以至于我们花费太多时间来缓解这些故障,以至于你几乎无法完成一次训练运行。”
拉马尼表示,Meta 正在努力寻找短期方法来更早地检测故障,并更快地恢复运行。更长远来看,对异步训练的研究可能会提高容错能力,同时提高 GPU 利用率,并将训练运行分布到多个数据中心。
正如过去的工厂依靠新技术和组织模式来扩大商品生产规模一样,人工智能工厂依靠计算能力、网络基础设施和存储来生产令牌——人工智能模型使用的最小信息片段。
“这个人工智能工厂正在生成、创造、生产一些具有巨大价值的新商品,”英伟达首席执行官黄仁勋在 2024 年台北国际电脑展主题演讲中说。“它在几乎所有行业都完全可以互换。这就是为什么它是一场新的工业革命。”
麦肯锡表示,生成式人工智能有可能在 63 个不同的用例中创造相当于每年 2.6 万亿至 4.4 万亿美元的经济效益。在每个应用中,无论人工智能工厂是托管在云端、部署在边缘还是自管理,都需要克服与工业工厂相同的基础设施挑战。根据麦肯锡的同一份报告,到本世纪末,即使实现这一增长目标的四分之一,也需要从一开始就增加 50 到 60 兆瓦的数据中心容量。
但这种增长的结果将永远改变 IT 行业。黄仁勋解释说,人工智能工厂将使 IT 行业能够为价值 100 万亿美元的行业创造智能。“这将是一个制造业。不是制造计算机的制造业,而是利用计算机进行制造。这以前从未发生过。这是一件非凡的事情。”