
微软公司于2025年11月12日正式启用其位于美国佐治亚州亚特兰大的第二座Fairwater人工智能数据中心,此举标志着该公司建立了其所谓的全球首个“AI超级工厂”——一个由相互连接的设施组成的网络,旨在作为一个巨大的超级计算机运行。亚特兰大站点已于10月开始运营,它与微软在威斯康星州的首个Fairwater设施共同构成了一个分布式计算网络,该网络能够同时在数十万个图形处理单元(GPU)上训练AI模型。
这一声明发布之际,科技行业正加速基础设施支出,以满足对人工智能能力激增的需求。微软报告称,仅在2026财年第一季度,其资本支出就高达349亿美元。与微软发布消息的同一天,人工智能公司Anthropic也披露了其在德克萨斯州和纽约州数据中心计算基础设施上高达500亿美元的投资,这突显了AI基础设施竞赛的激烈程度。
互联架构赋能分布式训练
与传统独立运作的数据中心不同,Fairwater站点通过专用的AI广域网互联,该网络在过去一年中部署了长达12万英里的光纤电缆。这种高速连接使得这些设施能够协调大规模的AI工作负载,通过将计算任务分拆到地理位置分散的区域,从而能够训练拥有数百万亿参数的模型,这在单一设施内是无法实现的。
微软Azure基础设施部门总经理Alistair Speirs指出:“这关乎构建一个分布式网络,使其能够作为一个虚拟超级计算机来应对全球最大的挑战,而这些挑战是单一设施无法解决的。”
亚特兰大设施采用两层设计,旨在最大化GPU密度同时最小化延迟。该中心配备了Nvidia GB200 NVL72机架规模系统,搭载Blackwell GPU,为大型语言模型推理提供高达前代芯片30倍的性能。每个机架包含多达72个GPU,通过NVLink技术互联,每个GPU提供1.8太字节的带宽和14太字节的池化内存。
可持续性与电源管理创新
该设施整合了先进的闭环液冷系统,在运行中几乎不消耗水,其初始注水量仅相当于20个美国家庭一年的用水量,且只有在水质化学指标显示需要时,才会在六年或更长时间后进行更换。微软还设计了新颖的电源管理解决方案,通过高度可用的电网供电并放弃传统的备用发电机,实现了公司所称的“3个9的成本获得4个9的可用性”。
该网络将支持来自OpenAI、微软AI超级智能团队及其Copilot产品线以及其他AI开发者的工作负载。微软近期延长了与OpenAI的合作关系,增加了2500亿美元的Azure承诺,并获得了直至2030年的独家API使用权。
尽管基础设施投入巨大,但这项推动引发了人们对大规模AI支出能否产生相应回报的担忧,一些分析师质疑到本十年末达到3万亿至4万亿美元投资的可持续性。尽管微软股价在过去一年中上涨了超过19%,但在周三宣布后,其股价下跌了1%以上。
