AI 时代的数据中心:时间的新纪元
人工智能正在彻底改变数据中心,从全新的 AI 专用芯片到创新的冷却技术,再到新型存储驱动器,无不体现着 AI 的强大影响力。而现在,甚至连数据中心的时间计量方式也开始发生革命性的变化。SiTime 公司宣布研发出一种针对 AI 工作负载优化的全新时钟,这将为 AI 训练和推理带来显著的节能和成本降低。
SiTime 能够实现这些节能效果的关键在于,他们采用了微机电系统 (MEMS) 作为核心计时组件,取代了传统的石英晶体。几乎所有计算机组件都包含某种时钟,包括 CPU、GPU、网络接口卡、交换机,甚至有时还包括主动互连。对于传统的计算工作负载,这些时钟通常分为两类:快速、精确计时时钟,以及跨多个 GPU(或 CPU)同步良好的时钟。More Than Moore 的首席分析师 Ian Cutress(与 SiTime 合作)解释道。
“AI 的问题在于它同时需要这两者,”Cutress 说,“你希望芯片运行得尽可能快,但同时又需要在 10 万个芯片之间实现同步。”
SiTime 的 Super-TCXO 时钟将超稳定和同步良好的时钟功能整合到一个单一设备中,在 800 千兆比特每秒的带宽下,其同步性能是同类石英组件的三倍,而且芯片尺寸只有原来的四分之一。
更精确的计时,更节能的 AI
AI 就像一个数据吞噬者,昂贵且耗电的 GPU 却有高达 57% 的时间处于闲置状态,等待着下一批数据的到来。如果数据能够更快地提供,那么 GPU 的使用量就可以减少,效率也会更高。
“你需要更快的带宽,而更快的带宽需要更精确的计时,”SiTime 营销执行副总裁 Piyush Sevalia 说。
此外,Cutress 指出,如果 GPU 在等待更多数据加载时能够进入休眠模式,也能节省大量电力。这同样需要更精确的计时,以便休眠-唤醒循环能够快速地跟上数据流。
对于 AI 来说,时钟不仅需要更精确,还需要在多个 GPU 之间完美同步。大型 AI 模型将任务分配给多个 GPU,每个 GPU 完成一小部分计算,然后将结果拼接在一起。如果一个 GPU 落后于其他 GPU,整个计算就必须等待该节点。换句话说,计算速度取决于最慢的环节。所有 GPU 在等待时都保持开启状态,因此任何延迟都会导致能量损失。
MEMS 时钟的时代
计时必须精确、同步良好且稳健,任何机械振动或温度波动都必须得到补偿,以确保它们不会影响计算。SiTime 的 Super-TCXO 旨在将这三个要求整合到一个单一设备中。
Sevalia 表示,使用 MEMS 振荡器而不是传统的石英振荡器使得这种组合成为可能。石英振荡器利用的是精密加工的石英晶体(类似于音叉)的振动。而 MEMS 振荡器则是制造出来的,而不是加工出来的,以在特定频率下共振。MEMS 器件可以更小,因此对机械应变的敏感度更低。它们也可以更精确。
“晶体振荡器从计算诞生之初就存在,”HotTech Vision & Analysis 的总裁兼首席分析师 Dave Altavilla(也与 SiTime 合作)说,“自问世以来,我们已经显著地改进了这项技术。但 MEMS 将其提升到了一个新的高度,超越了晶体所能达到的水平。我认为,这项新技术正在取代市场上旧的计时方式。”
SiTime 基于 MEMS 的解决方案已经取得了一些成功,例如英伟达的 Spectrum-X Switch 芯片就包含了 SiTime 的器件。
Sevalia 表示,他预计对基于 MEMS 的计时器件的需求将持续增长。该公司已经在规划更高带宽的器件,并希望他们的创新能够带来更多节能效益。“我们现在只是触及了表面,我们正在探索能够实现的节能效率,”Sevalia 说。