“`html
Cornelis Networks CN500:AI 时代的网络基石
曾经,网络连接不过寥寥数台本地计算机。如今,在AI主导的世界里,训练大型语言模型需要协调数万甚至数十万服务器的协同工作,而这需要零延迟的通信。Cornelis Networks推出的CN500网络架构应运而生,它旨在解决这一难题。
CN500并非昙花一现。它与以太网和InfiniBand并驾齐驱,成为网络领域的第三大支柱。这项技术显著提升了AI和高性能计算(HPC)的效率,缩短了任务完成时间,并实现了更精准的预测。Cornelis声称,在HPC领域,CN500超越了2022年推出的InfiniBand NDR,消息传输速度提升一倍,延迟降低35%。在AI应用中,其通信速度更是以太网协议的六倍。
以太网曾是局域网(LAN)的代名词,依靠软件补丁维持着它的生命力。InfiniBand的出现固然是进步,但其设计初衷仍是连接少量本地设备。“这些技术诞生之初,与并行计算毫无关系,”Cornelis公司总裁兼首席运营官Philip Murphy说道。
数据中心的兴起迫切需要新的网络解决方案。由于不同系统使用不同的软件,资源共享成为难题,以太网和InfiniBand难以应对高峰期的巨大压力。“这催生了云计算的演进,”Murphy解释道。将云端CPU资源分配给不同的计算机甚至不同的组织,成为当时的主流解决方案。
然而,当数据中心先驱们致力于在单台服务器上运行更多应用时,Murphy和他的团队另辟蹊径:最大化单一应用的处理器数量。“这需要一个完全不同的网络解决方案,”他说道,而Cornelis正是提供了这样的方案。公司基于英特尔为超级计算应用(如气候模拟或药物设计分子交互模拟)开发的Omni-Path架构,实现了最大吞吐量和零数据包丢失。
畅通无阻的数据高速公路
AI模型训练需要在极高带宽下交换大量数据包。每毫秒的消息速率和延迟都至关重要。
网络中数据包共享面临的主要挑战是拥塞。Cornelis的动态自适应路由算法巧妙地绕过短暂的拥塞点,而其拥塞控制架构则规避“热门”目的地。“如果体育场有活动,我们都不想被堵在去体育场的路上,”Murphy形象地解释道。中央配速技术支撑了这一拥塞控制架构,交换机监控流量,并在拥塞发生时指示发送方减速,直至拥塞消散。“这就像控制高速公路入口处的车流,”他补充道。
另一个挑战是避免延迟。传统的以太网架构需要在终点拥有足够的内存。“如果我发信息给你,而你内存不足,你必须回过头来告诉我,”Murphy说道。这需要大量的缓冲区,难以扩展。Cornelis采用基于信用的流量控制算法,预先分配内存。“你无需回复,我就知道还能发送多少数据,”Murphy解释道。
最后,该系统能够应对GPU或链路故障。传统架构中,服务器宕机意味着应用崩溃,需要从最近的检查点重启——而创建检查点本身就需要大量的计算资源。“想象一下,每次保存文档都要等待20分钟,”Murphy说道。而Cornelis Networks的系统则能够在故障链路修复前继续运行应用,只是带宽略有下降,无需检查点。
高效的AI
CN5000产品是一款基于定制芯片的网卡,如同家用的以太网卡一样插入服务器。顶部机架交换机连接到每台服务器和其他交换机,而导向级交换机则拥有48或576个端口连接机架交换机。“每台服务器都插入网卡,因此可以构建数千个端点的集群,”Murphy说道。
Cornelis的主要客户是希望升级AI集群或加快HPC模拟速度的组织。他们通过Cornelis合作的三家原始设备制造商(OEM)完成升级,OEM采购网卡并将其插入服务器。
过去,神经网络模型训练是一次性任务。如今,训练多万亿参数的AI模型需要反复微调和更新。Cornelis预计将从中受益。“不采用AI,企业将被淘汰;低效地使用AI,企业同样会失败,”Murphy总结道,“我们的客户希望以最有效的方式采用AI。”
“`