订阅我们的每日和每周新闻简报,获取有关行业领先人工智能报道的最新更新和独家内容。了解更多
谷歌刚刚发布了其第六代人工智能加速器芯片Trillium,声称其性能改进将从根本上改变人工智能开发的经济效益,同时突破机器学习的可能性边界。
这款定制处理器为谷歌新发布的Gemini 2.0人工智能模型的训练提供了动力,其训练性能是其前代产品的四倍,同时能耗显著降低。这一突破正值科技公司竞相构建越来越复杂的人工智能系统之时,这些系统需要巨大的计算资源。
“TPU为Gemini 2.0的训练和推理提供了100%的动力,”谷歌首席执行官桑达尔·皮查伊在宣布该芯片在公司人工智能战略中所起核心作用的公告文章中解释道。部署规模前所未有:谷歌在一个单一的网络结构中连接了超过10万个Trillium芯片,创造了世界上最强大的人工智能超级计算机之一。
Trillium的规格在多个维度上都取得了重大进步。与前代产品相比,该芯片的每个芯片的峰值计算性能提高了4.7倍,同时高带宽内存容量和芯片间互连带宽都翻了一番。也许最重要的是,它实现了67%的能效提升——这是一个至关重要的指标,因为数据中心正在努力应对人工智能训练带来的巨大电力需求。
“在训练Llama-2-70B模型时,我们的测试表明,Trillium从一个4切片Trillium-256芯片舱到一个36切片Trillium-256芯片舱实现了近乎线性的扩展,扩展效率为99%,”谷歌云计算和人工智能基础设施副总裁马克·洛迈尔表示。考虑到这种规模的分布式计算通常面临的挑战,这种级别的扩展效率尤其引人注目。
Trillium的商业影响力超越了原始性能指标。谷歌声称,与上一代产品相比,该芯片的训练性能每美元提高了2.5倍,有可能重塑人工智能开发的经济效益。
这种成本效益对于开发大型语言模型的企业和初创公司来说可能尤其重要。Trillium的早期客户AI21 Labs已经报告了显著的改进。“规模、速度和成本效益方面的进步意义重大,”AI21 Labs首席技术官巴拉克·伦茨在公告中指出。
谷歌在其人工智能超级计算机架构中部署Trillium,展示了该公司对人工智能基础设施的集成方法。该系统将超过10万个Trillium芯片与能够实现每秒13拍比特双向带宽的木星网络结构相结合,使单个分布式训练作业能够扩展到数十万个加速器。
“闪存使用量的增长超过了900%,这真是令人难以置信,”谷歌人工智能工作室团队的产品经理洛根·基尔帕特里克在开发者大会上指出,强调了对人工智能计算资源的快速增长需求。
Trillium的发布加剧了人工智能硬件领域的竞争,英伟达凭借其基于GPU的解决方案占据主导地位。虽然英伟达的芯片仍然是许多人工智能应用的行业标准,但谷歌的定制硅方案可以为特定工作负载提供优势,尤其是在训练非常大型的模型方面。
行业分析师认为,谷歌在定制芯片开发方面的大量投资反映了其对人工智能基础设施日益重要的战略性押注。该公司决定向云客户提供Trillium,表明其希望在云人工智能市场中更积极地竞争,在该市场中,它面临着来自微软Azure和亚马逊网络服务的激烈竞争。
Trillium功能的影响力超越了直接的性能提升。该芯片能够高效地处理混合工作负载——从训练大型模型到运行生产应用程序的推理——表明人工智能计算将变得更加容易获得和经济实惠。
对于更广泛的科技行业来说,Trillium的发布表明人工智能硬件霸主之争正在进入一个新的阶段。随着公司不断突破人工智能的可能性边界,能够大规模设计和部署专用硬件将成为越来越重要的竞争优势。
“我们仍然处于人工智能可能性的早期阶段,”谷歌DeepMind首席执行官德米斯·哈萨比斯在公司博客文章中写道。“拥有合适的基础设施——包括硬件和软件——对于我们继续突破人工智能的界限至关重要。”
随着行业向能够自主行动并在多种信息模式中进行推理的更复杂的人工智能模型发展,对底层硬件的需求只会增加。凭借Trillium,谷歌已经表明,它打算继续站在这场演变的最前沿,投资于将推动下一代人工智能进步的基础设施。