AI芯片加速器新纪元

订阅我们的每日和每周新闻通讯，获取最新的行业领先人工智能报道和独家内容。了解更多

数据中心是互联网的幕后英雄。无论是 Netflix 还是 Google，所有主要公司都利用数据中心及其所承载的计算机系统，为最终用户提供数字服务。随着企业将重点转向先进的人工智能工作负载，数据中心传统的以 CPU 为中心的服务器正在通过集成新的专用芯片或“协处理器”来增强。

这些协处理器的核心思想是引入一种附加组件，以增强服务器的计算能力。这使它们能够处理人工智能训练、推理、数据库加速和网络功能等工作负载的计算需求。在过去几年中，以英伟达为首的 GPU 由于其能够以无与伦比的速度处理大量数据，一直是协处理器的首选。根据 Futurum Group 的一项研究，由于需求增加，GPU 在去年占数据中心内为人工智能用例提供动力的协处理器的 74%。

根据该研究，GPU 的主导地位预计只会增强，该类别收入将以每年 30% 的速度增长，到 2028 年将达到 1020 亿美元。但事实是：虽然 GPU 凭借其并行处理架构，成为加速各种大规模人工智能工作负载（如训练和运行大型万亿参数语言模型或基因组测序）的强大伴侣，但其总拥有成本可能非常高。例如，英伟达的旗舰 GB200“超级芯片”将 Grace CPU 与两个 B200 GPU 相结合，预计售价在 60,000 美元到 70,000 美元之间。一台配备 36 个这种超级芯片的服务器估计要花费约 200 万美元。

虽然这在某些情况下（如大型项目）可能有效，但并非适合每家公司。许多企业 IT 管理员希望整合新技术来支持选定的低到中强度人工智能工作负载，重点关注总拥有成本、可扩展性和集成。毕竟，大多数人工智能模型（深度学习网络、神经网络、大型语言模型等）都处于成熟阶段，需求正在转向人工智能推理和增强特定工作负载（如图像识别、推荐系统或目标识别）的性能，同时保持效率。

这正是芯片制造商、初创公司和云提供商正在构建的专用人工智能处理器和加速器新兴领域发挥作用的地方。

人工智能处理器和加速器本质上是位于服务器 CPU 生态系统中的芯片，专注于特定的人工智能功能。它们通常围绕三种关键架构：专用集成电路 (ASIC)、现场可编程门阵列 (FPGA) 以及最新的神经处理单元 (NPU) 创新。

ASIC 和 FPGA 已经存在了一段时间，可编程性是两者之间的唯一区别。ASIC 是从头开始为特定任务（可能与人工智能相关，也可能不相关）定制构建的，而 FPGA 可以在后期重新配置以实现自定义逻辑。NPU 则通过充当专门的硬件来区分两者，该硬件只能加速人工智能/机器学习工作负载，如神经网络推理和训练。

“加速器往往能够单独执行任何功能，有时通过晶圆级或多芯片 ASIC 设计，它们能够处理几种不同的应用程序。NPU 是专用芯片（通常是系统的一部分）的一个很好的例子，它可以处理许多矩阵数学和神经网络用例，以及使用更少功率的各种推理任务，”Futurum 集团首席执行官丹尼尔·纽曼告诉 VentureBeat。

最棒的是，加速器，尤其是为特定应用程序构建的 ASIC 和 NPU，在成本和功耗方面可能比 GPU 更有效。

“GPU 设计主要集中在算术逻辑单元 (ALU) 上，以便它们可以同时执行数千次计算，而人工智能加速器设计主要集中在张量处理核心 (TPC) 或单元上。一般来说，人工智能加速器的性能与 GPU 的性能相比，是基于该设计的固定功能，”IBM 云和行业平台总经理罗希特·巴德拉尼告诉 VentureBeat。

目前，IBM 采用混合云方法，在其堆栈中使用多个 GPU 和人工智能加速器（包括英伟达和英特尔的提供），为企业提供选择，以满足其独特工作负载和应用程序的需求，同时实现高性能和效率。

“我们的全栈解决方案旨在帮助改变企业、开发人员和开源社区构建和利用生成式人工智能的方式。人工智能加速器是我们认为对希望部署生成式人工智能的客户非常有益的众多产品之一，”巴德拉尼说。他补充说，虽然 GPU 系统最适合大型模型训练和微调，但有许多人工智能任务加速器可以同样出色地处理，而且成本更低。

例如，IBM 云虚拟服务器使用英特尔的 Gaudi 3 加速器，该加速器配备了专门为推理和高内存需求设计的自定义软件堆栈。该公司还计划通过多个系统的小型集群，将该加速器用于微调和小型训练工作负载。

“人工智能加速器和 GPU 可以有效地用于一些类似的工作负载，例如 LLM 和扩散模型（如 Stable Diffusion 的图像生成）到标准目标识别、分类和语音配音。但是，人工智能加速器和 GPU 之间的优势和差异完全取决于硬件提供商的设计。例如，Gaudi 3 人工智能加速器旨在提供计算、内存带宽和基于架构的能效方面的显著提升，”巴德拉尼解释说。

他说，这直接转化为性价比优势。

除了英特尔之外，其他人工智能加速器也引起了市场的关注。这不仅包括为公共云提供商（如 Google、AWS 和 Microsoft）构建的定制芯片，还包括来自初创公司（如 Groq、Graphcore、SambaNova Systems 和 Cerebras Systems）的专用产品（在某些情况下为 NPU）。它们都在各自的领域脱颖而出，在不同领域挑战 GPU。

在一个案例中，Tractable 是一家开发人工智能来分析财产和车辆损坏以进行保险索赔的公司，能够利用 Graphcore 的智能处理单元-POD 系统（一种专门的 NPU 产品）来实现与他们一直在使用的 GPU 相比的显著性能提升。

“我们看到了大约 5 倍的速度提升，”Tractable 的联合创始人兼首席技术官拉兹万·兰卡在一篇博文中写道。“这意味着研究人员现在可以运行可能多五倍的实验，这意味着我们加速了整个研究和开发过程，最终在我们的产品中获得了更好的模型。”

在某些情况下，人工智能处理器也为训练工作负载提供动力。例如，Aleph Alpha 数据中心的人工智能超级计算机正在使用 Cerebras CS-3，该系统由该初创公司第三代晶圆级引擎提供支持，拥有 900,000 个人工智能核心，来构建下一代主权人工智能模型。甚至 Google 最近推出的定制 ASIC TPU v5p 也在推动 Salesforce 和 Lightricks 等公司的一些人工智能训练工作负载。

现在已经确定，除了 GPU 之外，还有许多人工智能处理器可以加速人工智能工作负载，尤其是推理，问题是：IT 管理员如何选择最佳的投资选项？其中一些芯片可能能够以高效率提供良好的性能，但由于其架构，它们在可以处理的人工智能任务类型方面可能受到限制。其他芯片可能做得更多，但与 GPU 相比，TCO 的差异可能并不那么大。

由于答案因芯片的设计而异，VentureBeat 采访的所有专家都建议，选择应基于要处理的工作负载的规模和类型、数据、持续迭代/更改的可能性以及成本和可用性需求。

根据 Sustainable Metal Cloud 的首席技术官丹尼尔·卡尼的说法，该公司帮助企业进行人工智能训练和推理，企业还必须运行基准测试以测试性价比优势，并确保他们的团队熟悉支持相应人工智能加速器的更广泛的软件生态系统。

“虽然详细的工作负载信息可能不会提前轻易获得，或者可能不足以支持决策，但建议通过代表性工作负载、真实世界测试和可用的同行评审的真实世界信息进行基准测试和测试，以提供数据驱动的方法来选择适合特定工作负载的人工智能加速器。这种前期调查可以节省大量时间和金钱，特别是对于大型且昂贵的训练工作而言，”他建议道。

在全球范围内，随着推理工作的增长，人工智能硬件（包括人工智能芯片、加速器和 GPU）的总市场预计将以每年 30% 的速度增长，到 2028 年将达到 1380 亿美元。