英伟达(Nvidia)在人工智能领域的统治地位几乎无人能及。这家成立于 1993 年的公司,在个人电脑图形处理单元 (GPU) 的新兴领域崭露头角。然而,正是英伟达的 AI 芯片,而非 PC 图形硬件,使其一跃成为全球市值最高的公司之一。事实证明,英伟达的 GPU 在 AI 领域同样出色。因此,英伟达的股价较 2020 年初上涨了 15 倍以上;收入从 2019 财年的约 120 亿美元暴增至 2024 年的 600 亿美元;而这家 AI 领域巨头的尖端芯片与沙漠中的水一样稀缺和抢手。
获得 GPU 已经成为 AI 研究人员的巨大困扰,以至于他们在日常工作中每天都会考虑这个问题,因为没有它们,他们就无法尽情享受研究的乐趣,即使他们拥有最好的模型。谷歌 DeepMind 的 AI 数据主管珍妮弗·普莱德基 (Jennifer Prendki) 说道。普莱德基对英伟达的依赖程度低于大多数人,因为谷歌拥有自己的 AI 基础设施。然而,微软和亚马逊等科技巨头是英伟达最大的客户,它们继续以尽可能快的速度购买英伟达的 GPU。据媒体报道,美国司法部正在对此展开反垄断调查。
英伟达在 AI 领域的统治地位,就像机器学习的爆炸式发展一样,是近期才出现的现象。但它根植于公司几十年来将 GPU 打造成通用计算硬件的努力,这种硬件不仅可以渲染图形,还可以用于多种任务。这项努力不仅涉及公司 GPU 架构的演进,其中包括专门用于加速 AI 工作负载的“张量核心”,而且还包括至关重要的软件平台,即 CUDA,以帮助开发者利用硬件优势。
“他们确保每个从大学毕业的计算机科学专业学生都接受过 CUDA 编程的培训,”摩尔洞察与战略 (Moor Insights & Strategy) 的数据中心首席分析师马特·金博尔 (Matt Kimball) 表示。“他们提供工具和培训,并且在研究方面投入了巨额资金。”
CUDA 于 2006 年发布,帮助开发者利用英伟达 GPU 的众多核心。事实证明,这对加速高度并行的计算任务至关重要,包括现代生成式 AI。英伟达在构建 CUDA 生态系统方面的成功,使其硬件成为 AI 开发的首选。英伟达芯片可能供不应求,但比 AI 硬件更难找到的是经验丰富的 AI 开发人员,而其中许多人都熟悉 CUDA。
这为英伟达提供了一道深厚而宽阔的护城河,用于保护其业务,但这并不意味着它缺乏准备进攻的竞争对手,而且他们的战术各不相同。虽然 AMD 和英特尔等有着悠久历史的公司正试图利用自己的 GPU 与英伟达抗衡,但 Cerebras 和 SambaNova 等新兴公司则开发了彻底改善了生成式 AI 训练和推理效率的芯片架构。这些是最有可能挑战英伟达的竞争对手。
虽然英伟达部署了多种类型的 GPU,但数据中心中使用的重型武器是 H100 和 H200。到 2024 年底,它们将加入 B200,后者在每个 GPU 的性能方面几乎是 H100 的四倍。
来源:英伟达,Llama2-70B 的 MLPerf 推理 v4.1 结果
AMD:另一个 GPU 制造商
优点:AMD GPU 是英伟达的强有力替代方案
缺点:软件生态系统无法与英伟达的 CUDA 相抗衡
AMD 在图形芯片领域与英伟达对抗了近二十年。有时,这是一场一边倒的战斗。在图形方面,AMD 的 GPU 在销量或影响力方面很少能打败英伟达。尽管如此,AMD 的硬件仍有其优势。该公司拥有广泛的 GPU 产品组合,从笔记本电脑的集成显卡到拥有超过 1500 亿个晶体管的 AI 导向数据中心 GPU。该公司也是高带宽内存 (HBM) 的早期支持者和采用者,这种内存形式现已成为全球最先进 GPU 的必备组件。
“如果你看看硬件……它的性能与英伟达比起来毫不逊色,”金博尔在谈到 AMD 的 Instinct MI325X 时说,MI325X 是英伟达 H100 的竞争对手。“AMD 在芯片布局方面做得非常出色。”
预计 MI325X 将在年底发布,它拥有超过 1500 亿个晶体管和 288 GB 的高带宽内存,但实际性能还有待观察。MI325X 的前身 MI300X 获得了微软的赞赏,微软部署了 AMD 硬件,包括 MI300X,用于处理一些 ChatGPT 3.5 和 4 服务。Meta 和戴尔也部署了 MI300X,Meta 在其最新的大型语言模型 Llama 3.1 的部分开发中也使用了该芯片。
AMD 面前还有一道需要跨越的门槛:软件。AMD 提供了一个开源平台 ROCm,帮助开发者为其 GPU 编写程序,但其普及程度不及 CUDA。AMD 意识到这一点,并在 2024 年 7 月同意收购欧洲最大的私营 AI 实验室 Silo AI,该公司拥有使用 ROCm 和 AMD 硬件进行大规模 AI 训练的经验。AMD 还计划收购专注于数据中心基础设施的 ZT Systems,帮助该公司为寻求大规模部署其硬件的客户提供服务。构建 CUDA 的竞争对手并非易事,但 AMD 显然正在努力。
英特尔:软件成功
优点:Gaudi 3 AI 加速器表现出色
缺点:下一代 AI 芯片要到 2025 年底才会发布
英特尔的挑战与 AMD 相反。
虽然英特尔没有完全与英伟达的 CUDA 和 AMD 的 ROCm 相匹敌,但它在 2018 年推出了一个开源统一编程平台 OneAPI。与 CUDA 和 ROCm 不同,OneAPI 涵盖了多种硬件类别,包括 CPU、GPU 和 FPGA。因此,它可以帮助开发者在任何英特尔硬件上加速 AI 任务(以及许多其他任务)。“英特尔拥有一个非常强大的软件生态系统,可以轻松开启,”金博尔表示。
另一方面,硬件是一个弱点,至少与英伟达和 AMD 相比。英特尔的 Gaudi AI 加速器是英特尔在 2019 年收购 AI 硬件初创公司 Habana Labs 的成果,它取得了进展,最新一代 Gaudi 3 的性能与英伟达的 H100 相当。
然而,目前尚不清楚英特尔的下一代硬件将是什么样子,这引起了人们的担忧。“Gaudi 3 非常强大,”摩尔洞察与战略的创始人帕特里克·摩尔黑德 (Patrick Moorhead) 表示。但截至 2024 年 7 月,“还没有 Gaudi 4,”他表示。
英特尔计划转向一款名为 Falcon Shores 的雄心勃勃的芯片,它采用基于模块化的瓦片式架构,将英特尔 x86 CPU 内核和 Xe GPU 内核整合在一起;后者是英特尔最近进军图形硬件领域的产物。然而,英特尔尚未透露关于 Falcon Shores 架构和性能的详细信息,而且它要到 2025 年底才会发布。
Cerebras:越大越好
优点:晶圆级芯片在每个芯片上提供强劲的性能和内存
缺点:由于尺寸和成本,应用范围有限
毫无疑问,AMD 和英特尔是英伟达最可靠的挑战者。它们都拥有设计成功芯片和构建与其配套的编程平台的历史。但在规模较小、经验不足的玩家中,有一家公司脱颖而出:Cerebras。
该公司专门为超级计算机提供 AI,并在 2019 年凭借晶圆级引擎 (Wafer Scale Engine) 掀起了一阵波澜,这是一个巨大的晶圆尺寸硅片,集成了 1.2 万亿个晶体管。最新一代晶圆级引擎 3 将这一数字提高到了 4 万亿个晶体管。相比之下,英伟达最大且最新的 GPU B200 只有“区区”2080 亿个晶体管。围绕这个晶圆级巨兽打造的计算机,即 Cerebras 的 CS-3,是 Condor Galaxy 3 的核心,后者将是一个由 64 个 CS-3 组成的 8 亿亿次浮点运算 AI 超级计算机。总部位于阿布扎比的集团 G42 将拥有该系统,该公司希望训练未来的尖端大型语言模型。
“它的应用范围更窄,通用性不如其他芯片,”伯恩斯坦研究的资深分析师史黛西·拉斯根 (Stacy Rasgon) 表示。“并非所有人都能买得起 [这些计算机]。但它们有客户,比如 [美国] 国防部和 [Condor Galaxy 3] 超级计算机。”
Cerebras 的 WSC-3 不会在大多数情况下挑战英伟达、AMD 或英特尔硬件;它太大、太贵,而且太专业。但它可能会让 Cerebras 在超级计算机领域获得独特的优势,因为没有其他公司在 WSE 的规模上设计芯片。
SambaNova:为 Transformer 量身定制的变压器
优点:可配置的架构有助于开发人员从 AI 模型中榨取效率
缺点:硬件仍需向大众市场证明其相关性
成立于 2017 年的 SambaNova 是一家芯片设计公司,它采用非传统的芯片架构来处理 AI 训练。其旗舰产品 SN40L 拥有该公司称之为“可重构数据流架构”的架构,由内存和计算资源的模块组成。这些模块之间的连接可以动态更改,以促进大型神经网络数据的快速移动。
普莱德基相信这种可定制的硅片可能对训练大型语言模型很有用,因为 AI 开发人员可以优化硬件以适应不同的模型。她说,没有其他公司提供这种功能。
SambaNova 还凭借 SambaFlow 取得了成功,SambaFlow 是与 SN40L 配合使用的软件栈。“在基础设施层面,SambaNova 在平台方面做得很好,”摩尔黑德表示。SambaFlow 可以分析机器学习模型,并帮助开发人员重新配置 SN40L 以提高模型的性能。SambaNova 还需要证明很多东西,但其客户包括软银和亚德诺半导体 (Analog Devices)。
Groq:形式与功能
优点:出色的 AI 推理性能
缺点:目前应用仅限于推理
Groq 是另一家在 AI 硬件方面独树一帜的公司。Groq 的方法侧重于紧密地将内存和计算资源配对,以提高大型语言模型响应提示的速度。
“他们的架构非常注重内存。内存与处理器紧密耦合。你需要更多节点,但每个标记的价格和性能都非常惊人,”摩尔黑德表示。“标记”是模型处理的基本数据单位;在 LLM 中,它通常是一个单词或单词的一部分。他说,Groq 的性能更令人印象深刻,因为它名为语言处理单元推理引擎 (Language Processing Unit Inference Engine) 的芯片是使用 GlobalFoundries 的 14 纳米技术制造的,比制造英伟达 H100 的台积电 (TSMC) 技术落后了好几代。
在 7 月,Groq 展示了其芯片的推理速度,它可以超过每秒 1250 个标记,运行 Meta 的 Llama 3 80 亿参数 LLM。这甚至超过了 SambaNova 的演示,后者可以超过每秒 1000 个标记。
高通:实力至上
优点:拥有广泛的 AI 功能芯片
缺点:缺乏用于 AI 训练的大型尖端芯片
高通以 Snapdragon 系统级芯片 (SoC) 而闻名,该芯片为三星 Galaxy S24 Ultra 和 OnePlus 12 等流行的 Android 手机提供动力,是一家能够与 AMD、英特尔和英伟达比肩的巨头。
但与这些同行不同,该公司将 AI 战略更多地集中在 AI 推理和特定任务的能效上。AI 基准测试组织 MLCommons 的创始成员兼 Krai 首席执行官安东·洛赫莫托夫 (Anton Lokhmotov) 表示,高通在重要的基准测试中显著提高了 Qualcomm Cloud AI 100 服务器的推理性能。这些服务器在 ResNet-50(一种图像分类基准)上的性能从 180 个样本每瓦提高到 240 个样本每瓦,而“服务器硬件基本相同”,洛赫莫托夫指出。
洛赫莫托夫表示,高效的 AI 推理对于需要在本地处理 AI 任务而无需访问云的设备来说也是一项福音。以微软的 Copilot Plus PC 为例。微软和高通与戴尔、惠普和联想等笔记本电脑制造商合作,首批搭载高通芯片的 Copilot Plus 笔记本电脑于 7 月上市。高通在智能手机和平板电脑领域也处于领先地位,其 Snapdragon 芯片为三星、一加和摩托罗拉等众多品牌的设备供电。
高通在驾驶辅助和自动驾驶平台的 AI 领域也占据着重要的地位。2024 年初,现代的 Mobius 部门宣布与高通合作,在其 Snapdragon Ride 平台上(英伟达 Drive 平台的竞争对手)使用先进的驾驶辅助系统。
超大规模企业:定制的大脑和强壮的肌肉
优点:垂直整合专注于设计
缺点:超大规模企业可能会优先考虑自己的需求和用途
超大规模企业(以大规模部署硬件的云计算巨头)是科技巨头的代名词。亚马逊、苹果、谷歌、Meta 和微软都希望尽可能快地部署 AI 硬件,无论是为了自己使用还是为了满足其云计算客户的需求,为此,它们都在内部设计芯片。
谷歌比其竞争对手更早开始投资 AI 处理器:这家搜索巨头的张量处理单元 (TPU) 首次发布是在 2015 年,现在为其大多数 AI 基础设施提供动力。第六代 TPU Trillium 于 5 月宣布,是谷歌 AI 超级计算机的一部分,这是一项面向希望处理 AI 任务的公司的云服务。
普莱德基表示,谷歌的 TPU 让该公司在追求 AI 机会方面具有优势。“我很幸运,在获取芯片方面不用花费太多心思,”她表示。尽管如此,访问 TPU 并没有完全消除供应短缺问题,因为谷歌的不同部门仍然需要共享资源。
谷歌不再是孤军奋战。亚马逊有两款内部芯片,Trainium 和 Inferentia,分别用于训练和推理。微软拥有 Maia,Meta 拥有 MTIA,苹果据称正在开发用于其云基础设施中的 AI 任务的芯片。
这些芯片都没有直接与英伟达竞争,因为超大规模企业不向客户出售硬件。但它们确实通过云服务出售对硬件的访问权限,例如谷歌的 AI 超级计算机、亚马逊的 AWS 和微软的 Azure。在许多情况下,超大规模企业提供在其内部硬件上运行的服务,作为与英伟达、AMD 和英特尔硬件上运行的服务并行的选项;据认为,微软是英伟达最大的客户。
David Plunkert
中国芯片:前途未卜
另一类竞争对手的诞生并非源于技术需求,而是地缘政治现实。美国对 AI 硬件出口实施了限制,禁止芯片制造商将他们最新、最强大的芯片出售给中国公司。作为回应,中国公司正在设计国产 AI 芯片。
华为是领头羊。该公司设计的 Ascend 910B AI 加速器旨在替代英伟达的 H100,目前正在由中芯国际 (SMIC) 生产,这是一家总部位于上海的代工厂,部分由中国政府所有。然而,据报道,中芯国际的良率问题导致了供应受限。华为还销售一种“AI 一体机”解决方案,旨在为希望在本地构建自己的 AI 基础设施的中国公司提供服务。
为了绕过美国的出口管制规定,中国工业可能会转向替代技术。例如,中国研究人员在光子芯片方面取得了进展,光子芯片使用光而不是电荷来进行计算。“光束的优势在于你可以将一个 [光束] 与另一个 [光束] 交叉,”普莱德基表示。“因此,它减少了你在硅芯片上通常会遇到的限制,因为你在硅芯片上无法交叉路径。你可以以更低的成本将电路设计得更加复杂。”光子芯片仍处于起步阶段,但中国对该领域的投资可能会加速其发展。
还有更多空间
很明显,英伟达并不缺乏竞争对手。同样明显的是,在未来几年,他们中没有一家能够挑战——更不用说击败——英伟达。本文采访的所有受访者都一致认为,英伟达目前的统治地位是无与伦比的,但这并不意味着它会永远挤压竞争对手。
“听着,市场需要选择,”摩尔黑德表示。“我无法想象 AMD 不会拥有 10% 或 20% 的市场份额,英特尔也是如此,如果我们展望 2026 年。通常情况下,市场喜欢三家公司,而我们现在就有三家实力相当的竞争对手。”金博尔表示,与此同时,超大规模企业可能会在将更多 AI 服务迁移到内部硬件时挑战英伟达。
然后还有其他变量。Cerebras、SambaNova 和 Groq 只是众多希望凭借新颖解决方案啃食英伟达市场份额的初创公司中的领导者。还有数十家其他公司,包括 d-Matrix、Untether、Tenstorrent 和 Etched,它们都将希望寄托在针对生成式 AI 优化的全新芯片架构上。这些初创公司中很可能会有许多失败,但也许下一个英伟达将从幸存者中脱颖而出。