GPU rentals allow small companies to access high-performance A.I. chips for specific projects. Igor Omilaev/Unsplash
GPU 租赁:AI 时代的“云端算力”
随着 OpenAI 和 Meta 等科技巨头为其 AI 模型疯狂抢购 GPU,这些高性能芯片变得越来越难获得。在芯片短缺的背景下,一批初创公司正在通过 GPU 租赁的方式,为更多人提供使用这些“珍贵”芯片的机会。
GPU 租赁市场是 GPU 即服务 (GPU-as-a-service) 的一个分支。在这个市场中,芯片所有者通过云平台,将他们的算力出租给客户,并按时间计费。传统上,企业会选择亚马逊云科技 (AWS)、微软 Azure 和谷歌云等大型云服务提供商,这些公司占据了全球云计算市场 63% 的份额,并在自己的数据中心运行 AI 工作负载。
然而,GPU 即服务提供了一种更加去中心化的方式。在这个领域中的服务提供商与全球各地的数据中心和 GPU 所有者合作,根据客户的需求,随时租用他们的芯片集群。新泽西理工学院数据科学研究所所长 David Bader 表示,这种租赁模式让预算紧张的企业,例如初创公司和学术机构,能够在特定项目中使用高性能 GPU。
“GPU 即服务在 AI 和高性能计算领域极大地平衡了竞争环境,”Bader 告诉 Observer。“企业不再需要进行大量的前期硬件投资,这些硬件很快就会贬值并过时。现在,他们可以按需访问 GPU 算力。”
即使 GPU 供应链的限制开始缓解,租赁市场仍在不断增长。根据 Grand View Research 的数据,GPU 即服务市场在 2023 年的价值为 37.9 亿美元,预计到 2030 年将以 21.5% 的年增长率增长至 122.6 亿美元,这得益于对高级数据分析(例如运行机器学习算法)的需求不断增长。
生成式 AI 催生了 GPU 租赁的热潮
自 2022 年 11 月 ChatGPT 发布以来,一些 GPU 租赁领域的初创公司见证了需求的激增,因为企业正在寻找算力来构建自己的 AI 模型。
Vast.ai 的创始人兼首席执行官 Jake Cannell 表示,在生成式 AI 兴起之前,他的公司客户主要是加密货币矿工。如今,Vast.ai 上超过一半的 GPU 租赁项目都与 AI 相关。客户包括 AI 企业家、初创公司和学术机构,他们使用 OpenAI 的 GPT 等基础模型构建自定义大型语言模型,并在 AI 相关工作负载(例如 AI 图像生成器 Stable Diffusion)上部署 LLM,Cannell 说。
ChatGPT 的发布,加上对大型云服务提供商的高需求和 GPU 短缺,促使更多客户寻找替代方案,这在一定程度上加速了对 Vast.ai GPU 租赁的需求,Cannell 说。“现在生产已经赶上来了,这种情况可能有所缓解,但需求仍然很高,并且还在增长。”
英伟达 (NVDA) 首席执行官 Jensen Huang 最近表示,对英伟达新款 Blackwell 芯片的需求“疯狂”,该公司计划在 2026 年之前提高 Blackwell 的产量。英伟达占据了约 90% 的 GPU 市场份额。
Vast.ai 成立于 2017 年,它提供了一个在线市场,将英伟达和 AMD 的 GPU 集群所有者与希望租用算力的组织联系起来。Cannell 表示,截至 10 月下旬,该市场提供了 109 个 GPU 集群,包括英伟达流行的 H100 芯片,这些集群位于遍布美国、欧洲、亚洲和澳大利亚的数据中心,以及一些所有者的车库中。
Vast.ai 通过提供不同容量、速度和系统要求的 GPU 集群,并提供不同的租赁时间,旨在为租户提供灵活选择,让他们能够根据特定项目的需求选择所需的 GPU,并根据需要进行扩展。例如,一个开发 AI 聊天机器人的客户可能最初租用 100 个 GPU 来训练他们的模型。如果他们的产品取得成功,客户可以租用数千个 GPU 来提高他们的计算能力。该公司声称,这种在产品开发的不同阶段访问不同数量的计算能力的灵活性,是 GPU 租赁比购买芯片更具吸引力的原因。
“只有当你对 GPU 有非常长期的、稳定的需求时,购买才会有意义,”Cannell 说。“只有像 OpenAI 这样的超级计算中心才能做到这一点。”
虽然像 Vast.ai 这样的初创公司在 ChatGPT 发布之前就已经成立,并且正在看到兴趣的增长,但随着 ChatGPT 的发布,新的初创公司也涌现出来,以利用不断增长的 GPU 租赁市场。
Foundry 是一个专门为 AI 工作负载构建的 GPU 市场,该公司声称自 8 月推出其云平台以来,已经吸引了“数十”家客户,并且可以通过利用现有芯片的剩余电力供应来大幅降低计算成本,首席执行官 Jared Quincy Davis 说。
这家初创公司截至 3 月从红杉资本和 Lightspeed Ventures 等投资者那里筹集了 8000 万美元,它通过该公司拥有的计算集群和从与数据中心的合作关系中获得的“未充分利用的集群”来出租 GPU。
Foundry 的客户包括科技、电信、媒体和医疗保健行业的公司。基金会和学术实验室也使用 Foundry 的服务。常见的用例包括微调 Meta 的 Llama 等模型以表现出理想的特性,从头开始构建神经网络,以及执行情感分析(一种用于分析文本以确定其情感基调的深度学习技术)。Foundry 甚至有客户租用 GPU 来预测药物发现的蛋白质序列,训练模型来翻译罕见的语言,以及构建能够在没有人工干预的情况下控制网站的 AI 代理。
“以前只有 OpenAI 和 DeepMind 等实验室才能进行的许多尖端开发,现在其他人也可以通过 Foundry 实现,因为 Foundry 使 GPU 计算变得更加容易获得和负担得起,”Davis 告诉 Observer。Davis 曾在谷歌 DeepMind 担任工程师。
一些组织正在看到 GPU 租赁带来的好处。新泽西理工学院的教授 Bader 表示,他看到他的大学使用 GPU 租赁方法为“关键活动”(如研究和开发)“释放资源”。他声称,GPU 租赁模式非常适合具有“临时”或“季节性”计算需求的项目,并且“消除了”昂贵的硬件管理和维护的负担。Bader 说,他还看到大学合作的小型企业能够访问与大型企业相同的 GPU 算力。
“我见证了无数初创公司从中受益,”Bader 说。“他们不再需要数百万美元的前期投资来购买专用硬件。相反,他们可以使用租用的 GPU 对算法进行原型设计、测试和迭代,确保资金用于开发而不是基础设施。”
GPU 租赁可能无法长期节省太多资金
然而,Bader 指出,与购买 GPU 相比,GPU 租赁也有一些权衡。
共享基础设施上的性能可能不一致,如果出现服务中断,可能会减慢 AI 模型训练等任务的执行速度。尽管前期成本节省,但 GPU 租赁最终可能会变得很昂贵。根据 Bader 的说法,在云和公司之间传输数据的成本可能会“迅速增加”,对于需要实时处理的工作负载,持续遇到延迟问题的客户最终可能会比拥有 GPU 时花费更多。对基础设施缺乏控制对于具有严格安全和合规协议的公司来说也可能“有问题”。
GPU 租赁市场的未来也可能取决于芯片行业的演变。毕竟,像亚马逊云科技这样的主要云服务提供商预计将继续扩展其产品线,并且可能会吸收规模较小的公司,这可能会在短期内降低价格,并在长期内限制消费者的选择,Bader 说。此外,供应链延迟可能会让云巨头更难获得 GPU。
尽管存在这些担忧,但接受 Observer 采访的初创公司仍然相信,随着 AI 的不断发展,未来几年仍然需要他们的服务。Vast.ai 继续改进其 GPU 撮合服务,并更多地直接参与 LLM 推理等用例,尤其是针对 AI 代理。Foundry 计划发布更多功能,以提高其平台的可访问性,并使其对 AI 开发人员构建高级模型更有用。
“英伟达仍然是领导者,我认为这种情况不会在一夜之间改变,但竞争越来越激烈,”Vast.ai 首席执行官 Cannnell 说。