颠覆传统:AI 模型不再依赖昂贵的英伟达 GPU?
2024 年 12 月,一家中国 AI 初创公司 DeepSeek 推出了 DeepSeek-V3,以远低于竞争对手 AI 模型的价格震惊了全球科技界。这款开源模型仅用两个月时间,耗资不到 600 万美元,在多个基准测试中超越了 OpenAI 和 Meta 的最新 AI 模型。几周后的 1 月 23 日,该公司又推出了 DeepSeek-R1,这款推理模型被定位为 OpenAI 的 o1 的直接竞争对手。
尽管一些人质疑 DeepSeek 的说法,但这一发展仍然挑战了长期以来人们认为构建复杂的 AI 模型需要数十亿美元和一支英伟达 GPU 军队的说法。它还引发了人们对价值 5000 亿美元的 Stargate 项目的质疑,该项目由 OpenAI、甲骨文、软银和 MGX 共同投资,旨在在美国建立大型数据中心。
DeepSeek 使用约 2000 个英伟达 H800 GPU 训练其模型,远少于主要参与者通常部署的数万个 GPU。通过专注于算法效率和开源协作,该公司以极低的成本实现了与 OpenAI 的 ChatGPT 相当的结果。
市场反应是即时的。英伟达的股价出现了历史性下跌,下跌近 17%,市值蒸发了约 6000 亿美元,创下了美国股市历史上单日最大跌幅。这场冲击波迫使许多人重新思考对大型 AI 基础设施支出的需求以及该行业对顶级硬件的依赖。
一些分析师认为,DeepSeek 的成功可能会使 AI 开发更容易获得,并大幅降低成本,从而重塑行业竞争格局。
你能在没有英伟达 GPU 的情况下运行 AI 和大型语言模型吗?
英伟达 H100 Tensor Core GPU(图片来源:英伟达)
答案很简单:是的,英伟达 GPU 并不是运行 AI 模型的唯一选择。虽然它们被广泛用于训练和部署复杂的机器学习模型,但其他替代方案也存在。例如,AMD GPU 提供了具有竞争力的性能,并且在 AI 研究和开发中越来越受欢迎。
除了传统的 GPU 之外,AI 模型还可以运行在 CPU、TPU(张量处理单元)、FPGA(现场可编程门阵列)甚至由苹果、谷歌和特斯拉等公司设计的定制 AI 加速器上。硬件的选择取决于模型的复杂性、速度要求、功耗和预算限制等因素。
对于大规模深度学习训练,英伟达 GPU 因其优化的软件生态系统而广受欢迎,包括 CUDA 和 cuDNN,它们与 TensorFlow 和 PyTorch 等框架无缝协作。但是,对于较小的任务、推理工作负载或节能部署,AMD ROCm、英特尔的 AI 加速器和谷歌的 TPU 等替代方案可能是可行的选择。
如果你正在开发 AI 模型,值得考虑最适合你需求的硬件,而不是仅仅因为英伟达是最知名的选择而默认选择它。
GPU 对于 AI 仍然重要吗?
DeepSeek 的突破引发了一个重要问题:AI 模型真的需要英伟达的 GPU 吗?如果不是,这对英伟达、AMD 和博通等公司意味着什么?简单来说,你并不一定需要英伟达 GPU——或者任何 GPU——来运行 AI 模型。Neural Magic 就是一个例子,这是一家 AI 初创公司,它正在使深度学习在没有专用硬件的情况下成为可能。
多年来,GPU 一直是训练深度学习模型的首选,但它们可能并非所有 AI 工作负载的必需品。更大的问题是,GPU 是否正在走向像今天的 CPU 一样普遍——以及英伟达是否会像思科一样,曾经在网络领域占据主导地位,但后来被竞争对手赶超。
没有简单的答案。虽然 GPU 对于高性能 AI 仍然至关重要,但效率的提高可能会改变平衡,使 AI 更加容易获得,而无需进行巨额的硬件投资。
CPU 与 GPU:有什么区别?
什么是 CPU?
CPU(中央处理器)是计算机操作的核心,它被设计为以逐步的方式处理任务。它被设计为灵活,使其非常适合运行操作系统、管理输入和输出以及处理一般的计算工作负载。凭借几个强大的核心,CPU 在顺序处理方面表现出色,但在需要同时进行大量计算时却很吃力。正如 Lifewire 指出,CPU 非常适合需要按顺序精确执行的任务,但它们没有针对现代 AI 模型所需的庞大并行处理进行优化。
什么是 GPU?
GPU(图形处理单元)最初是为渲染图形而设计的,但已成为 AI 开发的关键工具。与 CPU 不同,GPU 拥有数百甚至数千个更小的核心,可以同时处理多个计算。这种并行处理大量数据的的能力使其特别适用于机器学习和深度学习应用。Reddit 上的 AI 研究人员之间的讨论强调了 GPU 如何通过同时处理大量矩阵运算来使训练复杂模型更快、更高效。
为什么 AI 训练依赖于 GPU?
并行处理
训练 AI 模型——尤其是深度神经网络——涉及数百万甚至数十亿次计算。GPU 被设计为高效地处理这些工作负载,将它们分散到多个核心以加快处理速度。另一方面,CPU 需要一次处理每个步骤,导致训练时间更长。借助 GPU,训练速度更快,使研究人员和开发人员能够更快地迭代模型。
优化的 AI 框架
如今许多顶级的机器学习库,包括 TensorFlow 和 PyTorch,都是为了利用 GPU 加速而构建的。这些框架不仅受益于硬件本身,还附带了简化 AI 模型开发的内置工具。这是研究人员和公司倾向于大量投资基于 GPU 的设置的一个重要原因。
何时 GPU 可能不是必需的?
推理与训练
虽然 GPU 在训练 AI 模型中发挥着至关重要的作用,但它们并不总是需要在现实世界的应用程序中运行这些模型。一旦模型经过训练,它通常可以在 CPU 上进行预测,而不会出现明显的减速,尤其是在速度不是优先事项的情况下。对于轻量级任务,CPU 可能是更具成本效益和节能的选择。
早期开发阶段
如果你正在进行小型项目或只是进行实验,可能不需要高性能 GPU。许多云平台提供按需付费的 GPU 访问权限,使开发人员能够从 CPU 开始,并在需要时进行升级。在某些情况下,小型模型可以在 CPU 上运行,而不会出现重大性能问题,尽管执行时间可能会更慢。
替代硬件
除了 CPU 和 GPU 之外,还存在其他选择,例如张量处理单元 (TPU) 和专门的推理芯片。TPU 由谷歌开发,针对特定 AI 工作负载进行了优化,有时可以胜过 GPU。但是,它们需要独特的设置要求,因此大多数开发人员继续依赖 GPU 以获得灵活性。
成本和能效
GPU 功能强大,但也很昂贵,并且消耗大量能量。预算紧张或关注可持续性的公司可能需要权衡使用 GPU 的好处与坚持使用高性能 CPU 或混合方法。如果你的应用程序不需要大规模并行处理,CPU 可能是更实用的选择。
适合工作的正确硬件
GPU 是否必要取决于你的 AI 工作负载的性质:
- 训练大型 AI 模型 – 如果你正在处理海量数据集和复杂的神经网络,GPU 几乎是必不可少的。与 CPU 相比,速度提升可能非常显著。
- 运行预测 – 对于较小的模型和推理任务,CPU 通常可以处理工作负载,而不会出现明显的减速。
- 平衡预算和性能 – 如果成本或功耗是一个问题,CPU 和 GPU 的混合方法可能是最佳方法。
正确的选择取决于你的具体项目需求、性能目标和可用资源。AI 硬件决策将继续发展,但了解 CPU 和 GPU 的优势将帮助你为你的工作做出最佳决策。无论你从 CPU 开始还是全力投入 GPU,将硬件与项目的需要相匹配是获得最佳结果的关键。
以下是一段关于如何在自己的本地机器上运行大型语言模型的视频。