DeepSeek 的 R1 模型:AI 发展的新方向?
近日,中国 AI 新创公司 DeepSeek 推出的 R1 模型引发了业界广泛关注,甚至让英伟达 (Nvidia) 遭遇了史上最大单日跌幅,市值蒸发近 6000 亿美元。R1 模型的出现,让投资者对 AI 芯片支出可持续性产生了疑问,并导致美国科技市场市值蒸发约 1 万亿美元。
尽管如此,英伟达对 DeepSeek 的 R1 模型却给予了高度评价。英伟达发言人表示:“DeepSeek 是 AI 领域的一项重大突破,也是‘测试时扩展’ (Test Time Scaling) 的完美案例。DeepSeek 的工作展示了如何利用这种技术,利用广泛可用的模型和完全符合出口管制的计算能力来创建新模型。”
R1 模型是一个开源推理系统,据报道其性能超越了 OpenAI 等美国公司的最佳成果。更令人瞩目的是,其训练成本仅为 600 万美元,远低于硅谷巨头在 AI 开发上的数十亿美元投入。
英伟达的“双赢”
英伟达似乎将 DeepSeek 的创新视为其 GPU 业务的胜利。英伟达发言人补充道:“推理需要大量的英伟达 GPU 和高性能网络。” 这表明这些模型高度依赖英伟达的技术。
DeepSeek 使用英伟达 GPU 的做法并非没有争议。Scale AI 首席执行官 Alexandr Wang 最近暗示 DeepSeek 使用了中国大陆禁售的 GPU。然而,英伟达反驳了这一说法,称所使用的 GPU 是专门针对中国市场定制的符合出口管制的版本。
AI 投资的未来
DeepSeek 的成本效益突破让分析师质疑微软、谷歌和 Meta 等公司在 AI 基础设施上的巨额投资。微软最近宣布计划在 2025 年投入 800 亿美元用于 AI 基础设施,而 Meta 首席执行官马克·扎克伯格也透露,预计在同一年投入 600-650 亿美元用于 AI 相关支出。
美国银行证券分析师贾斯汀·波斯特指出:“如果模型训练成本大幅降低,我们预计广告、旅游和其他使用云 AI 服务的消费类应用程序等行业将获得短期成本效益。” 然而,他警告说,这种进步最终可能会降低与超大规模 AI 基础设施相关的长期收入和成本。
AI 发展的转变
英伟达的言论也反映了 AI 发展方式的更广泛转变。对 GPU 的大部分需求都源于 2020 年 OpenAI 研究人员提出的“扩展定律”。该理论认为,通过在训练过程中大幅增加计算能力和数据,可以获得更好的 AI 模型,从而对更多 GPU 产生需求。
自去年 11 月以来,英伟达首席执行官黄仁勋和 OpenAI 首席执行官山姆·奥特曼等行业领袖一直在讨论一种名为“测试时扩展”的新方法。这种方法认为,已经训练好的模型可以通过在推理过程中使用额外的计算能力来增强推理能力,从而获得更好的结果。
DeepSeek 的 R1 模型是这一原则的典范,它利用测试时扩展来实现与投入远高于其的模型相媲美甚至超越的性能水平。这种方法也存在于 OpenAI 的一些系统中,它为行业指明了一条潜在的道路,在这个道路上,效率和成本效益在 AI 创新中发挥着更大的作用。
随着市场消化这些发展,AI 基础设施投资的未来可能取决于性能突破与不断上升的计算扩展成本之间的平衡。