订阅我们的每日和每周新闻通讯,获取有关行业领先人工智能报道的最新更新和独家内容。了解更多
上周,当中国人工智能初创公司 DeepSeek 宣布其最新语言模型时,人工智能世界为之震惊。该模型似乎以极低的成本与领先的美国人工智能系统的能力相匹配。这一宣布引发了广泛的市场抛售,导致英伟达市值蒸发了近 2000 亿美元,并引发了关于人工智能发展未来的激烈辩论。
迅速出现的叙述表明,DeepSeek 从根本上颠覆了构建先进人工智能系统的经济学,据称仅用 600 万美元就实现了美国公司花费数十亿美元才能实现的目标。这种解释给硅谷带来了冲击波,OpenAI、Anthropic 和谷歌等公司一直将巨额的计算基础设施投资视为维持其技术优势的必要条件。
但在市场动荡和耸人听闻的标题中,Anthropic 的联合创始人兼当今大型语言模型的先驱研究人员之一 Dario Amodei 发布了一份详细分析,对 DeepSeek 的成就提供了更细致入微的视角。他的博客文章消除了歇斯底里的情绪,提供了关于 DeepSeek 实际取得的成就及其对人工智能发展未来的意义的几个关键见解。
以下是 Amodei 分析中的四个关键见解,它们重塑了我们对 DeepSeek 宣布的理解:
1. “600 万美元模型”的叙述忽略了关键的背景
根据 Amodei 的说法,DeepSeek 的报告开发成本需要从更广阔的角度来看。在他的分析中,他直接挑战了流行的解释:
“DeepSeek 并没有‘用 600 万美元做到美国人工智能公司花费数十亿美元才能做到的事情’。我只能说 Anthropic,但 Claude 3.5 Sonnet 是一个中等规模的模型,训练成本为数千万美元(我不会给出确切的数字)。此外,3.5 Sonnet 的训练方式与任何更大或更昂贵的模型无关(与一些传言相反)。”
这一惊人的发现从根本上改变了围绕 DeepSeek 成本效率的叙述。考虑到 Sonnet 是 9-12 个月前训练的,并且在许多任务上仍然优于 DeepSeek 的模型,这一成就似乎更符合人工智能开发成本的自然发展趋势,而不是革命性的突破。
时间和背景也至关重要。遵循人工智能开发成本降低的历史趋势——Amodei 估计每年约为 4 倍——DeepSeek 的成本结构似乎很大程度上符合趋势,而不是远远领先于曲线。
虽然市场和媒体高度关注 DeepSeek 的 R1 模型,但 Amodei 指出,该公司更重要的创新出现在更早的时候:
“DeepSeek-V3 实际上是真正的创新,应该让人们在一个月前就注意到它(我们当然注意到了)。作为一个预训练模型,它似乎在一些重要任务上的性能接近美国最先进的模型,而训练成本却低得多。”
V3 和 R1 之间的区别对于理解 DeepSeek 的真正技术进步至关重要。V3 代表了真正的工程创新,特别是在管理模型的“键值缓存”和突破“专家混合”方法的界限方面。
这一见解有助于解释为什么市场对 R1 的戏剧性反应可能是错误的。R1 本质上是在 V3 的基础上添加了强化学习功能——这是多个公司目前正在对其模型进行的步骤。
也许 Amodei 分析中最具启示性的方面是 DeepSeek 在人工智能开发方面的总体投资:
“据报道——我们无法确定这是真的——DeepSeek 实际上拥有 50,000 个 Hopper 生成芯片,我估计这与美国主要人工智能公司的数量相差约 2-3 倍。这 50,000 个 Hopper 芯片的成本约为 10 亿美元。因此,DeepSeek 作为一家公司的总支出(与训练单个模型的支出不同)与美国人工智能实验室的支出并没有太大区别。”
这一发现极大地重塑了围绕 DeepSeek 资源效率的叙述。虽然该公司可能在单个模型训练方面取得了令人印象深刻的成果,但其在人工智能开发方面的总体投资似乎与其美国同行大致相当。
模型训练成本与公司总投资之间的区别突出了人工智能开发中持续的巨额资源的重要性。这表明,虽然可以提高工程效率,但要在人工智能领域保持竞争力仍然需要大量的资本投资。
Amodei 将人工智能开发的当前时刻描述为独特但短暂的:
“因此,我们正处于一个有趣的‘交叉点’,在这个点上,几家公司暂时可以生产出良好的推理模型。随着每个人在这些模型上进一步扩展,这种情况将迅速不再成立。”
这一观察为理解人工智能竞争的现状提供了重要的背景。多家公司能够在推理能力方面取得类似成果,这是一种暂时的现象,而不是新的现状。
对人工智能发展的意义重大。随着公司继续扩展其模型,特别是在资源密集型强化学习领域,该领域可能会再次根据谁能够在训练和基础设施方面投入最多来进行区分。这表明,虽然 DeepSeek 取得了令人印象深刻的里程碑,但它并没有从根本上改变先进人工智能开发的长期经济学。
Dario 对 DeepSeek 成就的详细分析消除了数周的市场猜测,揭示了构建先进人工智能系统的实际经济学。他的博客文章系统地拆除了 DeepSeek 宣布后出现的恐慌和热情,展示了该公司 600 万美元的模型训练成本如何符合人工智能发展的稳步前进。
市场和媒体倾向于简单的叙述,而一家中国公司大幅降低美国人工智能开发成本的故事证明了其不可抗拒的魅力。然而,Amodei 的分析揭示了一个更复杂的现实:DeepSeek 的总投资,特别是其报告的 10 亿美元计算硬件投资,反映了其美国同行的支出。
美国和中国人工智能开发之间的成本均等时刻标志着 Amodei 所谓的“交叉点”——一个多个公司可以取得类似成果的短暂窗口。他的分析表明,随着人工智能能力的提升和训练需求的增加,这个窗口将会关闭。该领域可能会再次倾向于拥有最深厚资源的组织。
构建先进的人工智能仍然是一项昂贵的任务,Amodei 的仔细检查表明,衡量其真实成本需要考察投资的全部范围。他对 DeepSeek 成就的细致入微的解构最终可能比最初引发市场如此动荡的公告更重要。