DeepSeek:颠覆格局的开源 AI 模型
DeepSeek,这个来自中国的公司,在 2024 年 12 月发布了两款开源大型语言模型 (LLM):DeepSeek-V3 和 DeepSeek-R1,并将其免费提供给所有人使用和修改。随后,在 1 月份,DeepSeek 推出了一个免费的聊天机器人应用程序,迅速蹿红,并登上了苹果应用商店的榜首。DeepSeek 模型卓越的性能,与来自 OpenAI 和 Anthropic 的顶级封闭 LLM 相媲美,引发了 1 月 27 日的股市暴跌,导致领先的 AI 股票市值蒸发了超过 6000 亿美元。
然而,开源 AI 模型的支持者对 DeepSeek 的发布表示热烈欢迎。目前,在 AI 社区平台 HuggingFace 上,已有超过 700 个基于 DeepSeek-V3 和 R1 的模型。总计下载量超过 500 万次。
Netflix 的高级研究科学家 Cameron R. Wolfe 表示,这种热情是合理的。“DeepSeek-V3 和 R1 确实接近了封闭模型的水平。此外,DeepSeek 能够在受到美国对英伟达芯片出口管制的情况下,在严格的硬件限制下开发出这样的模型,这令人印象深刻。”
DeepSeek-V3 的训练成本不到 600 万美元
正是第二点——由于 2022 年美国出口限制造成的硬件限制——突出了 DeepSeek 最令人惊讶的主张。该公司表示,DeepSeek-V3 模型的训练成本约为 560 万美元,使用的是英伟达的 H800 芯片。H800 是英伟达硬件的一个性能较低的版本,旨在通过美国出口禁令设定的标准。这项禁令旨在阻止中国公司训练顶级 LLM。(H800 芯片也在 2023 年 10 月被禁止。)
DeepSeek 通过一种名为“双管”并行算法,在性能较低的硬件上取得了令人印象深刻的成果,该算法旨在绕过英伟达 H800 的限制。它使用低级编程来精确控制训练任务的调度和批处理。该模型还使用了一种“专家混合”(MoE)架构,其中包含许多神经网络,即“专家”,它们可以独立激活。由于每个专家都更小、更专业,因此训练模型所需的内存更少,并且模型部署后的计算成本更低。
最终,DeepSeek-V3 诞生了,这是一个拥有 6710 亿个参数的大型语言模型。虽然 OpenAI 没有公开其尖端模型的参数,但据推测它们超过了 1 万亿。尽管如此,DeepSeek V3 还是在基准测试中取得了与 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet 相当或更好的分数。
DeepSeek-V3 并非该公司唯一的明星;它还发布了一个推理模型 DeepSeek-R1,具有类似于 OpenAI 的 o1 的链式思维推理能力。虽然 R1 并非第一个开源推理模型,但它比之前的模型(如阿里巴巴的 QwQ)更强大。与 DeepSeek-V3 一样,它也采用了非传统的方法来实现其成果。
大多数 LLM 的训练过程都包括监督微调 (SFT)。这种技术会对模型对提示的响应进行采样,然后由人类进行审查和标记。他们的评估会被反馈到训练中,以改进模型的响应。这种方法有效,但让人类审查和标记响应既耗时又昂贵。
DeepSeek 首先尝试忽略 SFT,而是依靠强化学习 (RL) 来训练 DeepSeek-R1-Zero。模型白皮书中描述了一个基于规则的奖励系统,旨在帮助 DeepSeek-R1-Zero 学习推理。但这种方法导致了一些问题,例如语言混合(在单个响应中使用多种语言),这使得其响应难以阅读。为了解决这个问题,DeepSeek-R1 使用了一种“冷启动”技术,该技术从一个只有几千个示例的小型 SFT 数据集开始。从那里开始,使用 RL 完成训练。Wolfe 称之为“一项非常重要的重大发现”。
将 DeepSeek 付诸实践
对于印度公司 Krutrim 的生成式 AI 应用程序高级总监 Rajkiran Panuganti 来说,DeepSeek 的进步不仅仅是学术性的。Krutrim 为客户提供 AI 服务,并使用过多个开源模型,包括 Meta 的 Llama 模型系列,来构建其产品和服务。Panuganti 表示,他“绝对”建议在未来的项目中使用 DeepSeek。
“早期的 Llama 模型是优秀的开源模型,但它们不适合解决复杂问题。有时,它们甚至无法回答简单的问题,例如草莓中字母‘r’出现了多少次,”Panuganti 说。他提醒说,DeepSeek 的模型并没有超越领先的封闭推理模型,例如 OpenAI 的 o1,对于最具挑战性的任务来说,后者可能更可取。然而,他表示 DeepSeek-R1 的成本“低了几个数量级”。
当然,前提是您要支付 DeepSeek 的 API 费用。虽然该公司提供了一个商业 API,对访问其模型收费,但它们也可以在宽松的许可下免费下载、使用和修改。
更棒的是,DeepSeek 提供了其主要模型的几个更小、更高效的版本,称为“蒸馏模型”。这些模型的参数更少,因此更容易在性能较低的设备上运行。YouTuber Jeff Geerling 已经演示了 DeepSeek R1 在树莓派上的运行。流行的 LLM 本地运行界面,例如 Ollama,已经支持 DeepSeek R1。我在一台配备 16GB 内存的 Mac Mini M4 上运行 DeepSeek-R1-7B(第二小的蒸馏模型),不到 10 分钟就完成了。
从“开源”到真正的开源
虽然 DeepSeek 是“开源”的,但一些细节仍然隐藏在幕后。DeepSeek 没有公开用于训练其模型的数据集或训练代码。
这是开源社区的一个争议点。大多数“开源”模型只提供运行或微调模型所需的模型权重。完整的训练数据集以及训练中使用的代码仍然隐藏着。开源倡议组织的负责人 Stefano Maffulli 在社交媒体上多次批评 Meta,称其将 Llama 模型标记为开源是一个“令人发指的谎言”。
DeepSeek 的模型也同样不透明,但 HuggingFace 正在努力解开这个谜团。1 月 28 日,HuggingFace 宣布了 Open-R1,这是一项旨在创建 DeepSeek-R1 的完全开源版本的努力。
“强化学习是出了名的棘手,微小的实现差异会导致重大的性能差距,”HuggingFace 的 AI 研究工程师 Elie Bakouch 说。重新生成 DeepSeek 数据集的计算成本(这是复制模型所必需的)也将非常高。然而,Bakouch 表示 HuggingFace 拥有一个“科学集群”,应该能够胜任这项任务。研究人员和工程师可以在 HuggingFace 和 Github 上跟踪 Open-R1 的进展。
然而,无论 Open-R1 是否成功,Bakouch 表示 DeepSeek 的影响远远超出了开源 AI 社区。“这种兴奋不仅仅存在于开源社区,而是无处不在。研究人员、工程师、公司,甚至非技术人员都在关注,”他说。