前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

开源人工智能的 DeepSeek 意义

NEXTECH
Last updated: 2025年2月1日 上午6:57
By NEXTECH
Share
23 Min Read
SHARE

close-up-of-a-hand-holding-a-smartphone-

Contents
DeepSeek:颠覆格局的开源 AI 模型DeepSeek-V3 的训练成本不到 600 万美元将 DeepSeek 付诸实践从“开源”到真正的开源

DeepSeek:颠覆格局的开源 AI 模型

DeepSeek,这个来自中国的公司,在 2024 年 12 月发布了两款开源大型语言模型 (LLM):DeepSeek-V3 和 DeepSeek-R1,并将其免费提供给所有人使用和修改。随后,在 1 月份,DeepSeek 推出了一个免费的聊天机器人应用程序,迅速蹿红,并登上了苹果应用商店的榜首。DeepSeek 模型卓越的性能,与来自 OpenAI 和 Anthropic 的顶级封闭 LLM 相媲美,引发了 1 月 27 日的股市暴跌,导致领先的 AI 股票市值蒸发了超过 6000 亿美元。

然而,开源 AI 模型的支持者对 DeepSeek 的发布表示热烈欢迎。目前,在 AI 社区平台 HuggingFace 上,已有超过 700 个基于 DeepSeek-V3 和 R1 的模型。总计下载量超过 500 万次。

Netflix 的高级研究科学家 Cameron R. Wolfe 表示,这种热情是合理的。“DeepSeek-V3 和 R1 确实接近了封闭模型的水平。此外,DeepSeek 能够在受到美国对英伟达芯片出口管制的情况下,在严格的硬件限制下开发出这样的模型,这令人印象深刻。”

DeepSeek-V3 的训练成本不到 600 万美元

正是第二点——由于 2022 年美国出口限制造成的硬件限制——突出了 DeepSeek 最令人惊讶的主张。该公司表示,DeepSeek-V3 模型的训练成本约为 560 万美元,使用的是英伟达的 H800 芯片。H800 是英伟达硬件的一个性能较低的版本,旨在通过美国出口禁令设定的标准。这项禁令旨在阻止中国公司训练顶级 LLM。(H800 芯片也在 2023 年 10 月被禁止。)

DeepSeek 通过一种名为“双管”并行算法,在性能较低的硬件上取得了令人印象深刻的成果,该算法旨在绕过英伟达 H800 的限制。它使用低级编程来精确控制训练任务的调度和批处理。该模型还使用了一种“专家混合”(MoE)架构,其中包含许多神经网络,即“专家”,它们可以独立激活。由于每个专家都更小、更专业,因此训练模型所需的内存更少,并且模型部署后的计算成本更低。

You Might Also Like

机器人:未来之路
能源行业或将迎来挑战
Hugging Face的小模型VLM大幅降低企业AI成本
生成式AI让机器狗学会探索新环境

最终,DeepSeek-V3 诞生了,这是一个拥有 6710 亿个参数的大型语言模型。虽然 OpenAI 没有公开其尖端模型的参数,但据推测它们超过了 1 万亿。尽管如此,DeepSeek V3 还是在基准测试中取得了与 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet 相当或更好的分数。

DeepSeek-V3 并非该公司唯一的明星;它还发布了一个推理模型 DeepSeek-R1,具有类似于 OpenAI 的 o1 的链式思维推理能力。虽然 R1 并非第一个开源推理模型,但它比之前的模型(如阿里巴巴的 QwQ)更强大。与 DeepSeek-V3 一样,它也采用了非传统的方法来实现其成果。

大多数 LLM 的训练过程都包括监督微调 (SFT)。这种技术会对模型对提示的响应进行采样,然后由人类进行审查和标记。他们的评估会被反馈到训练中,以改进模型的响应。这种方法有效,但让人类审查和标记响应既耗时又昂贵。

DeepSeek 首先尝试忽略 SFT,而是依靠强化学习 (RL) 来训练 DeepSeek-R1-Zero。模型白皮书中描述了一个基于规则的奖励系统,旨在帮助 DeepSeek-R1-Zero 学习推理。但这种方法导致了一些问题,例如语言混合(在单个响应中使用多种语言),这使得其响应难以阅读。为了解决这个问题,DeepSeek-R1 使用了一种“冷启动”技术,该技术从一个只有几千个示例的小型 SFT 数据集开始。从那里开始,使用 RL 完成训练。Wolfe 称之为“一项非常重要的重大发现”。

将 DeepSeek 付诸实践

对于印度公司 Krutrim 的生成式 AI 应用程序高级总监 Rajkiran Panuganti 来说,DeepSeek 的进步不仅仅是学术性的。Krutrim 为客户提供 AI 服务,并使用过多个开源模型,包括 Meta 的 Llama 模型系列,来构建其产品和服务。Panuganti 表示,他“绝对”建议在未来的项目中使用 DeepSeek。

“早期的 Llama 模型是优秀的开源模型,但它们不适合解决复杂问题。有时,它们甚至无法回答简单的问题,例如草莓中字母‘r’出现了多少次,”Panuganti 说。他提醒说,DeepSeek 的模型并没有超越领先的封闭推理模型,例如 OpenAI 的 o1,对于最具挑战性的任务来说,后者可能更可取。然而,他表示 DeepSeek-R1 的成本“低了几个数量级”。

当然,前提是您要支付 DeepSeek 的 API 费用。虽然该公司提供了一个商业 API,对访问其模型收费,但它们也可以在宽松的许可下免费下载、使用和修改。

更棒的是,DeepSeek 提供了其主要模型的几个更小、更高效的版本,称为“蒸馏模型”。这些模型的参数更少,因此更容易在性能较低的设备上运行。YouTuber Jeff Geerling 已经演示了 DeepSeek R1 在树莓派上的运行。流行的 LLM 本地运行界面,例如 Ollama,已经支持 DeepSeek R1。我在一台配备 16GB 内存的 Mac Mini M4 上运行 DeepSeek-R1-7B(第二小的蒸馏模型),不到 10 分钟就完成了。

从“开源”到真正的开源

虽然 DeepSeek 是“开源”的,但一些细节仍然隐藏在幕后。DeepSeek 没有公开用于训练其模型的数据集或训练代码。

这是开源社区的一个争议点。大多数“开源”模型只提供运行或微调模型所需的模型权重。完整的训练数据集以及训练中使用的代码仍然隐藏着。开源倡议组织的负责人 Stefano Maffulli 在社交媒体上多次批评 Meta,称其将 Llama 模型标记为开源是一个“令人发指的谎言”。

DeepSeek 的模型也同样不透明,但 HuggingFace 正在努力解开这个谜团。1 月 28 日,HuggingFace 宣布了 Open-R1,这是一项旨在创建 DeepSeek-R1 的完全开源版本的努力。

“强化学习是出了名的棘手,微小的实现差异会导致重大的性能差距,”HuggingFace 的 AI 研究工程师 Elie Bakouch 说。重新生成 DeepSeek 数据集的计算成本(这是复制模型所必需的)也将非常高。然而,Bakouch 表示 HuggingFace 拥有一个“科学集群”,应该能够胜任这项任务。研究人员和工程师可以在 HuggingFace 和 Github 上跟踪 Open-R1 的进展。

然而,无论 Open-R1 是否成功,Bakouch 表示 DeepSeek 的影响远远超出了开源 AI 社区。“这种兴奋不仅仅存在于开源社区,而是无处不在。研究人员、工程师、公司,甚至非技术人员都在关注,”他说。

Share This Article
Email Copy Link Print
Previous Article 202501291026511225667169.jpeg Unitree H1:那是来时的路——春晚机器人扭秧歌的科技之旅
Next Article Floki DAO 全票通过为 Floki ETP 提供流动性
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20250615055208179.jpg
TrendForce:2025年第一季度DRAM产业营收为270.1亿美元
报告
20250615055008648.jpg
TrendForce:2025年第一季前五大NAND Flash品牌厂营收合计120.2亿美元
报告
20250615054814759.jpg
TrendForce:2025年第一季全球晶圆代工产业营收364亿美元 季减约5.4%
报告
20250615054612788.jpg
TrendForce:需求升温促使2Q25 Server与PC DDR4模组合约价涨幅扩大
报告

相关内容

AI

Ndea自进化AI:突破瓶颈,超越英伟达

2025年3月24日
AI

2025年最高薪编程语言

2025年4月4日
AI

苹果发布深度Pro:AI重塑3D视觉

2024年10月6日
大型语言模型的应用不仅限于技术层面,它还逐步改变了科研的方式。
AI

大型语言模型如何革新科研方法

2024年11月22日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?