前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

开源人工智能的 DeepSeek 意义

洞察2025年1月31日· 5 分钟阅读15 阅读

DeepSeek:颠覆格局的开源 AI 模型 DeepSeek,这个来自中国的公司,在 2024 年 12 月 […]

close-up-of-a-hand-holding-a-smartphone-

DeepSeek:颠覆格局的开源 AI 模型

DeepSeek,这个来自中国的公司,在 2024 年 12 月发布了两款开源大型语言模型 (LLM):DeepSeek-V3 和 DeepSeek-R1,并将其免费提供给所有人使用和修改。随后,在 1 月份,DeepSeek 推出了一个免费的聊天机器人应用程序,迅速蹿红,并登上了苹果应用商店的榜首。DeepSeek 模型卓越的性能,与来自 OpenAI 和 Anthropic 的顶级封闭 LLM 相媲美,引发了 1 月 27 日的股市暴跌,导致领先的 AI 股票市值蒸发了超过 6000 亿美元。

然而,开源 AI 模型的支持者对 DeepSeek 的发布表示热烈欢迎。目前,在 AI 社区平台 HuggingFace 上,已有超过 700 个基于 DeepSeek-V3 和 R1 的模型。总计下载量超过 500 万次。

Netflix 的高级研究科学家 Cameron R. Wolfe 表示,这种热情是合理的。“DeepSeek-V3 和 R1 确实接近了封闭模型的水平。此外,DeepSeek 能够在受到美国对英伟达芯片出口管制的情况下,在严格的硬件限制下开发出这样的模型,这令人印象深刻。”

DeepSeek-V3 的训练成本不到 600 万美元

正是第二点——由于 2022 年美国出口限制造成的硬件限制——突出了 DeepSeek 最令人惊讶的主张。该公司表示,DeepSeek-V3 模型的训练成本约为 560 万美元,使用的是英伟达的 H800 芯片。H800 是英伟达硬件的一个性能较低的版本,旨在通过美国出口禁令设定的标准。这项禁令旨在阻止中国公司训练顶级 LLM。(H800 芯片也在 2023 年 10 月被禁止。)

DeepSeek 通过一种名为“双管”并行算法,在性能较低的硬件上取得了令人印象深刻的成果,该算法旨在绕过英伟达 H800 的限制。它使用低级编程来精确控制训练任务的调度和批处理。该模型还使用了一种“专家混合”(MoE)架构,其中包含许多神经网络,即“专家”,它们可以独立激活。由于每个专家都更小、更专业,因此训练模型所需的内存更少,并且模型部署后的计算成本更低。

最终,DeepSeek-V3 诞生了,这是一个拥有 6710 亿个参数的大型语言模型。虽然 OpenAI 没有公开其尖端模型的参数,但据推测它们超过了 1 万亿。尽管如此,DeepSeek V3 还是在基准测试中取得了与 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet 相当或更好的分数。

DeepSeek-V3 并非该公司唯一的明星;它还发布了一个推理模型 DeepSeek-R1,具有类似于 OpenAI 的 o1 的链式思维推理能力。虽然 R1 并非第一个开源推理模型,但它比之前的模型(如阿里巴巴的 QwQ)更强大。与 DeepSeek-V3 一样,它也采用了非传统的方法来实现其成果。

大多数 LLM 的训练过程都包括监督微调 (SFT)。这种技术会对模型对提示的响应进行采样,然后由人类进行审查和标记。他们的评估会被反馈到训练中,以改进模型的响应。这种方法有效,但让人类审查和标记响应既耗时又昂贵。

DeepSeek 首先尝试忽略 SFT,而是依靠强化学习 (RL) 来训练 DeepSeek-R1-Zero。模型白皮书中描述了一个基于规则的奖励系统,旨在帮助 DeepSeek-R1-Zero 学习推理。但这种方法导致了一些问题,例如语言混合(在单个响应中使用多种语言),这使得其响应难以阅读。为了解决这个问题,DeepSeek-R1 使用了一种“冷启动”技术,该技术从一个只有几千个示例的小型 SFT 数据集开始。从那里开始,使用 RL 完成训练。Wolfe 称之为“一项非常重要的重大发现”。

将 DeepSeek 付诸实践

对于印度公司 Krutrim 的生成式 AI 应用程序高级总监 Rajkiran Panuganti 来说,DeepSeek 的进步不仅仅是学术性的。Krutrim 为客户提供 AI 服务,并使用过多个开源模型,包括 Meta 的 Llama 模型系列,来构建其产品和服务。Panuganti 表示,他“绝对”建议在未来的项目中使用 DeepSeek。

“早期的 Llama 模型是优秀的开源模型,但它们不适合解决复杂问题。有时,它们甚至无法回答简单的问题,例如草莓中字母‘r’出现了多少次,”Panuganti 说。他提醒说,DeepSeek 的模型并没有超越领先的封闭推理模型,例如 OpenAI 的 o1,对于最具挑战性的任务来说,后者可能更可取。然而,他表示 DeepSeek-R1 的成本“低了几个数量级”。

当然,前提是您要支付 DeepSeek 的 API 费用。虽然该公司提供了一个商业 API,对访问其模型收费,但它们也可以在宽松的许可下免费下载、使用和修改。

更棒的是,DeepSeek 提供了其主要模型的几个更小、更高效的版本,称为“蒸馏模型”。这些模型的参数更少,因此更容易在性能较低的设备上运行。YouTuber Jeff Geerling 已经演示了 DeepSeek R1 在树莓派上的运行。流行的 LLM 本地运行界面,例如 Ollama,已经支持 DeepSeek R1。我在一台配备 16GB 内存的 Mac Mini M4 上运行 DeepSeek-R1-7B(第二小的蒸馏模型),不到 10 分钟就完成了。

从“开源”到真正的开源

虽然 DeepSeek 是“开源”的,但一些细节仍然隐藏在幕后。DeepSeek 没有公开用于训练其模型的数据集或训练代码。

这是开源社区的一个争议点。大多数“开源”模型只提供运行或微调模型所需的模型权重。完整的训练数据集以及训练中使用的代码仍然隐藏着。开源倡议组织的负责人 Stefano Maffulli 在社交媒体上多次批评 Meta,称其将 Llama 模型标记为开源是一个“令人发指的谎言”。

DeepSeek 的模型也同样不透明,但 HuggingFace 正在努力解开这个谜团。1 月 28 日,HuggingFace 宣布了 Open-R1,这是一项旨在创建 DeepSeek-R1 的完全开源版本的努力。

“强化学习是出了名的棘手,微小的实现差异会导致重大的性能差距,”HuggingFace 的 AI 研究工程师 Elie Bakouch 说。重新生成 DeepSeek 数据集的计算成本(这是复制模型所必需的)也将非常高。然而,Bakouch 表示 HuggingFace 拥有一个“科学集群”,应该能够胜任这项任务。研究人员和工程师可以在 HuggingFace 和 Github 上跟踪 Open-R1 的进展。

然而,无论 Open-R1 是否成功,Bakouch 表示 DeepSeek 的影响远远超出了开源 AI 社区。“这种兴奋不仅仅存在于开源社区,而是无处不在。研究人员、工程师、公司,甚至非技术人员都在关注,”他说。

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

中国拒批Nvidia降级游戏显卡
TOP1

中国拒批Nvidia降级游戏显卡

Qwen3.7-Max 重新定义 AI Agent 基座
TOP2

Qwen3.7-Max 重新定义 AI Agent 基座

3

谷歌三星联合发布AI智能眼镜,今秋上市

21小时前
谷歌三星联合发布AI智能眼镜,今秋上市
4

从Prompt、Context到Harness,工程的三次进化与终局之战

20小时前
从Prompt、Context到Harness,工程的三次进化与终局之战
5

华为零日漏洞致卢森堡全国断网

20小时前
华为零日漏洞致卢森堡全国断网
6

特朗普AI行政令:政府将提前审查前沿模型

21小时前
特朗普AI行政令:政府将提前审查前沿模型
7

桑德斯警告Meta用AI替代员工

12小时前
桑德斯警告Meta用AI替代员工
8

黄仁勋:Nvidia Vera CPU 开启两千亿美元新市场

12小时前
黄仁勋:Nvidia Vera CPU 开启两千亿美元新市场
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款