前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

开源AI巨头DeepSeek-V3横空出世,超越Llama和Qwen

洞察2025年1月27日· 5 分钟阅读13 阅读

DeepSeek-V3 横空出世,开源大模型再掀波澜 DeepSeek,这家以挑战领先 AI 厂商的创新开源技 […]

DeepSeek-V3 横空出世,开源大模型再掀波澜

DeepSeek,这家以挑战领先 AI 厂商的创新开源技术而闻名的中国 AI 新锐,今日发布了全新超大模型 DeepSeek-V3。

DeepSeek-V3 通过 Hugging Face 平台,以公司许可协议的形式提供,拥有 6710 亿参数。它采用混合专家架构,仅激活特定参数,以高效准确地处理各种任务。DeepSeek 分享的基准测试结果显示,DeepSeek-V3 已经登顶榜首,超越了 Meta 的 Llama 3.1-405B 等领先的开源模型,性能与 Anthropic 和 OpenAI 的闭源模型不相上下。

DeepSeek-V3 的发布标志着开源 AI 与闭源 AI 之间的差距进一步缩小。DeepSeek 起源于中国量化对冲基金 High-Flyer Capital Management,其最终目标是通过这些发展为实现通用人工智能 (AGI) 铺平道路,让模型能够理解或学习人类可以完成的任何智力任务。

与前代 DeepSeek-V2 一样,DeepSeek-V3 采用相同的核心架构,围绕多头潜在注意力 (MLA) 和 DeepSeekMoE 展开。这种方法确保了模型在训练和推理过程中保持高效,通过专门的和共享的“专家”(大型模型中包含的独立小型神经网络),每个 token 仅激活 6710 亿参数中的 370 亿参数。

除了基本架构之外,DeepSeek 还推出了两项创新,进一步提升了模型性能。

第一项创新是辅助无损负载均衡策略。该策略动态监控和调整专家负载,以平衡的方式利用专家,而不会影响模型整体性能。第二项创新是多 token 预测 (MTP),它允许模型同时预测多个未来 token。这项创新不仅提高了训练效率,还使模型的运行速度提高了三倍,每秒生成 60 个 token。

DeepSeek 在一篇介绍新模型的技术论文中写道:“在预训练阶段,我们使用 14.8 万亿高质量、多样化的 token 对 DeepSeek-V3 进行训练……接下来,我们对 DeepSeek-V3 进行两阶段上下文长度扩展。在第一阶段,最大上下文长度扩展到 32K,在第二阶段,进一步扩展到 128K。在此之后,我们对 DeepSeek-V3 的基础模型进行了后训练,包括监督微调 (SFT) 和强化学习 (RL),使其与人类偏好保持一致,并进一步释放其潜力。在后训练阶段,我们从 DeepSeekR1 系列模型中提取推理能力,同时仔细平衡模型精度和生成长度。”

值得注意的是,在训练阶段,DeepSeek 使用了多种硬件和算法优化,包括 FP8 混合精度训练框架和用于管道并行的 DualPipe 算法,以降低训练成本。

DeepSeek 声称,DeepSeek-V3 的整个训练过程耗费了约 2788K H800 GPU 小时,按每 GPU 小时 2 美元计算,总成本约为 557 万美元。这远低于通常用于预训练大型语言模型的数亿美元成本。

例如,Llama-3.1 的训练成本估计超过 5 亿美元。

尽管训练成本低廉,DeepSeek-V3 却成为了市场上最强大的开源模型。

DeepSeek 进行了一系列基准测试,比较了 AI 的性能,结果表明 DeepSeek-V3 显著优于包括 Llama-3.1-405B 和 Qwen 2.5-72B 在内的领先开源模型。它甚至在大多数基准测试中超越了闭源 GPT-4o,仅在以英语为主的 SimpleQA 和 FRAMES 测试中落后,OpenAI 模型在这两项测试中的得分分别为 38.2 和 80.5(而 DeepSeek-V3 分别为 24.9 和 73.3)。

值得注意的是,DeepSeek-V3 在中文和数学相关的基准测试中表现尤为突出,得分超过所有同类模型。在 Math-500 测试中,DeepSeek-V3 的得分高达 90.2,Qwen 的得分仅为 80,位居第二。

唯一能够挑战 DeepSeek-V3 的模型是 Anthropic 的 Claude 3.5 Sonnet,它在 MMLU-Pro、IF-Eval、GPQA-Diamond、SWE Verified 和 Aider-Edit 中得分更高。

https://twitter.com/deepseek_ai/status/1872242657348710721

这项成果表明,开源模型正在追赶闭源模型,在不同任务中展现出几乎等同的性能。这种系统的开发对行业来说意义重大,因为它有可能消除一家 AI 巨头独霸市场的可能性。它还为企业提供了多种选择,让他们在构建自己的技术栈时拥有更多选择。

目前,DeepSeek-V3 的代码已在 GitHub 上以 MIT 许可协议的形式提供,而模型则以公司模型许可协议的形式提供。企业还可以通过 DeepSeek Chat(一个类似 ChatGPT 的平台)测试新模型,并访问 API 以进行商业用途。DeepSeek 将以与 DeepSeek-V2 相同的价格提供 API,直至 2 月 8 日。之后,将收取 0.27 美元/百万输入 token(使用缓存命中时为 0.07 美元/百万 token)和 1.10 美元/百万输出 token 的费用。

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

AI 交互的范式转变:从"回合制"到"实时协作"
TOP1

AI 交互的范式转变:从"回合制"到"实时协作"

XGBoost预测急诊量:数据驱动的排班决策
TOP2

XGBoost预测急诊量:数据驱动的排班决策

3

回敬 Codex,Claude Code 推出 /goal 功能,不干完不睡觉

11小时前
回敬 Codex,Claude Code 推出 /goal 功能,不干完不睡觉
4

盖洛普:七成美国人反对附近建数据中心

6分钟前
盖洛普:七成美国人反对附近建数据中心
5

Claude Opus 4.7刚刚曝光!Claude Code一夜重构,7x24小时替你打工

12小时前
Claude Opus 4.7刚刚曝光!Claude Code一夜重构,7x24小时替你打工
6

参数高尔夫挑战赛的启示

18分钟前
参数高尔夫挑战赛的启示
7

Anthropic宣布Claude永不投放广告

15分钟前
8

RAG又进化了!微软整了个企业级AgenticRAG

11小时前
RAG又进化了!微软整了个企业级AgenticRAG
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款