前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
初创

开源AI模型Deepseek:低成本超越OpenAI和Meta

NEXTECH
Last updated: 2025年1月29日 上午7:04
By NEXTECH
Share
21 Min Read
SHARE

DeepSeek:颠覆AI格局的中国黑马

Forget ChatGPT! 互联网正在热议一款全新的AI模型,它并非来自OpenAI、Meta、Google等耳熟能详的公司,而是由一家中国初创公司开发的开源AI——DeepSeek。这款拥有6850亿参数的模型,凭借其超越几乎所有同类模型的性能,迅速吸引了全球目光。

Contents
DeepSeek:颠覆AI格局的中国黑马DeepSeek V3为何如此重要?高性能,低成本对AI开发的影响DeepSeek在性能基准测试中超越OpenAI GPT-4o和Meta Llama 3.1开源AI模型的崛起

DeepSeek最新版本V3的发布,不仅因其在基准测试中表现出色而备受瞩目,更因其令人惊叹的低廉训练成本而引发热议。据CNBC报道,DeepSeek-V3在多个基准测试中超越了Llama 3.1和GPT-4o等模型。它利用NVIDIA H800 GPU进行训练,成本仅为传统方法的一小部分,甚至暗示着利用ChatGPT的输出(该模型在被问及时会自称ChatGPT)。这一突破引发了人们对OpenAI及其在尖端AI领域的统治地位的质疑。

DeepSeek V3为何如此重要?

多份报告显示,DeepSeek V3在关键基准测试中超越了Llama 3.1和GPT-4o等领先模型,包括Codeforces上的竞争性编码挑战。该项目仅花费了550万美元,与竞争对手动辄数亿美元的投入形成鲜明对比。这一突破挑战了尖端AI开发需要巨额资金投入的传统观念。

该模型的开发者公开表示,他们利用了现有的框架,甚至可能利用了ChatGPT的输出。这种方法突出了AI开发准入门槛的降低,同时也引发了人们对专有数据和资源如何被利用的疑问。

高性能,低成本

DeepSeek能够以有限的预算取得世界级的成果,引发了投资者和工程师之间的热烈讨论。CNBC的Brian Sullivan在最近的一次采访中强调了成本差异之大:“我花550万美元能得到什么,而花10亿美元又会得到什么?”分析师认为,答案是与市场上一些最佳模型相当的性能。第三方基准测试证实,DeepSeek V3在编码、翻译和文本生成任务中与竞争对手不相上下,甚至超越了它们。

AI领域知名人物Andrej Karpathy将DeepSeek的成就称为资源高效工程的突破。他指出,该模型的开发者仅用2048个GPU训练了两个月就完成了DeepSeek V3的训练,这一壮举挑战了人们对这类项目所需规模的传统认知。

You Might Also Like

Arcana 钱包引领多链交易新时代
中国的镓出口制裁使 20 家价值 8 万亿美元的美国公司面临风险
商业航天,过亿融资不断丨投融周报
Symphony Commerce获200万英镑融资,拓展B2B电商

对AI开发的影响

DeepSeek V3不仅仅是一项技术奇迹,它更代表着AI行业正在发生的变化。该项目得到了High Flyer Capital Management的支持,通过使用更易获得的NVIDIA H800,绕过了对高性能GPU的限制。结果如何?一个无需高昂价格就能提供高端功能的模型。

DeepSeek V3在宽松的许可证下发布,允许开发者修改并将其集成到商业应用中。其开源性质使其可用于从编码到内容生成等各种任务,有可能使人们更容易获得先进的AI工具。

DeepSeek在性能基准测试中超越OpenAI GPT-4o和Meta Llama 3.1

DeepSeek V3在多个指标上都树立了新的标准。在编码挑战中,它超越了Meta的Llama 3.1、OpenAI的GPT-4o和阿里巴巴的Qwen 2.5。它每秒可以处理60个token,是其前身速度的三倍,有望成为全球开发人员的宝贵工具。

该模型的效率也为投资者提出了重要问题。随着训练前沿模型的成本下降,高端硬件竞赛是否会失去其相关性?DeepSeek V3的成功表明,创新和战略性资源利用可以超越蛮力计算能力。

一项分析表明,虽然许多模型在巨大的GPU需求和不断攀升的成本面前举步维艰,但DeepSeek-V3采取了一种更明智的方法。通过创新的架构和工程方法,它在不打破预算的情况下取得了非凡的成果。

V3论文指出,训练该模型需要在NVIDIA H800上进行大约279万个GPU小时的训练。以每GPU小时2元的价格计算,总成本仅为558万元。与大型AI项目通常相关的数十亿美元预算相比,DeepSeek-V3堪称成本效益型创新的典范。

DeepSeek-V3在多项对比测试中证明了自己的实力,与GPT-4o和Claude 3.5等领先模型比肩而立。在代码生成和数学推理等领域,它甚至在多个指标上超越了某些大型模型的衍生版本。

AI领域知名人物Andrej Karpathy在社交媒体上强调了这一成就,指出V3证明了在资源有限的情况下也能取得重大的研究和工程突破。这引发了人们对构建大型模型是否真的需要庞大的GPU集群的更广泛讨论。Karpathy在X上发布了一条帖子,写道:

DeepSeek(中国AI公司)今天发布了一个前沿级LLM的开放权重,训练成本低得令人难以置信(2048个GPU,训练了两个月,600万美元)。

作为参考,这种级别的能力通常需要大约16000个GPU的集群,而最先进的项目则需要高达100000个GPU。… https://t.co/EW7q2pQ94B

— Andrej Karpathy (@karpathy) 2024年12月26日

与人们对这类模型的通常预期相比,这一成就尤为突出。这类模型通常需要16000个GPU的集群,而最先进的项目则需要高达100000个GPU。

例如,Meta的Llama 3.1 405B在训练过程中消耗了3080万个GPU小时,而DeepSeek-V3仅用280万个GPU小时就取得了相当的结果,计算量减少了11倍。早期的测试和排名表明,该模型表现良好,这令人印象深刻地展示了专注的工程和谨慎的资源分配所能取得的成果。

这引发了一个问题:前沿级模型是否需要庞大的GPU集群?虽然答案并非简单的“不”,但DeepSeek的成功强调了避免浪费和优化数据和算法的重要性。它清楚地提醒我们,在改进现有方法和资源方面仍然存在未开发的潜力。

开源AI模型的崛起

DeepSeek V3代表着AI生态系统正在发生转变,证明了较小的参与者可以与行业领袖竞争。其性能、成本效益和开源方法使其成为一个值得关注的模型,因为它将继续挑战现状。无论它是一次性的成就还是未来趋势的预兆,DeepSeek V3都正在重塑我们对AI开发的思考方式。

与此同时,DeepSeek并非唯一一家引起轰动的中国AI模型。就在两周前,阿里巴巴的Qwen 2.5在编码基准测试中超越了包括Anthropic的Claude 3.5 Sonnet和OpenAI的GPT-4o在内的美国顶级闭源模型,引起了人们的关注。这些发展突出了中国AI项目在推动性能和创新边界方面日益增长的竞争力。

观看下面的CNBC视频,了解中国初创公司DeepSeek是如何颠覆行业的,以及它如何挑战美国AI的统治地位。

Share This Article
Email Copy Link Print
Previous Article Sora-Launch-960x628.jpg 2024年科技圈头条新闻
Next Article Flock.io 基于 Base 主网启动并发行代币
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
Installer 第108期封面
传奇游戏重磅回归:科技与流媒体时代的经典复兴
科技
2026年AI模型必备:四大顶尖网页抓取API深度评测与选型指南
大模型与工程化
星链设备在弗吉尼亚州乡村的户外场景
星链让我在任何地方都能“居家办公”——如今,我渴望改变
科技
谷歌眼镜产品图
谷歌眼镜的功与过:一场超前13年的科技预言与争议
科技

相关内容

初创

Pepeto 新增功能 吸引 Memecoin 爱好者

2025年1月3日
初创科技

Session 与 Telegram:重新定义数字时代的安全消息传递

2024年7月29日
初创

朗力半导体完成亿元A+轮融资

2024年9月10日
初创科技

INE Security 启动计划,投资有抱负的网络安全专业人员的教育

2024年8月23日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up