DeepSeek:颠覆AI格局的中国黑马
Forget ChatGPT! 互联网正在热议一款全新的AI模型,它并非来自OpenAI、Meta、Google等耳熟能详的公司,而是由一家中国初创公司开发的开源AI——DeepSeek。这款拥有6850亿参数的模型,凭借其超越几乎所有同类模型的性能,迅速吸引了全球目光。
DeepSeek最新版本V3的发布,不仅因其在基准测试中表现出色而备受瞩目,更因其令人惊叹的低廉训练成本而引发热议。据CNBC报道,DeepSeek-V3在多个基准测试中超越了Llama 3.1和GPT-4o等模型。它利用NVIDIA H800 GPU进行训练,成本仅为传统方法的一小部分,甚至暗示着利用ChatGPT的输出(该模型在被问及时会自称ChatGPT)。这一突破引发了人们对OpenAI及其在尖端AI领域的统治地位的质疑。
DeepSeek V3为何如此重要?
多份报告显示,DeepSeek V3在关键基准测试中超越了Llama 3.1和GPT-4o等领先模型,包括Codeforces上的竞争性编码挑战。该项目仅花费了550万美元,与竞争对手动辄数亿美元的投入形成鲜明对比。这一突破挑战了尖端AI开发需要巨额资金投入的传统观念。
该模型的开发者公开表示,他们利用了现有的框架,甚至可能利用了ChatGPT的输出。这种方法突出了AI开发准入门槛的降低,同时也引发了人们对专有数据和资源如何被利用的疑问。
高性能,低成本
DeepSeek能够以有限的预算取得世界级的成果,引发了投资者和工程师之间的热烈讨论。CNBC的Brian Sullivan在最近的一次采访中强调了成本差异之大:“我花550万美元能得到什么,而花10亿美元又会得到什么?”分析师认为,答案是与市场上一些最佳模型相当的性能。第三方基准测试证实,DeepSeek V3在编码、翻译和文本生成任务中与竞争对手不相上下,甚至超越了它们。
AI领域知名人物Andrej Karpathy将DeepSeek的成就称为资源高效工程的突破。他指出,该模型的开发者仅用2048个GPU训练了两个月就完成了DeepSeek V3的训练,这一壮举挑战了人们对这类项目所需规模的传统认知。
对AI开发的影响
DeepSeek V3不仅仅是一项技术奇迹,它更代表着AI行业正在发生的变化。该项目得到了High Flyer Capital Management的支持,通过使用更易获得的NVIDIA H800,绕过了对高性能GPU的限制。结果如何?一个无需高昂价格就能提供高端功能的模型。
DeepSeek V3在宽松的许可证下发布,允许开发者修改并将其集成到商业应用中。其开源性质使其可用于从编码到内容生成等各种任务,有可能使人们更容易获得先进的AI工具。
DeepSeek在性能基准测试中超越OpenAI GPT-4o和Meta Llama 3.1
DeepSeek V3在多个指标上都树立了新的标准。在编码挑战中,它超越了Meta的Llama 3.1、OpenAI的GPT-4o和阿里巴巴的Qwen 2.5。它每秒可以处理60个token,是其前身速度的三倍,有望成为全球开发人员的宝贵工具。
该模型的效率也为投资者提出了重要问题。随着训练前沿模型的成本下降,高端硬件竞赛是否会失去其相关性?DeepSeek V3的成功表明,创新和战略性资源利用可以超越蛮力计算能力。
一项分析表明,虽然许多模型在巨大的GPU需求和不断攀升的成本面前举步维艰,但DeepSeek-V3采取了一种更明智的方法。通过创新的架构和工程方法,它在不打破预算的情况下取得了非凡的成果。
V3论文指出,训练该模型需要在NVIDIA H800上进行大约279万个GPU小时的训练。以每GPU小时2元的价格计算,总成本仅为558万元。与大型AI项目通常相关的数十亿美元预算相比,DeepSeek-V3堪称成本效益型创新的典范。
DeepSeek-V3在多项对比测试中证明了自己的实力,与GPT-4o和Claude 3.5等领先模型比肩而立。在代码生成和数学推理等领域,它甚至在多个指标上超越了某些大型模型的衍生版本。
AI领域知名人物Andrej Karpathy在社交媒体上强调了这一成就,指出V3证明了在资源有限的情况下也能取得重大的研究和工程突破。这引发了人们对构建大型模型是否真的需要庞大的GPU集群的更广泛讨论。Karpathy在X上发布了一条帖子,写道:
DeepSeek(中国AI公司)今天发布了一个前沿级LLM的开放权重,训练成本低得令人难以置信(2048个GPU,训练了两个月,600万美元)。
作为参考,这种级别的能力通常需要大约16000个GPU的集群,而最先进的项目则需要高达100000个GPU。… https://t.co/EW7q2pQ94B
— Andrej Karpathy (@karpathy) 2024年12月26日
与人们对这类模型的通常预期相比,这一成就尤为突出。这类模型通常需要16000个GPU的集群,而最先进的项目则需要高达100000个GPU。
例如,Meta的Llama 3.1 405B在训练过程中消耗了3080万个GPU小时,而DeepSeek-V3仅用280万个GPU小时就取得了相当的结果,计算量减少了11倍。早期的测试和排名表明,该模型表现良好,这令人印象深刻地展示了专注的工程和谨慎的资源分配所能取得的成果。
这引发了一个问题:前沿级模型是否需要庞大的GPU集群?虽然答案并非简单的“不”,但DeepSeek的成功强调了避免浪费和优化数据和算法的重要性。它清楚地提醒我们,在改进现有方法和资源方面仍然存在未开发的潜力。
开源AI模型的崛起
DeepSeek V3代表着AI生态系统正在发生转变,证明了较小的参与者可以与行业领袖竞争。其性能、成本效益和开源方法使其成为一个值得关注的模型,因为它将继续挑战现状。无论它是一次性的成就还是未来趋势的预兆,DeepSeek V3都正在重塑我们对AI开发的思考方式。
与此同时,DeepSeek并非唯一一家引起轰动的中国AI模型。就在两周前,阿里巴巴的Qwen 2.5在编码基准测试中超越了包括Anthropic的Claude 3.5 Sonnet和OpenAI的GPT-4o在内的美国顶级闭源模型,引起了人们的关注。这些发展突出了中国AI项目在推动性能和创新边界方面日益增长的竞争力。
观看下面的CNBC视频,了解中国初创公司DeepSeek是如何颠覆行业的,以及它如何挑战美国AI的统治地位。