DeepSeek:AI 领域的颠覆者
仅仅一个月前,DeepSeek 掀起了科技股的巨浪,抹去了美国股市超过 1 万亿美元的市值。现在,据路透社独家报道,这家中国人工智能初创公司正准备再次掀起波澜。DeepSeek 的下一代 R2 模型将在不到三个月的时间内发布,甚至可能提前到来。
DeepSeek 的行动速度惊人。在用其经济实惠的推理模型 R1 打破全球市场格局后,这家总部位于杭州的公司正在加速其继任者 R2 的发布计划。据路透社报道,原本计划在 5 月发布的 R2,现在公司正努力将其提前推出。如果你认为 R1 点燃了互联网,让每个人都议论纷纷,那么 R2 将会产生更大的影响。新模型旨在增强编码能力,并将推理能力扩展到英语之外,使其在人工智能竞赛中成为更强大的竞争者。
总部位于杭州的 DeepSeek 尚未透露具体细节,但内部人士表示,目标是提高编码能力,并将推理能力扩展到英语之外。虽然 DeepSeek 保持沉默,但人们的期待却越来越高。
“据三位熟悉该公司情况的人士透露,这家总部位于杭州的公司正在加速推出 1 月份 R1 模型的继任者。其中两位人士表示,DeepSeek 原计划在 5 月初发布 R2,但现在希望尽快发布,但没有提供具体细节。”路透社报道。
R1 让整个行业措手不及。它使用的是性能较低的英伟达芯片,但仍然能够与美国科技巨头以高昂成本开发的模型相媲美。如果 R2 能够兑现其承诺,其影响将更大。
印度科技服务提供商 Zensar 的首席运营官维贾亚西姆哈·阿里卢加塔认为,这是一个转折点。“DeepSeek 的 R2 模型的发布可能是人工智能行业的一个关键时刻,”他说。DeepSeek 建立经济高效模型的方法“可能会促使全球各地的公司加速自己的努力……打破该领域少数主导玩家的垄断地位。”
这可能会在美国引发警钟,因为人工智能领导地位是美国国家优先事项。与此同时,中国公司已经将 DeepSeek 的模型整合到其产品中,北京似乎也密切关注着这一情况。
DeepSeek 在人工智能领域的崛起
DeepSeek 的成功让西方许多人工智能专家感到意外。DeepSeek 的热潮是在其 V3 模型在第三方基准测试中超越 Meta 的 Llama 3.1、OpenAI 的 GPT-4o 和阿里巴巴的 Qwen 2.5 后出现的——所有这些都以低得多的成本实现。1 月下旬,DeepSeek 在 App Store 上短暂超越了 ChatGPT。
DeepSeek 的运营方式与大多数中国科技公司不同。该公司没有遵循中国大型企业常见的严格自上而下的管理结构。相反,它更像是一个研究实验室,而不是传统的企业。员工描述了一种环境,在这种环境中,年轻人才被赋予了重要的责任,长时间工作并不是一项要求。
DeepSeek 的创始人梁文锋是中国科技界的一位低调人物。他曾是一名量化交易员,通过他的对冲基金 High-Flyer 积累了财富,然后将注意力转向人工智能。他避免媒体关注,前同事形容他低调但对工作非常投入。“梁给了我们控制权,把我们当专家对待。他不断地提出问题,并与我们一起学习,”前研究员本杰明·刘说。
DeepSeek 的崛起并非一帆风顺。中国监管机构对该公司的大规模芯片采购持谨慎态度。在 DeepSeek 成立之前,High-Flyer 已经开始囤积英伟达的 A100 芯片,这对一家对冲基金来说是不寻常的举动。官员们想知道原因。在审查了计划后,当局决定退一步——这一结果在后来美国禁止向中国出口 A100 芯片时被证明至关重要。到那时,DeepSeek 已经拥有强大的计算基础设施。
行业对 DeepSeek 成功的反应
DeepSeek 的成功促使美国科技公司高管对中国的人工智能突破发出警报。在达沃斯世界经济论坛上,知名首席执行官对中国在人工智能领域的快速进展表示担忧。DeepSeek 是讨论的热门话题,几位领导人强调了在这项关键技术方面落后的潜在地缘政治风险。”
“如果美国不能在这项技术上领先,我们将在地缘政治上处于非常糟糕的境地,”一位首席执行官警告说。
他们的言论突出了美国在人工智能领域领导地位的日益增长的风险,人工智能领域与国家安全和全球影响力越来越密切相关。
知名人士对 DeepSeek 的成就发表了评论:
- 风险投资家马克·安德森称其为“我见过的最令人惊叹和最令人印象深刻的突破之一”。
- 记者霍尔格·扎佩茨认为,DeepSeek 的效率可能对美国股市构成重大威胁,削弱了在人工智能资本支出方面投入数十亿美元的效用。
- Y Combinator 首席执行官加里·坦将这一发展视为美国竞争对手的机会,他指出,更便宜的模型训练可以加速对人工智能推理和现实世界应用的需求。
战略性人工智能发展
DeepSeek 的策略不是把钱砸到问题上。与急于推出 ChatGPT 式应用程序的中国科技巨头不同,DeepSeek 首先专注于改进其模型的质量。这家初创公司还通过使用混合专家 (MoE) 和多头潜在注意力 (MLA) 等技术来降低成本。这些方法使模型更高效,所需的计算能力远低于传统架构。
包括法国 Mistral 在内的其他公司也尝试过 MoE,但 DeepSeek 更积极地利用了它。结果如何?一个与那些以高得多预算构建的模型相媲美的模型。伯恩斯坦分析师估计,DeepSeek 的定价比 OpenAI 的同类模型便宜 20 到 40 倍。
影响已经显现。OpenAI 最近降低了价格,谷歌的 Gemini 推出了更便宜的访问层级。自 R1 发布以来,OpenAI 还发布了 O3-Mini 模型,该模型使用更少的计算能力。这种转变表明,DeepSeek 已经在影响中国以外的人工智能定价策略。
DeepSeek 的未来
北京已经拥抱了 DeepSeek 的成功,但官员们正在严格控制该公司。梁文锋被要求保持低调,避免引起过多的关注。中国政府机构和国有企业开始以一种新的人工智能公司很少见的速度部署 DeepSeek 的模型。与此同时,一些外国政府,包括韩国和意大利,出于隐私问题,已从应用商店中删除了 DeepSeek 的产品。
随着 R2 的到来,DeepSeek 即将测试一家公司在一个由少数强大玩家主导的行业中能造成多少破坏。无论它会导致更多监管审查,还是迫使竞争对手重新考虑其策略,DeepSeek 的影响都是不可否认的。现在唯一的问题是它能走多远。