“`html
颠覆AI格局:DeepSeek的低成本高性能模型与推理计算的崛起
人工智能领域日新月异。2025年初,中国AI实验室DeepSeek发布的新模型引发行业震动,导致英伟达等AI相关股票暴跌17%。这源于DeepSeek模型以极低成本实现了高性能,引发了对AI数据中心未来走向的广泛讨论。
这场变革的背景是AI训练数据的匮乏。主流AI实验室已利用互联网上大部分公开数据训练模型,数据稀缺正逐渐限制预训练模型的进一步改进。因此,模型提供商正转向“测试时计算”(TTC),即推理模型(如OpenAI的“o”系列模型)在推理阶段进行“思考”,以此提升模型性能。业界认为,TTC可能带来类似于预训练时代的规模效应提升,从而推动下一波AI变革。
这预示着两大转变:一是预算相对较小的实验室也能发布最先进的模型;二是TTC成为AI进步的下一个潜在驱动力。以下我们将深入探讨这两大趋势及其对竞争格局和AI市场的影响。
TTC时代:AI硬件、云平台及应用软件的变革
TTC的兴起将对AI硬件资源的需求和管理方式产生深远影响。
- 从巨型训练集群到按需“测试时”峰值: AI公司将减少对大型GPU训练集群的投资,转而加大对推理能力的投入以满足TTC需求。虽然GPU需求依然巨大,但训练和推理工作负载的差异将影响芯片配置和使用方式。推理工作负载更具动态性,容量规划将比批量训练工作负载更为复杂。
- 推理优化硬件的崛起: TTC将为专注于低延迟推理计算的替代AI硬件创造更多机会。例如,对用于推理的专用集成电路(ASIC)的需求将增加。通用GPU的优势或将下降,这将利好专业推理芯片供应商。
此外,TTC的兴起还将带来其他影响:
- 服务质量(QoS)成为关键差异化因素: 除了模型精度,不可靠的推理API也是阻碍企业采用AI的重要因素。TTC可能加剧这些问题。提供具有QoS保障的云服务商将占据显著优势。
- 尽管效率提升,云支出仍可能增加: 更高效的LLM训练和推理方法可能遵循杰文斯悖论——效率提升反而导致整体消耗增加。高效的推理模型可能鼓励更多开发者使用推理模型,从而增加计算需求。
- 预训练模型的影响: DeepSeek的出现表明,专有预训练模型的护城河可能减弱。TTC的创新将来自更多非主流AI实验室。
- 安全和隐私问题: DeepSeek的中国背景使其产品面临安全和隐私审查。其在中国提供的API和聊天机器人服务不太可能被美国、加拿大或其他西方国家的企业广泛采用。DeepSeek的模型即使由第三方托管,也可能面临审查,限制其在企业中的应用。
- 垂直领域专业化发展: 过去,垂直应用主要关注特定业务需求的工作流程。但模型的重大突破可能使这些应用变得过时。如果训练时计算的进步趋于平缓,这种风险就会降低。应用层公司可以通过优化推理效率和微调输出,在特定领域取得竞争优势。
DeepSeek证明,单纯依靠预训练数据规模来提升模型质量的模式正在改变,TTC的重要性日益凸显。虽然DeepSeek模型在企业软件中的直接应用仍存在不确定性,但其对改进现有模型的影响日益清晰。DeepSeek的进步促使老牌AI实验室在其工程和研究流程中采用类似技术,从而降低模型成本,并可能导致模型使用量的增加,印证了杰文斯悖论。
作者:瓦伊兹普尔·帕苏坦(Pashootan Vaezipoor),格鲁吉亚公司技术主管
“`
