自中国人工智能模型DeepSeek一夜爆红以来,各种说法层出不穷,真真假假,令人眼花缭乱。有人说DeepSeek正在收集你的个人数据(也许吧);有人说它将颠覆我们所知的AI(现在下结论还为时过早,但你可以看看我的同事Will的文章!);最引人注目的是,DeepSeek新颖高效的运作方式意味着AI可能不再需要像现在这样消耗大量的能源。
然而,后一种说法存在误导,而《麻省理工科技评论》获得的最新数据则揭示了真相。这些早期数据基于DeepSeek的一个小型模型在少量提示下的表现,表明它在生成响应时可能比Meta同等规模的模型更耗能。问题可能是,DeepSeek在训练中节省的能量被它更密集的答题技术以及生成的冗长答案所抵消。
更令人担忧的是,其他科技公司受到DeepSeek的启发,可能会开始构建自己的低成本推理模型,这将进一步加剧能源消耗的压力。
任何AI模型的生命周期都包含两个阶段:训练和推理。训练通常是一个持续数月的过程,模型在此过程中从数据中学习。训练完成后,模型便可以进行推理,即每次有人向它提问时都会发生。这两个阶段通常都在数据中心进行,需要大量的能量来运行芯片和冷却服务器。
在R1模型的训练方面,DeepSeek团队改进了“专家混合”技术,该技术仅在训练期间的特定时间激活模型数十亿个参数(模型用来形成更准确答案的“旋钮”)的一部分。更重要的是,他们改进了强化学习,即对模型的输出进行评分,然后利用评分来改进模型。这通常由人工标注员完成,但DeepSeek团队在自动化方面取得了显著进展。
训练效率的提升似乎意味着AI公司将使用更少的能量来训练他们的AI模型达到一定标准。然而,事实并非如此。
Anthropic联合创始人Dario Amodei在他的博客中写道:“由于拥有更智能系统的价值如此之高,它‘导致公司在训练模型上花费更多,而不是更少’。”如果公司能从投资中获得更多回报,他们会认为投入更多资金是值得的,因此会消耗更多能量。“成本效率的提升最终完全用于训练更智能的模型,仅受公司财务资源的限制。”这被称为杰文斯悖论。
这种情况在AI竞赛中一直存在,但推理阶段的能量消耗则更加引人注目。
DeepSeek被设计为一个推理模型,这意味着它在逻辑、模式识别、数学和其他典型生成式AI模型难以处理的任务上表现出色。推理模型通过“思维链”来实现这一点。它允许AI模型将任务分解成多个部分,并按照逻辑顺序完成这些部分,最终得出结论。
你可以通过DeepSeek来观察这一点。问问它是否可以为了保护某人的感受而撒谎,该模型首先会从功利主义的角度来解决这个问题,权衡眼前的利益和潜在的未来伤害。然后,它会考虑康德伦理学,该伦理学认为你应该按照可以成为普遍法则的准则行事。它会考虑这些和其他细微差别,然后分享它的结论。(如果你好奇的话,它认为撒谎“在以善意和防止伤害为首要目标的情况下通常是可以接受的,但没有普遍的解决方案”。)
思维链模型在某些基准测试(例如MMLU)上往往表现更好,MMLU测试了57个学科的知识和解决问题的能力。但正如DeepSeek所表明的那样,它们也需要消耗更多的能量才能得出答案。我们已经获得了一些关于具体消耗多少能量的早期线索。
Scott Chamberlin曾在微软和英特尔工作多年,负责构建工具来帮助揭示某些数字活动的环保成本。Chamberlin进行了一些初步测试,以了解DeepSeek在得出答案时GPU消耗了多少能量。这个实验存在一些注意事项:他只测试了DeepSeek R-1的中等规模版本,只使用了少量提示。此外,很难与其他推理模型进行比较。
他说,DeepSeek“确实是第一个我们都可以访问的比较流行的推理模型”。OpenAI的o1模型是其最接近的竞争对手,但该公司没有将其开放供测试。相反,他用Meta的一个参数数量相同的模型进行了测试:700亿。
询问是否可以撒谎的提示从DeepSeek模型中生成了一个1000字的响应,生成该响应消耗了17800焦耳的能量,大约相当于播放10分钟的YouTube视频所需的能量。这比Meta模型回答该提示所消耗的能量高出约41%。总的来说,在40个提示的测试中,DeepSeek的能量效率与Meta模型相似,但DeepSeek往往会生成更长的响应,因此发现它消耗的能量高出87%。
这与使用传统生成式AI而不是思维链推理的模型相比如何?密歇根大学的一个团队在10月份进行的测试发现,Meta的Llama 3.1的700亿参数版本平均每个响应消耗512焦耳的能量。
DeepSeek和Meta都没有回应置评请求。
再次强调:存在很多不确定性。这些是不同的模型,用于不同的目的,尚未对DeepSeek的能量消耗与竞争对手进行科学的比较研究。但从模型的架构本身就可以清楚地看出,思维链模型在得出更合理的答案时会消耗更多的能量。
Hugging Face的AI研究员兼气候负责人Sasha Luccioni担心,围绕DeepSeek的兴奋可能会导致人们急于将这种方法应用到所有领域,即使在不需要的地方也是如此。
她说:“如果我们开始广泛采用这种范式,推理能量消耗将大幅增加。”“如果所有发布的模型都更加计算密集,并且都成为思维链模型,那么任何效率提升都将完全失效。”
AI已经经历过这种情况。在2022年ChatGPT发布之前,AI领域的主要目标是提取信息,即从大量文本中查找信息或对图像进行分类。但在2022年,重点从提取式AI转向了生成式AI,生成式AI基于不断改进的预测。这需要消耗更多能量。
Luccioni说:“这是第一次范式转变。”根据她的研究,这种转变导致完成类似任务所需的能量增加了几个数量级。她说,如果围绕DeepSeek的热潮持续下去,公司可能会被迫将思维链风格的模型应用到所有领域,就像生成式AI已经应用到从谷歌搜索到消息应用程序的所有领域一样。
我们似乎正在朝着更多思维链推理的方向发展:OpenAI于1月31日宣布将扩大其推理模型o3的访问权限。但我们只有在DeepSeek和其他类似模型得到更深入的研究后才能了解其能量消耗的更多信息。
Air Street Capital的创始人兼普通合伙人Nathan Benaich说:“这将取决于这种权衡对于相关企业来说是否在经济上是值得的。”“能量成本必须高得离谱,才能在决策中发挥重要作用。”