当人工智能陷入“过度思考”的困境
近年来,大型语言模型(LLM)在推理能力方面取得了显著进步,能够更有效地理解和分析提示,并给出更合理的答案。然而,随着推理能力的提升,一个令人意想不到的现象出现了:LLM开始陷入“过度思考”的泥潭。
来自加州大学伯克利分校、苏黎世联邦理工学院、卡内基梅隆大学和伊利诺伊大学厄巴纳-香槟分校等机构的研究人员在最近的一篇预印本论文中指出,具备推理能力的LLM容易陷入过度思考的陷阱。
换句话说,这些模型被困在了自己的思维循环中,无法有效地解决问题。
过度思考的症结
这篇尚未经过同行评审的论文将过度思考定义为“模型偏向于进行冗长的内部推理链,而不是与外部环境进行交互”。
加州大学伯克利分校的研究学者Alejandro Cuadrón,也是这篇论文的合著者,将这种现象比喻为人类在缺乏足够信息的情况下进行决策时的困境。
“当我们缺乏足够的信息时会发生什么?”Cuadrón问道,“如果你不断地自问自答,在最好的情况下,你会意识到需要更多信息。而在最坏的情况下,你会得到错误的结果。”
为了测试最新的AI模型在这种情况下如何应对,Cuadrón和他的同事们让领先的推理LLM(也称为大型推理模型,LRM),例如OpenAI的o1和DeepSeek-R1,在流行的软件工程基准测试中解决问题。这些模型需要使用OpenHands代理平台来查找错误并设计解决方案。
Cuadrón表示,结果表明模型的整体智能水平与其成功推理解决问题的能力之间存在联系。
研究结果显示,尽管最好的推理模型总体表现良好,但推理模型的过度思考频率几乎是非推理模型的三倍。而且,过度思考的程度越高,模型解决的问题就越少。平均而言,推理模型每增加一个单位的过度思考,其成功率就会下降7.9%。
基于参数相对较少的LLM的推理模型,例如阿里巴巴的QwQ-32B(拥有320亿个参数),尤其容易过度思考。QwQ、DeepSeek-R1 32B和Sky-T1-R的过度思考得分最高,但它们在解决任务方面的成功率并不比非推理模型高。
Cuadrón认为,这表明模型的整体智能水平与其成功推理解决问题的能力之间存在联系。
“我认为模型规模是主要因素之一,因为模型规模决定了模型的‘智能程度’,”Cuadrón说,“为了避免过度思考,模型必须与环境进行交互并理解环境,并且必须理解自己的输出。”
过度思考的代价
从人类的角度来看,AI过度思考是一个有趣的问题,因为它反映了我们经常遇到的思维状态。但LLM毕竟是计算机系统,这意味着过度思考会带来不同的后果。
最明显的后果是计算成本增加。推理LLM本质上是自我提示,以推理解决问题,这反过来会生成更多令牌,并占用昂贵的硬件(例如GPU或张量处理单元)。推理越多,成本就越高。
Cuadrón和他的同事发现,使用高推理强度运行OpenAI的o1可能花费高达1400美元,而使用低推理配置则可以将成本降低到800美元。尽管存在这种差距,但这些模型在软件工程基准测试中的表现几乎相同。OpenAI o1-high解决了29.1%的问题,而o1-low解决了27.3%的问题。
研究人员还发现,多次运行o1-low并选择最佳输出,其效果优于o1-high,但更具成本效益。与o1-high相比,低推理模型的低成本意味着这种技术节省了200美元。
这些结果表明,在优化推理模型方面还有很大的空间,并且对问题进行更多推理并不总是最佳解决方案。
值得深思
有趣的是,该论文发现,与其他测试的推理模型不同,DeepSeek-R1 671B并没有比DeepSeek-V3 671B(R1基于的非推理模型)过度思考。这使得R1取得了良好的结果。它击败了DeepSeek-V3,在所有测试模型中取得了第三高的成功率,并在推理模型中排名第二。
Cuadrón推测,这种结果是由于DeepSeek训练模型的方式造成的。虽然大规模强化学习是其训练的关键,但这种技术并没有专门用于训练模型来执行软件工程任务。“这意味着,当模型遇到软件工程任务时,它不会进行太多推理,而是更倾向于与环境进行更多交互,”他说。
这篇论文明确指出,LRM在仅使用完成任务所需的推理量时效率更高。但是,如何准确地训练模型,使其在各种任务中使用恰到好处的推理量呢?
这个问题还有待解决。该论文的合著者希望通过开源他们的评估框架和数据集,帮助更广泛的研究界解决LLM中的过度思考问题。完整的数据集以及用于量化过度思考的方法可在GitHub上获得。