前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

AI模型也容易过度思考

NEXTECH
Last updated: 2025年3月6日 上午6:56
By NEXTECH
Share
14 Min Read
SHARE

illustrated-silhouette-of-a-stressed-rob

Contents
当人工智能陷入“过度思考”的困境过度思考的症结过度思考的代价值得深思

当人工智能陷入“过度思考”的困境

近年来,大型语言模型(LLM)在推理能力方面取得了显著进步,能够更有效地理解和分析提示,并给出更合理的答案。然而,随着推理能力的提升,一个令人意想不到的现象出现了:LLM开始陷入“过度思考”的泥潭。

来自加州大学伯克利分校、苏黎世联邦理工学院、卡内基梅隆大学和伊利诺伊大学厄巴纳-香槟分校等机构的研究人员在最近的一篇预印本论文中指出,具备推理能力的LLM容易陷入过度思考的陷阱。

换句话说,这些模型被困在了自己的思维循环中,无法有效地解决问题。

过度思考的症结

这篇尚未经过同行评审的论文将过度思考定义为“模型偏向于进行冗长的内部推理链,而不是与外部环境进行交互”。

加州大学伯克利分校的研究学者Alejandro Cuadrón,也是这篇论文的合著者,将这种现象比喻为人类在缺乏足够信息的情况下进行决策时的困境。

You Might Also Like

OpenAI推出ChatGPT项目,助你整理文件和群聊
OpenAI开发者日2024:四大更新让AI更易用更便宜
OpenAI Atlas深度体验:AI浏览器革新之路才刚开始
算力爆炸:AI时代,从MIPS到艾级浮点运算

“当我们缺乏足够的信息时会发生什么?”Cuadrón问道,“如果你不断地自问自答,在最好的情况下,你会意识到需要更多信息。而在最坏的情况下,你会得到错误的结果。”

为了测试最新的AI模型在这种情况下如何应对,Cuadrón和他的同事们让领先的推理LLM(也称为大型推理模型,LRM),例如OpenAI的o1和DeepSeek-R1,在流行的软件工程基准测试中解决问题。这些模型需要使用OpenHands代理平台来查找错误并设计解决方案。

Cuadrón表示,结果表明模型的整体智能水平与其成功推理解决问题的能力之间存在联系。

研究结果显示,尽管最好的推理模型总体表现良好,但推理模型的过度思考频率几乎是非推理模型的三倍。而且,过度思考的程度越高,模型解决的问题就越少。平均而言,推理模型每增加一个单位的过度思考,其成功率就会下降7.9%。

基于参数相对较少的LLM的推理模型,例如阿里巴巴的QwQ-32B(拥有320亿个参数),尤其容易过度思考。QwQ、DeepSeek-R1 32B和Sky-T1-R的过度思考得分最高,但它们在解决任务方面的成功率并不比非推理模型高。

Cuadrón认为,这表明模型的整体智能水平与其成功推理解决问题的能力之间存在联系。

“我认为模型规模是主要因素之一,因为模型规模决定了模型的‘智能程度’,”Cuadrón说,“为了避免过度思考,模型必须与环境进行交互并理解环境,并且必须理解自己的输出。”

过度思考的代价

从人类的角度来看,AI过度思考是一个有趣的问题,因为它反映了我们经常遇到的思维状态。但LLM毕竟是计算机系统,这意味着过度思考会带来不同的后果。

最明显的后果是计算成本增加。推理LLM本质上是自我提示,以推理解决问题,这反过来会生成更多令牌,并占用昂贵的硬件(例如GPU或张量处理单元)。推理越多,成本就越高。

Cuadrón和他的同事发现,使用高推理强度运行OpenAI的o1可能花费高达1400美元,而使用低推理配置则可以将成本降低到800美元。尽管存在这种差距,但这些模型在软件工程基准测试中的表现几乎相同。OpenAI o1-high解决了29.1%的问题,而o1-low解决了27.3%的问题。

研究人员还发现,多次运行o1-low并选择最佳输出,其效果优于o1-high,但更具成本效益。与o1-high相比,低推理模型的低成本意味着这种技术节省了200美元。

这些结果表明,在优化推理模型方面还有很大的空间,并且对问题进行更多推理并不总是最佳解决方案。

值得深思

有趣的是,该论文发现,与其他测试的推理模型不同,DeepSeek-R1 671B并没有比DeepSeek-V3 671B(R1基于的非推理模型)过度思考。这使得R1取得了良好的结果。它击败了DeepSeek-V3,在所有测试模型中取得了第三高的成功率,并在推理模型中排名第二。

Cuadrón推测,这种结果是由于DeepSeek训练模型的方式造成的。虽然大规模强化学习是其训练的关键,但这种技术并没有专门用于训练模型来执行软件工程任务。“这意味着,当模型遇到软件工程任务时,它不会进行太多推理,而是更倾向于与环境进行更多交互,”他说。

这篇论文明确指出,LRM在仅使用完成任务所需的推理量时效率更高。但是,如何准确地训练模型,使其在各种任务中使用恰到好处的推理量呢?

这个问题还有待解决。该论文的合著者希望通过开源他们的评估框架和数据集,帮助更广泛的研究界解决LLM中的过度思考问题。完整的数据集以及用于量化过度思考的方法可在GitHub上获得。

Share This Article
Email Copy Link Print
Previous Article Diffbot AI 模型:万亿事实知识图谱赋能精准认知
Next Article Qomodo获1350万欧元A轮融资,革新意大利实体店分期付款
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
图表1
《亚洲水发展展望2025》深度解读:亚太水安全喜忧参半,未来挑战何在?
未分类
谷歌助手设备概念图
谷歌支付6800万美元和解语音助手监听诉讼,你的隐私可能被“误触发”录音
科技
20260127081404359.jpg
甲骨文豪掷500亿美元押注AI基建,美国数据中心版图加速扩张
科技
OpenAI总裁豪掷2500万美元支持特朗普,科技巨头与政坛的深度捆绑引关注
AI

相关内容

AI

CES 2025: 达美航空携手优步和Joby Aviation打造个性化出行

2025年3月5日
BIRD Text2SQL benchmark测试Agent生成SQL流程图
Agent生态

Agent-First数据库的畅想:UC Berkeley论文深度解析AI Agent如何重塑数据库

2025年10月6日
Devin.ai DeepWiki自动生成的项目知识库示例界面
Agent生态

Claude Agent SDK实践:构建开源DeepWiki项目知识库

2025年10月26日
一双正在笔记本电脑上打字的手,屏幕上显示着带有红色和蓝色全息元素的未来派搜索界面。
AI

Cohere视觉搜索功能升级

2024年11月14日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?