conceptual-illustration-of-large-languag

AI 思维的跃迁：从规模到认知

自 2022 年 OpenAI 推出 ChatGPT 以来，人工智能公司便陷入了一场构建越来越庞大模型的竞赛，导致企业在数据中心建设上投入巨资。然而，在去年年底，关于模型规模化效益触顶的传言开始出现，OpenAI 史上最大模型 GPT-4.5 的表现平平，进一步佐证了这一观点。

这种现状促使研究方向发生转变，研究人员开始致力于让机器更像人类一样“思考”。他们不再一味追求更大的模型，而是赋予模型更多时间来思考问题。2023 年，谷歌团队推出了“思维链”（CoT）技术，让大型语言模型 (LLM) 能够逐步解决问题。

这种方法为新一代推理模型的强大功能奠定了基础，例如 OpenAI 的 o3、谷歌的 Gemini 2.5、Anthropic 的 Claude 3.7 和 DeepSeek 的 R1。如今，人工智能论文中充斥着“思考”、“思维”和“推理”等词汇，认知启发技术的数量也随之激增。

“从去年春天开始，任何认真从事人工智能研究的人都能清楚地看到，下一场革命将不再是关于规模，”加拿大滑铁卢大学心理学教授伊戈尔·格罗斯曼说，“下一场革命将是关于更强大的认知。”

AI 推理的奥秘

本质上，LLM 利用统计概率来预测文本串中下一个“token”（模型处理的文本片段）的出现。然而，CoT 技术表明，仅仅提示模型在给出答案之前进行一系列中间“推理”步骤，就能显著提高其在数学和逻辑问题上的表现。

“这种方法的效果出奇地好，令人惊讶，”斯坦福大学计算机科学研究生卡尼什克·甘地表示。此后，研究人员设计了该技术的多种扩展方法，包括“思维树”、“思维图”、“思维逻辑”和“思维迭代”等等。

领先的模型开发者还利用强化学习将该技术融入模型，方法是让基础模型生成 CoT 响应，然后奖励那些最终答案最佳的响应。在这个过程中，模型发展出各种认知策略，这些策略与人类解决复杂问题的方式类似，例如将问题分解成更简单的任务，并回溯以纠正早期推理步骤中的错误，甘地说。

然而，加州大学圣巴巴拉分校研究生迈克尔·萨克森指出，这些模型的训练方式会导致问题。强化学习需要一种方法来验证响应是否正确，以确定是否给予奖励。这意味着推理模型主要是在验证容易的任务上进行训练，例如数学、编码或逻辑谜题。因此，它们往往将所有问题都视为复杂的推理问题，这会导致过度思考，萨克森说。

在最近一篇预印本论文中描述的一项实验中，他和同事给各种人工智能模型提供了一系列故意设置的简单任务，结果表明，推理模型比传统 LLM 使用更多 token 来获得正确答案。在某些情况下，这种过度思考甚至会导致更差的表现。有趣的是，萨克森说，用对待过度思考的人类的方式来处理这些模型，证明非常有效。研究人员让模型估计解决问题需要多少 token，然后在推理过程中定期更新模型还剩下多少 token，直到它需要给出答案。

“这是一个反复出现的教训，”萨克森说，“尽管这些模型在许多重要方面并不真正像人类，但受人类认知启发的做法却出奇地有效。”

AI 推理的局限

这些模型的推理能力仍然存在着重要的差距。阿姆斯特丹大学神经符号人工智能助理教授玛莎·刘易斯最近比较了 LLM 和人类通过类比进行推理的能力，类比被认为是许多创造性思维的基础。

在标准类比推理测试中，模型和人类的表现都很好。但当他们被给予这些测试的新变体时，模型的表现与人类相比大幅下降。刘易斯说，可能的解释是，这些测试的标准版本类似的问题存在于模型的训练数据中，它们只是在使用浅层的模式匹配来找到解决方案，而不是进行推理。这些测试是在 OpenAI 的旧版 GPT-3、GPT-3.5 和 GPT-4 模型上进行的，刘易斯说，新一代推理模型可能会表现得更好。但这些实验表明，在谈论人工智能的认知能力时需要谨慎。

“由于模型确实会生成非常流畅的输出，因此很容易让人感觉它们正在做一些超出实际能力的事情，”刘易斯说，“我认为，在没有真正测试特定语境下‘推理’的含义之前，我们不应该说这些模型正在推理。”

人工智能推理能力可能存在缺陷的另一个重要领域是思考他人心理状态的能力，这被称为“心智理论”。几篇论文已经证明，LLM 可以解决经典的心理学测试，但艾伦人工智能研究所 (AI2) 的研究人员怀疑，这种优异的表现可能是由于这些测试包含在训练数据集中。

因此，研究人员创建了一套新的心智理论测试，这些测试基于现实世界的情况，分别衡量模型推断某人心理状态、预测该状态如何影响其行为以及判断其行为是否合理的能力。例如，模型可能会被告知，某人在超市里拿起一包封闭的薯片，但里面的内容是发霉的。然后，它被问到这个人是否知道薯片是发霉的，他们是否会购买这些薯片，以及这样做是否合理。

研究小组发现，虽然模型在预测心理状态方面表现良好，但在预测行为和判断合理性方面表现不佳。AI2 研究科学家罗南·勒布拉斯怀疑，这是因为模型根据所有可用的数据来计算行为的概率，他们知道，例如，某人不太可能购买发霉的薯片。即使他们能够推断出某人的心理状态，他们似乎在预测行为时并没有考虑这种状态。

然而，研究人员发现，提醒模型它们的心理状态预测，或者给它们一个特定的 CoT 提示，告诉它们要考虑角色的意识，可以显著提高性能。AI2 的博士后研究员余玲说，重要的是模型要针对特定问题使用正确的推理模式。“我们希望将来，这种推理能够更深入地融入这些模型，”她说。

元认知可以提高 AI 性能吗？

滑铁卢大学的格罗斯曼说，让模型能够在各种任务中灵活地进行推理，可能需要更根本的转变。去年 11 月，他与领先的人工智能研究人员共同撰写了一篇论文，强调了赋予模型元认知的必要性，他们将元认知描述为“反思和调节自身思维过程的能力”。

今天的模型是“专业的胡说八道生成器”，格罗斯曼说，它们会对任何问题给出最佳猜测，而没有能力识别或传达自己的不确定性。它们也不善于根据特定语境调整响应或考虑不同的观点，而这些都是人类自然而然会做的事情。格罗斯曼说，为模型提供这些元认知能力，不仅会提高性能，还会更容易跟踪它们的推理过程。

他补充说，这样做将很棘手，因为它要么需要付出巨大的努力来标记训练数据，例如确定性或相关性，要么需要在模型中添加新的模块，例如评估推理步骤的置信度。推理模型已经比标准 LLM 使用了更多的计算资源和能量，而添加这些额外的训练要求或处理循环可能会加剧这种情况。“这可能会让许多小型公司倒闭，”格罗斯曼说，“而且这也会带来环境成本。”

尽管如此，他仍然相信，尝试模仿人类智能背后的认知过程是前进的最明显道路，即使今天大多数努力都非常简单。“我们不知道其他思考方式，”他说，“我们只能发明一些我们有一定概念理解的东西。”