深度思维赋予AI系统2思考能力

人工智能代理需要解决各种任务，这些任务需要不同的速度以及推理和规划能力。理想情况下，代理应该知道何时使用其直接记忆，以及何时使用更复杂的推理能力。然而，设计能够根据任务要求正确处理任务的代理系统仍然是一个挑战。

在一篇新的论文中，谷歌 DeepMind 的研究人员介绍了 Talker-Reasoner，这是一个受人类认知“双系统”模型启发的代理框架。该框架使人工智能代理能够在不同类型的推理之间找到平衡，并提供更流畅的用户体验。

双系统理论，最初由诺贝尔奖获得者丹尼尔·卡尼曼提出，认为人类的思维是由两个截然不同的系统驱动的。系统 1 速度快、直观且自动。它支配着我们的快速判断，例如对突发事件的反应或识别熟悉的模式。相比之下，系统 2 速度慢、有条理且分析性。它能够进行复杂的解决问题、规划和推理。

虽然通常被视为独立的，但这两个系统不断地相互作用。系统 1 生成印象、直觉和意图。系统 2 评估这些建议，如果得到认可，则将其整合到明确的信念和深思熟虑的选择中。这种相互作用使我们能够无缝地应对各种情况，从日常事务到具有挑战性的问题。

当前的人工智能代理主要以系统 1 模式运行。它们擅长模式识别、快速反应和重复性任务。然而，它们在需要多步规划、复杂推理和战略决策的场景中往往表现不佳，而这些正是系统 2 思维的标志。

Talker-Reasoner 框架（来源：arXiv）

DeepMind 提出的 Talker-Reasoner 框架旨在为人工智能代理配备系统 1 和系统 2 的能力。它将代理分为两个不同的模块：Talker 和 Reasoner。

Talker 是快速、直观的组件，类似于系统 1。它处理与用户和环境的实时交互。它感知观察结果、解释语言、从记忆中检索信息并生成对话响应。Talker 代理通常使用大型语言模型 (LLM) 的上下文学习 (ICL) 能力来执行这些功能。

Reasoner 体现了系统 2 的缓慢、有条理的本质。它执行复杂的推理和规划。它被设置为执行特定任务，并与工具和外部数据源交互以增强其知识并做出明智的决策。它还会随着收集新信息而更新代理的信念。这些信念推动未来的决策，并作为 Talker 在对话中使用的记忆。

“Talker 代理专注于与用户生成自然连贯的对话，并与环境交互，而 Reasoner 代理专注于执行多步规划、推理和形成信念，这些信念以 Talker 提供的环境信息为基础，”研究人员写道。

这两个模块主要通过共享内存系统进行交互。Reasoner 使用其最新的信念和推理结果更新内存，而 Talker 检索此信息以指导其交互。这种异步通信允许 Talker 保持持续的对话流，即使 Reasoner 在后台执行其更耗时的计算。

“这类似于 [the] 行为科学双系统方法，系统 1 始终处于开启状态，而系统 2 以其容量的一小部分运行，”研究人员写道。“同样，Talker 始终处于开启状态并与环境交互，而 Reasoner 仅在 Talker 等待它时或可以从内存中读取它时更新通知 Talker 的信念。”

Talker-Reasoner 框架的详细结构（来源：arXiv）

研究人员在一个睡眠指导应用程序中测试了他们的框架。人工智能教练通过自然语言与用户互动，为改善睡眠习惯提供个性化的指导和支持。此应用程序需要快速、同理心的对话和有条理的、基于知识的推理的结合。

睡眠教练的 Talker 组件处理对话方面，提供同理心的回应，并指导用户完成教练过程的不同阶段。Reasoner 维持关于用户睡眠问题、目标、习惯和环境的信念状态。它使用这些信息来生成个性化的建议和多步计划。相同的框架可以应用于其他应用程序，例如客户服务和个性化教育。

DeepMind 研究人员概述了未来研究的几个方向。一个重点领域是优化 Talker 和 Reasoner 之间的交互。理想情况下，Talker 应该自动确定何时查询需要 Reasoner 的干预，以及何时可以独立处理情况。这将最大限度地减少不必要的计算，并提高整体效率。

另一个方向涉及扩展框架以包含多个 Reasoner，每个 Reasoner 专注于不同类型的推理或知识领域。这将使代理能够处理更复杂的任务，并提供更全面的帮助。

相关内容