人工智能代理需要解决各种任务,这些任务需要不同的速度以及推理和规划能力。理想情况下,代理应该知道何时使用其直接记忆,以及何时使用更复杂的推理能力。然而,设计能够根据任务要求正确处理任务的代理系统仍然是一个挑战。
在一篇新的论文中,谷歌 DeepMind 的研究人员介绍了 Talker-Reasoner,这是一个受人类认知“双系统”模型启发的代理框架。该框架使人工智能代理能够在不同类型的推理之间找到平衡,并提供更流畅的用户体验。
双系统理论,最初由诺贝尔奖获得者丹尼尔·卡尼曼提出,认为人类的思维是由两个截然不同的系统驱动的。系统 1 速度快、直观且自动。它支配着我们的快速判断,例如对突发事件的反应或识别熟悉的模式。相比之下,系统 2 速度慢、有条理且分析性。它能够进行复杂的解决问题、规划和推理。
虽然通常被视为独立的,但这两个系统不断地相互作用。系统 1 生成印象、直觉和意图。系统 2 评估这些建议,如果得到认可,则将其整合到明确的信念和深思熟虑的选择中。这种相互作用使我们能够无缝地应对各种情况,从日常事务到具有挑战性的问题。
当前的人工智能代理主要以系统 1 模式运行。它们擅长模式识别、快速反应和重复性任务。然而,它们在需要多步规划、复杂推理和战略决策的场景中往往表现不佳,而这些正是系统 2 思维的标志。
Talker-Reasoner 框架(来源:arXiv)
DeepMind 提出的 Talker-Reasoner 框架旨在为人工智能代理配备系统 1 和系统 2 的能力。它将代理分为两个不同的模块:Talker 和 Reasoner。
Talker 是快速、直观的组件,类似于系统 1。它处理与用户和环境的实时交互。它感知观察结果、解释语言、从记忆中检索信息并生成对话响应。Talker 代理通常使用大型语言模型 (LLM) 的上下文学习 (ICL) 能力来执行这些功能。
Reasoner 体现了系统 2 的缓慢、有条理的本质。它执行复杂的推理和规划。它被设置为执行特定任务,并与工具和外部数据源交互以增强其知识并做出明智的决策。它还会随着收集新信息而更新代理的信念。这些信念推动未来的决策,并作为 Talker 在对话中使用的记忆。
“Talker 代理专注于与用户生成自然连贯的对话,并与环境交互,而 Reasoner 代理专注于执行多步规划、推理和形成信念,这些信念以 Talker 提供的环境信息为基础,”研究人员写道。
这两个模块主要通过共享内存系统进行交互。Reasoner 使用其最新的信念和推理结果更新内存,而 Talker 检索此信息以指导其交互。这种异步通信允许 Talker 保持持续的对话流,即使 Reasoner 在后台执行其更耗时的计算。
“这类似于 [the] 行为科学双系统方法,系统 1 始终处于开启状态,而系统 2 以其容量的一小部分运行,”研究人员写道。“同样,Talker 始终处于开启状态并与环境交互,而 Reasoner 仅在 Talker 等待它时或可以从内存中读取它时更新通知 Talker 的信念。”
研究人员在一个睡眠指导应用程序中测试了他们的框架。人工智能教练通过自然语言与用户互动,为改善睡眠习惯提供个性化的指导和支持。此应用程序需要快速、同理心的对话和有条理的、基于知识的推理的结合。
睡眠教练的 Talker 组件处理对话方面,提供同理心的回应,并指导用户完成教练过程的不同阶段。Reasoner 维持关于用户睡眠问题、目标、习惯和环境的信念状态。它使用这些信息来生成个性化的建议和多步计划。相同的框架可以应用于其他应用程序,例如客户服务和个性化教育。
DeepMind 研究人员概述了未来研究的几个方向。一个重点领域是优化 Talker 和 Reasoner 之间的交互。理想情况下,Talker 应该自动确定何时查询需要 Reasoner 的干预,以及何时可以独立处理情况。这将最大限度地减少不必要的计算,并提高整体效率。
另一个方向涉及扩展框架以包含多个 Reasoner,每个 Reasoner 专注于不同类型的推理或知识领域。这将使代理能够处理更复杂的任务,并提供更全面的帮助。