订阅我们的每日和每周新闻通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
大型语言模型 (LLM) 在通过搜索可能的解决方案来解决规划和推理任务方面展现出巨大潜力。然而,现有的方法可能速度缓慢、计算成本高昂且提供不可靠的答案。
来自康奈尔大学和 IBM 研究院的研究人员推出了一种名为 AutoToS 的新技术,它将 LLM 的规划能力与基于规则的搜索算法的速度和准确性相结合。AutoToS 消除了对人工干预的需求,并显著降低了解决规划问题的计算成本。这使其成为必须对大型解决方案空间进行推理的 LLM 应用的有前景的技术。
人们越来越关注使用 LLM 来处理规划问题,研究人员为此开发了几种技术。更成功的方法,例如思想树,使用 LLM 作为一种搜索算法,可以验证解决方案并提出修正建议。
虽然这些方法已经展示出令人印象深刻的结果,但它们面临着两个主要挑战。首先,它们需要多次调用 LLM,这在处理具有数千种可能解决方案的复杂问题时可能计算成本高昂。其次,它们不能保证基于 LLM 的算法符合“完整性”和“健全性”。完整性确保如果存在解决方案,算法最终将找到它,而健全性保证算法返回的任何解决方案都是有效的。
搜索思想 (ToS) 提供了一种替代方法。ToS 利用 LLM 为搜索算法的两个关键组件生成代码:后继函数和目标函数。后继函数确定搜索算法如何探索搜索空间中的不同节点,而目标函数检查搜索算法是否已达到所需状态。然后,这些函数可以被任何离线搜索算法用来解决问题。这种方法比在搜索过程中将 LLM 保持在循环中效率高得多。
“从历史上看,在规划领域,这些搜索组件要么是为每个新问题手动编码的,要么是通过从规划语言(如 PDDL)中的描述进行自动翻译生成的,而 PDDL 本身要么是手动编码的,要么是从数据中学习的,”IBM 研究院首席研究员迈克尔·卡茨告诉 VentureBeat。“我们建议使用大型语言模型从规划问题的文本描述中生成搜索组件的代码。”
最初的 ToS 技术在解决搜索算法的健全性和完整性要求方面取得了令人印象深刻的进展。然而,它需要人类专家对生成的代码提供反馈,并帮助模型改进其输出。这种人工审查是一个瓶颈,降低了算法的速度。
AutoToS(来源:arXiv)
“在 [ToS] 中,我们假设人类专家参与其中,他们可以检查代码并向模型反馈生成的代码中可能存在的问题,以生成更好的搜索组件版本,”卡茨说。“我们认为,为了自动化以自然语言提供的规划问题的解决过程,第一步必须是将人类从循环中移除。”
AutoToS 使用单元测试和调试语句,结合少样本和思维链 (CoT) 提示技术,自动执行反馈和异常处理过程。
AutoToS 分多个步骤工作。首先,它向 LLM 提供问题描述,并提示它为后继函数和目标函数生成代码。接下来,它对目标函数运行单元测试,如果测试失败,则向模型提供反馈。然后,模型使用此反馈来纠正其代码。一旦目标函数通过测试,算法就会运行有限的广度优先搜索,以检查函数是否健全且完整。重复此过程,直到生成的函数通过所有测试。
最后,经过验证的函数被插入到经典的搜索算法中,以高效地执行完整搜索。
研究人员在几个规划和推理任务上评估了 AutoToS,包括 BlocksWorld、Mini Crossword 和 24 Game。24 Game 是一款数学谜题,其中给定四个整数,必须使用基本算术运算来创建一个等于 24 的公式。BlocksWorld 是一个经典的 AI 规划领域,目标是重新排列堆叠在塔中的积木。Mini Crosswords 是一种简化的纵横字谜,包含一个 5×5 的网格。
他们测试了来自不同系列的各种 LLM,包括 GPT-4o、Llama 2 和 DeepSeek Coder。他们使用了每个系列中最大和最小的模型来评估模型大小对性能的影响。
他们的发现表明,使用 AutoToS,所有模型都能够在收到反馈时识别并纠正其代码中的错误。较大的模型通常在没有反馈的情况下生成正确的目标函数,并且只需要几次迭代即可改进后继函数。有趣的是,GPT-4o-mini 在准确性方面表现出令人惊讶的出色,尽管其尺寸很小。
“只需调用语言模型几次,我们证明了我们可以在没有任何直接的人工参与反馈的情况下获得搜索组件,确保健全性、完整性、准确性和所有模型和所有领域几乎 100% 的准确性,”研究人员写道。
与其他基于 LLM 的规划方法相比,ToS 大幅减少了对 LLM 的调用次数。例如,对于包含 1,362 个谜题的 24 Game 数据集,以前的方法将调用 GPT-4 大约 100,000 次。另一方面,AutoToS 平均只需要 2.2 次调用即可生成健全的搜索组件。
“有了这些组件,我们可以使用标准的 BFS 算法在不到 2 秒的时间内解决所有 1,362 个游戏,并获得 100% 的准确性,而以前的方法无法实现这两点,”卡茨说。
AutoToS 可以对需要基于规划的解决方案的企业应用程序产生直接影响。它降低了使用 LLM 的成本,减少了对人工劳动的依赖,使专家能够专注于高级规划和目标规范。
“我们希望 AutoToS 可以帮助开发和部署基于规划的解决方案,”卡茨说。“它在需要的地方使用语言模型——提出可验证的搜索组件,加快开发过程,并绕过这些模型在部署中的不必要参与,避免了部署大型语言模型的许多问题。”
ToS 和 AutoToS 是神经符号 AI 的例子,这是一种混合方法,它结合了深度学习和基于规则的系统的优势来解决复杂问题。神经符号 AI 正在成为一种有前景的方向,可以解决当前 AI 系统的一些局限性。
“我认为,混合系统在 AI 未来中的作用毫无疑问,”IBM 研究科学家哈莎·科凯尔告诉 VentureBeat。“当前的语言模型可以被视为混合系统,因为它们执行搜索以获得下一个标记。”
虽然 ToS 和 AutoToS 表现出巨大的潜力,但仍有进一步探索的空间。
“看到自然语言规划领域如何发展以及 LLM 如何改进规划工具在决策工作流程中的集成,这令人兴奋,为未来智能代理打开了机会,”科凯尔和卡茨说。“我们对 LLM 的世界知识如何帮助改进现实世界环境中的规划和行动这一普遍问题感兴趣。”