加入我们的每日和每周通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
对于希望部署 AI 代理的组织来说,首先需要对它们进行微调,尤其是在那些经常感到枯燥乏味的流程中。虽然有些组织希望代理只在一种工作流程中执行一种任务,但有时需要将代理引入新的环境,并希望它们能够适应。
来自北京邮电大学的研究人员推出了一种名为 AgentRefine 的新方法。它教会代理自我纠正,从而产生更通用、更具适应性的 AI 代理。
研究人员表示,目前的微调方法将代理限制在与训练数据集相同的任务(即“保留”任务)中,并且在“保留”任务(即新环境)中表现不佳。由于只遵循训练数据中规定的规则,使用这些框架训练的代理在“从错误中学习”方面会遇到困难,无法成为通用代理,也无法引入新的工作流程。
为了克服这一限制,AgentRefine 旨在创建更通用的代理训练数据集,使模型能够从错误中学习并适应新的工作流程。在一篇新论文中,研究人员表示,AgentRefine 的目标是“开发通用的代理微调数据,并建立代理泛化与自我完善之间的相关性”。如果代理能够自我纠正,它们就不会延续任何学到的错误,并将这些错误带到部署到的其他环境中。
研究人员写道:“我们发现,在自我完善数据上对代理进行微调,可以增强代理在遇到不良情况时探索更多可行的行动,从而更好地泛化到新的代理环境。”
研究人员从桌面角色扮演游戏《龙与地下城》中获得灵感,创建了角色、代理需要遵循的脚本和挑战。当然,也有一位地下城主(DM)。
他们将 AgentRefine 的数据构建分为三个领域:脚本生成、轨迹生成和验证。
在脚本生成中,模型会创建一个脚本,即包含有关环境、任务和角色可以采取的行动信息的指南。(研究人员使用 Llama-3-8B-Instruct、Llama-3-70B-Instruct、Mistral-7B-Instruct-v0.3、GPT-4o-mini 和 GPT-4o 测试了 AgentRefine。)
然后,模型会生成包含错误的代理数据,并在轨迹阶段充当 DM 和玩家。它会评估可以采取的行动,然后查看这些行动是否包含错误。最后一个阶段,验证,会检查脚本和轨迹,使它训练的代理有可能进行自我纠正。
研究人员发现,使用 AgentRefine 方法和数据集训练的代理在各种任务上的表现更好,并且能够适应新的场景。这些代理会更多地自我纠正,以重新引导它们的行动和决策,避免错误,并在此过程中变得更加健壮。
特别是,AgentRefine 提高了所有模型在保留任务上的表现。
企业必须使代理更具任务适应性,这样它们就不会重复只学到的东西,从而成为更好的决策者。编排代理不仅可以为多个代理“引导流量”,还可以根据用户请求确定代理是否已完成任务。
OpenAI 的 o3 提供“程序合成”,可以提高任务适应性。其他编排和训练框架,例如微软的 Magentic-One,会为监督代理设置行动,以便它们学习何时将任务转移到不同的代理。