龙与地下城游戏助力AI智能提升未知任务表现

加入我们的每日和每周通讯，获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多

对于希望部署 AI 代理的组织来说，首先需要对它们进行微调，尤其是在那些经常感到枯燥乏味的流程中。虽然有些组织希望代理只在一种工作流程中执行一种任务，但有时需要将代理引入新的环境，并希望它们能够适应。

来自北京邮电大学的研究人员推出了一种名为 AgentRefine 的新方法。它教会代理自我纠正，从而产生更通用、更具适应性的 AI 代理。

研究人员表示，目前的微调方法将代理限制在与训练数据集相同的任务（即“保留”任务）中，并且在“保留”任务（即新环境）中表现不佳。由于只遵循训练数据中规定的规则，使用这些框架训练的代理在“从错误中学习”方面会遇到困难，无法成为通用代理，也无法引入新的工作流程。

为了克服这一限制，AgentRefine 旨在创建更通用的代理训练数据集，使模型能够从错误中学习并适应新的工作流程。在一篇新论文中，研究人员表示，AgentRefine 的目标是“开发通用的代理微调数据，并建立代理泛化与自我完善之间的相关性”。如果代理能够自我纠正，它们就不会延续任何学到的错误，并将这些错误带到部署到的其他环境中。

研究人员写道：“我们发现，在自我完善数据上对代理进行微调，可以增强代理在遇到不良情况时探索更多可行的行动，从而更好地泛化到新的代理环境。”

研究人员从桌面角色扮演游戏《龙与地下城》中获得灵感，创建了角色、代理需要遵循的脚本和挑战。当然，也有一位地下城主（DM）。

他们将 AgentRefine 的数据构建分为三个领域：脚本生成、轨迹生成和验证。

在脚本生成中，模型会创建一个脚本，即包含有关环境、任务和角色可以采取的行动信息的指南。（研究人员使用 Llama-3-8B-Instruct、Llama-3-70B-Instruct、Mistral-7B-Instruct-v0.3、GPT-4o-mini 和 GPT-4o 测试了 AgentRefine。）

然后，模型会生成包含错误的代理数据，并在轨迹阶段充当 DM 和玩家。它会评估可以采取的行动，然后查看这些行动是否包含错误。最后一个阶段，验证，会检查脚本和轨迹，使它训练的代理有可能进行自我纠正。

研究人员发现，使用 AgentRefine 方法和数据集训练的代理在各种任务上的表现更好，并且能够适应新的场景。这些代理会更多地自我纠正，以重新引导它们的行动和决策，避免错误，并在此过程中变得更加健壮。

特别是，AgentRefine 提高了所有模型在保留任务上的表现。

企业必须使代理更具任务适应性，这样它们就不会重复只学到的东西，从而成为更好的决策者。编排代理不仅可以为多个代理“引导流量”，还可以根据用户请求确定代理是否已完成任务。

OpenAI 的 o3 提供“程序合成”，可以提高任务适应性。其他编排和训练框架，例如微软的 Magentic-One，会为监督代理设置行动，以便它们学习何时将任务转移到不同的代理。

龙与地下城游戏助力AI智能提升未知任务表现

发表回复取消回复

最新内容

《亚洲水发展展望2025》深度解读：亚太水安全喜忧参半，未来挑战何在？

谷歌支付6800万美元和解语音助手监听诉讼，你的隐私可能被“误触发”录音

甲骨文豪掷500亿美元押注AI基建，美国数据中心版图加速扩张

OpenAI总裁豪掷2500万美元支持特朗普，科技巨头与政坛的深度捆绑引关注

相关内容

OpenAI 呼吁全球共建AI联盟

2025 CES：博世科技指南聚焦AI技能

輝達发布AI语音机器Fugatto：声音界的“瑞士军刀”

人形机器人独角兽Figure：募资10亿美元，估值飙升至390亿的背后逻辑与未来展望

分类

快速链接

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复