前途科技前途科技
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 洞察
    • 政策
    • 初创
  • 研究资源
    • 案例研究
    • 报告
    • 工具推荐
    • 术语词典
  • 服务
  • 关于
联系我们

龙与地下城游戏助力AI智能提升未知任务表现

洞察2025年3月10日· 5 分钟阅读0 阅读

加入我们的每日和每周通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多 对于希望部署 AI 代 […]

加入我们的每日和每周通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多

对于希望部署 AI 代理的组织来说,首先需要对它们进行微调,尤其是在那些经常感到枯燥乏味的流程中。虽然有些组织希望代理只在一种工作流程中执行一种任务,但有时需要将代理引入新的环境,并希望它们能够适应。

来自北京邮电大学的研究人员推出了一种名为 AgentRefine 的新方法。它教会代理自我纠正,从而产生更通用、更具适应性的 AI 代理。

研究人员表示,目前的微调方法将代理限制在与训练数据集相同的任务(即“保留”任务)中,并且在“保留”任务(即新环境)中表现不佳。由于只遵循训练数据中规定的规则,使用这些框架训练的代理在“从错误中学习”方面会遇到困难,无法成为通用代理,也无法引入新的工作流程。

为了克服这一限制,AgentRefine 旨在创建更通用的代理训练数据集,使模型能够从错误中学习并适应新的工作流程。在一篇新论文中,研究人员表示,AgentRefine 的目标是“开发通用的代理微调数据,并建立代理泛化与自我完善之间的相关性”。如果代理能够自我纠正,它们就不会延续任何学到的错误,并将这些错误带到部署到的其他环境中。

研究人员写道:“我们发现,在自我完善数据上对代理进行微调,可以增强代理在遇到不良情况时探索更多可行的行动,从而更好地泛化到新的代理环境。”

研究人员从桌面角色扮演游戏《龙与地下城》中获得灵感,创建了角色、代理需要遵循的脚本和挑战。当然,也有一位地下城主(DM)。

他们将 AgentRefine 的数据构建分为三个领域:脚本生成、轨迹生成和验证。

在脚本生成中,模型会创建一个脚本,即包含有关环境、任务和角色可以采取的行动信息的指南。(研究人员使用 Llama-3-8B-Instruct、Llama-3-70B-Instruct、Mistral-7B-Instruct-v0.3、GPT-4o-mini 和 GPT-4o 测试了 AgentRefine。)

然后,模型会生成包含错误的代理数据,并在轨迹阶段充当 DM 和玩家。它会评估可以采取的行动,然后查看这些行动是否包含错误。最后一个阶段,验证,会检查脚本和轨迹,使它训练的代理有可能进行自我纠正。

研究人员发现,使用 AgentRefine 方法和数据集训练的代理在各种任务上的表现更好,并且能够适应新的场景。这些代理会更多地自我纠正,以重新引导它们的行动和决策,避免错误,并在此过程中变得更加健壮。

特别是,AgentRefine 提高了所有模型在保留任务上的表现。

企业必须使代理更具任务适应性,这样它们就不会重复只学到的东西,从而成为更好的决策者。编排代理不仅可以为多个代理“引导流量”,还可以根据用户请求确定代理是否已完成任务。

OpenAI 的 o3 提供“程序合成”,可以提高任务适应性。其他编排和训练框架,例如微软的 Magentic-One,会为监督代理设置行动,以便它们学习何时将任务转移到不同的代理。

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

Waymo与特斯拉出席参议院听证会,自动驾驶安全成焦点
TOP1

Waymo与特斯拉出席参议院听证会,自动驾驶安全成焦点

微软Copilot付费转化率仅3.3%,AI投入回报成疑
TOP2

微软Copilot付费转化率仅3.3%,AI投入回报成疑

3

欧盟发布AI法案高风险系统关键指南

22小时前
欧盟发布AI法案高风险系统关键指南
4

美国新法为多癌种检测开辟医保覆盖路径

17小时前
美国新法为多癌种检测开辟医保覆盖路径
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号