前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

龙与地下城游戏助力AI智能提升未知任务表现

NEXTECH
Last updated: 2025年3月10日 上午6:52
By NEXTECH
Share
11 Min Read
SHARE

加入我们的每日和每周通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多

对于希望部署 AI 代理的组织来说,首先需要对它们进行微调,尤其是在那些经常感到枯燥乏味的流程中。虽然有些组织希望代理只在一种工作流程中执行一种任务,但有时需要将代理引入新的环境,并希望它们能够适应。

来自北京邮电大学的研究人员推出了一种名为 AgentRefine 的新方法。它教会代理自我纠正,从而产生更通用、更具适应性的 AI 代理。

研究人员表示,目前的微调方法将代理限制在与训练数据集相同的任务(即“保留”任务)中,并且在“保留”任务(即新环境)中表现不佳。由于只遵循训练数据中规定的规则,使用这些框架训练的代理在“从错误中学习”方面会遇到困难,无法成为通用代理,也无法引入新的工作流程。

为了克服这一限制,AgentRefine 旨在创建更通用的代理训练数据集,使模型能够从错误中学习并适应新的工作流程。在一篇新论文中,研究人员表示,AgentRefine 的目标是“开发通用的代理微调数据,并建立代理泛化与自我完善之间的相关性”。如果代理能够自我纠正,它们就不会延续任何学到的错误,并将这些错误带到部署到的其他环境中。

研究人员写道:“我们发现,在自我完善数据上对代理进行微调,可以增强代理在遇到不良情况时探索更多可行的行动,从而更好地泛化到新的代理环境。”

研究人员从桌面角色扮演游戏《龙与地下城》中获得灵感,创建了角色、代理需要遵循的脚本和挑战。当然,也有一位地下城主(DM)。

他们将 AgentRefine 的数据构建分为三个领域:脚本生成、轨迹生成和验证。

在脚本生成中,模型会创建一个脚本,即包含有关环境、任务和角色可以采取的行动信息的指南。(研究人员使用 Llama-3-8B-Instruct、Llama-3-70B-Instruct、Mistral-7B-Instruct-v0.3、GPT-4o-mini 和 GPT-4o 测试了 AgentRefine。)

然后,模型会生成包含错误的代理数据,并在轨迹阶段充当 DM 和玩家。它会评估可以采取的行动,然后查看这些行动是否包含错误。最后一个阶段,验证,会检查脚本和轨迹,使它训练的代理有可能进行自我纠正。

研究人员发现,使用 AgentRefine 方法和数据集训练的代理在各种任务上的表现更好,并且能够适应新的场景。这些代理会更多地自我纠正,以重新引导它们的行动和决策,避免错误,并在此过程中变得更加健壮。

特别是,AgentRefine 提高了所有模型在保留任务上的表现。

企业必须使代理更具任务适应性,这样它们就不会重复只学到的东西,从而成为更好的决策者。编排代理不仅可以为多个代理“引导流量”,还可以根据用户请求确定代理是否已完成任务。

OpenAI 的 o3 提供“程序合成”,可以提高任务适应性。其他编排和训练框架,例如微软的 Magentic-One,会为监督代理设置行动,以便它们学习何时将任务转移到不同的代理。

Share This Article
Email Copy Link Print
Previous Article 20250309175017165.jpg Carbon Majors database:报告显示仅36家公司就占全球二氧化碳排放量的50%
Next Article 20250309225415480.png DeepMind 提升大模型真实性,减少幻觉
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
2025年稀土出口管制致全球汽车产业危机
报告
特斯拉中国:2025年5月销量61662辆,同比下降15%
报告
Omdia:2025年Q1 SK海力士DRAM市场份额36.9%超三星
报告
OpenAI:2025年ChatGPT商业用户达300万,增长50%
报告

相关内容

20241114175728606.png
AI

Runway 发布 Act-One AI 表情捕捉功能

2024年11月14日
20241117065748529.jpg
AI

Anthropic AI 工具提升准确率30%

2024年11月17日
AI

人工智能无法让你成为更好的作家

2024年11月17日
黄仁勋鼓勵企業領袖積極將 AI 納入業務策略,並指出在未來的經濟環境中,AI 將扮演關鍵角色。
AI

黄仁勋详解英伟达三大领域AI创新应用

2024年10月29日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?