前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

龙与地下城游戏助力AI智能提升未知任务表现

NEXTECH
Last updated: 2025年3月10日 上午6:52
By NEXTECH
Share
11 Min Read
SHARE

加入我们的每日和每周通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多

对于希望部署 AI 代理的组织来说,首先需要对它们进行微调,尤其是在那些经常感到枯燥乏味的流程中。虽然有些组织希望代理只在一种工作流程中执行一种任务,但有时需要将代理引入新的环境,并希望它们能够适应。

来自北京邮电大学的研究人员推出了一种名为 AgentRefine 的新方法。它教会代理自我纠正,从而产生更通用、更具适应性的 AI 代理。

研究人员表示,目前的微调方法将代理限制在与训练数据集相同的任务(即“保留”任务)中,并且在“保留”任务(即新环境)中表现不佳。由于只遵循训练数据中规定的规则,使用这些框架训练的代理在“从错误中学习”方面会遇到困难,无法成为通用代理,也无法引入新的工作流程。

为了克服这一限制,AgentRefine 旨在创建更通用的代理训练数据集,使模型能够从错误中学习并适应新的工作流程。在一篇新论文中,研究人员表示,AgentRefine 的目标是“开发通用的代理微调数据,并建立代理泛化与自我完善之间的相关性”。如果代理能够自我纠正,它们就不会延续任何学到的错误,并将这些错误带到部署到的其他环境中。

研究人员写道:“我们发现,在自我完善数据上对代理进行微调,可以增强代理在遇到不良情况时探索更多可行的行动,从而更好地泛化到新的代理环境。”

研究人员从桌面角色扮演游戏《龙与地下城》中获得灵感,创建了角色、代理需要遵循的脚本和挑战。当然,也有一位地下城主(DM)。

他们将 AgentRefine 的数据构建分为三个领域:脚本生成、轨迹生成和验证。

在脚本生成中,模型会创建一个脚本,即包含有关环境、任务和角色可以采取的行动信息的指南。(研究人员使用 Llama-3-8B-Instruct、Llama-3-70B-Instruct、Mistral-7B-Instruct-v0.3、GPT-4o-mini 和 GPT-4o 测试了 AgentRefine。)

然后,模型会生成包含错误的代理数据,并在轨迹阶段充当 DM 和玩家。它会评估可以采取的行动,然后查看这些行动是否包含错误。最后一个阶段,验证,会检查脚本和轨迹,使它训练的代理有可能进行自我纠正。

研究人员发现,使用 AgentRefine 方法和数据集训练的代理在各种任务上的表现更好,并且能够适应新的场景。这些代理会更多地自我纠正,以重新引导它们的行动和决策,避免错误,并在此过程中变得更加健壮。

特别是,AgentRefine 提高了所有模型在保留任务上的表现。

企业必须使代理更具任务适应性,这样它们就不会重复只学到的东西,从而成为更好的决策者。编排代理不仅可以为多个代理“引导流量”,还可以根据用户请求确定代理是否已完成任务。

OpenAI 的 o3 提供“程序合成”,可以提高任务适应性。其他编排和训练框架,例如微软的 Magentic-One,会为监督代理设置行动,以便它们学习何时将任务转移到不同的代理。

Share This Article
Email Copy Link Print
Previous Article 20250309175017165.jpg Carbon Majors database:报告显示仅36家公司就占全球二氧化碳排放量的50%
Next Article 20250309225415480.png DeepMind 提升大模型真实性,减少幻觉
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251205183721458.jpg
南部非洲古人类基因组改写进化史:20万年隔离与独特基因
科技
20251205180959635.jpg
AMD为对华出口AI芯片支付15%税费,引发美国宪法争议
科技
20251205174331374.jpg
家的定义与核心价值:探索现代居住空间的意义
科技
20251202135921634.jpg
英伟达20亿美元投资新思科技,AI芯片设计革命加速
科技

相关内容

20241114205158986.gif
AI

谷歌AI系统将革新书写方式:InkSight让手写笔记数字化

2024年11月14日
Qwen3-VL模型崩溃截图示例
AI 前沿技术

Unsloth发布Qwen3-VL本地运行与微调指南:深度解析及关键Bug修复

2025年11月2日
20250321225215920.jpg
AI

巨额投资复活猛犸象、袋狼和渡渡鸟

2025年3月22日
AI 前沿技术

Claude Skills深度解析:一张图看懂它与MCP、Project的差异与协作

2025年11月17日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up