前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI 前沿技术

微调已死?Google与斯坦福揭示AI学习新范式:ReasoningBank与ACE驱动智能体持续进化

NEXTECH
Last updated: 2025年10月12日 上午6:26
By NEXTECH
Share
14 Min Read
SHARE

最近,两篇新论文正在学术圈引发热议。

Google的ReasoningBank和斯坦福的ACE(Agentic Context Engineering)研究方向看似不同,实则都在解决同一个根本问题:如何让AI系统真正学会学习。

这种学习并非仅限于训练阶段,也非局限于数据集,而是指AI在使用过程中,能从自身经历中持续学习和进化。

重复犯错的AI:传统模型学习瓶颈

想象这样一个场景:当AI助手被要求在购物网站上找到某个商品的首次购买日期时,它可能先点击“最近订单”,只看到了最近的购买记录,从而错误地报告了最近一次的日期。下次遇到类似任务,它仍可能重复相同的操作,再次失败。

这正是目前大多数AI系统的现状。Google研究团队在论文中指出,即使是最先进的大语言模型Agent,也会不断重复相同的错误,因为它们缺乏从过往经验中学习的能力。每次任务都是孤立的,宝贵的经验被丢弃,导致错误不断重演。

Google的解法:ReasoningBank——AI的经验管理系统

Google提出的ReasoningBank,本质上是一个AI的经验管理系统,旨在赋能AI从自身经验中学习。它包含三个核心组件:

You Might Also Like

Claude Skills:知识工程赋能AI Agent,实现通用模型向专业‘行家里手’的范式转变
用Claude/Cursor写代码?警惕AI生成代码的10大安全漏洞!
Opera Neon 浏览器重磅升级:集成OpenAI Sora 2,开启智能视频创作新纪元
数据科学前沿:TDS十月精选,AI智能体、Python与上下文工程的最新洞察

Google ReasoningBank系统架构图
记忆提取:系统将每个执行轨迹转化为结构化的记忆项,每项包含标题(核心策略总结)、描述(一句话概述)和内容(具体的推理步骤和见解)。

双向学习:与以往只存储成功经验不同,ReasoningBank同时从成功和失败中学习。成功的轨迹提供验证过的策略,失败的轨迹则提供反面教训和需要避免的陷阱。

智能检索:面对新任务时,系统通过嵌入向量搜索找到最相关的记忆项,将其注入到系统提示中,指导决策。

更进一步,论文提出了MaTTS(Memory-aware Test-Time Scaling)机制。通过并行生成多个轨迹或迭代优化单个轨迹,系统获得丰富的对比信号,从而合成更高质量的记忆。

ReasoningBank在网页导航和代码修复任务中的实验结果
实验结果令人瞩目:在WebArena网页导航任务上,配备ReasoningBank的Gemini-2.5模型成功率从40.5%提升到48.8%,平均步数从9.7减少到8.3。在SWE-Bench代码修复任务上,平均步数减少了2.8步。

ReasoningBank在不同任务上的性能提升图

斯坦福的创新:ACE框架——活的提示词

斯坦福的ACE框架(Agentic Context Engineering)则走了完全不同的路线。该研究团队认为,与其修改模型权重,不如让输入上下文本身进化。

斯坦福ACE框架图
ACE将模型Agent分成三个专门角色:

  • 生成器(Generator):负责执行实际任务。
  • 反思器(Reflector):负责分析执行轨迹,提取成功原因或失败教训。
  • 策展人(Curator):负责将见解整合成结构化的上下文更新。

关键创新在于“增量更新”机制。传统方法倾向于重写整个提示词,容易导致“上下文崩溃”,即提示词越来越短,细节逐渐丢失。ACE则采用增量的“delta更新”,每次只添加或修改相关部分,有效保持知识的连续性。

在AppWorld基准测试上,ACE实现了惊人的提升:任务完成率达到76.2%(基线仅63.7%),在更困难的challenge分割上提升更是达到24.5%。更重要的是,ACE将适应延迟降低了86.9%,成本降低了80%以上。

ACE在AppWorld任务上的性能提升图

智能涌现:AI学习的进化轨迹

这两项研究都观察到了有趣的智能涌现行为。ReasoningBank中的记忆项会随时间演化,从简单的执行指令(如“找到导航链接”)逐步发展为复杂的组合策略(如“交叉验证需求并重新评估选项”)。这种演化过程类似于人类从新手到专家的成长轨迹。

ACE生成的上下文则变成了详尽的“操作手册”,其中包含领域特定的见解、工具使用指南,甚至可直接使用的代码片段。研究发现,与人类偏好简洁不同,大语言模型在面对长而详细的上下文时表现更好——它们能够自主提取相关信息。

AI学习新范式:告别微调,迈向持续进化

结合Google的ReasoningBank和斯坦福的ACE来看,AI学习正在发生从“无状态的计算工具”向“有记忆的智能体”的范式转变。这两篇论文都在绕开传统微调,在模型外围寻找解决方案,探索如何让AI系统真正具备持续学习和自我改进的能力。

ReasoningBank让Agent记住具体教训,而ACE则让上下文持续优化。一个侧重外部记忆,一个侧重内部流程。如果将两者结合,将得到一个既能积累经验(ReasoningBank),又能优化方法(ACE)的强大系统。

AI不仅需要变得更聪明,更要学会如何学习。“活的提示词”和“会学习的记忆”时代可能真的要来了。

TAGGED:AI前沿AI范式大模型持续学习智能体
Share This Article
Email Copy Link Print
Previous Article 一位家长正在指导孩子使用屏幕设备 儿童屏幕时间管理:皮尤研究中心揭示家长现状与策略
Next Article 系统综述:GenAI在科学教育中的潜力、挑战与未来研究方向
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251111101254652.jpg
欧盟拟强制禁用华为中兴:欧洲5G网络面临巨变?
科技
在Google TV上运行的Gemini for TV
AI 赋能新篇章:Gemini for TV 今日起全面登陆 Google TV Streamer 设备
科技
贝莱德2025年第四季度全球投资展望概览
贝莱德深度解读:2025年第四季度全球投资展望与核心策略洞察
报告
Polaris Alpha模型界面截图,展示其API调用能力
GPT-5.1“马甲”Polaris Alpha免费泄露:年末AI更新潮将至,性能抢先看
AI 前沿技术

相关内容

BIRD Text2SQL benchmark测试Agent生成SQL流程图
Agent生态

Agent-First数据库的畅想:UC Berkeley论文深度解析AI Agent如何重塑数据库

2025年10月6日
AI Agent报告内容示例图三
AI 前沿技术

69页AI Agent圣经报告:智能体发展前景、未来趋势与生态全解析

2025年10月7日
图1:AI音频模型信息图
大模型与工程化

探索AI音频模型的无限潜能:从基础概念到实际应用

2025年10月28日
Anthropic研究引发关注
AI 前沿技术

Anthropic重磅研究:250份文档即可投毒任意大模型,颠覆AI安全认知

2025年10月12日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up