前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
Agent生态

阿里开源通义DeepResearch:科研智能体训练全流程深度解析

NEXTECH
Last updated: 2025年10月18日 上午6:36
By NEXTECH
Share
24 Min Read
SHARE

阿里开源通义DeepResearch:科研智能体训练全流程深度解析

DeepResearch模型在科研场景中的应用示意图 2025年9月16日,阿里通义实验室发布了DeepResearch,这是一款针对科研场景设计的开源智能体模型系统。它不再是简单的对话机器人,而是能像研究人员一样,围绕一个问题构建完整的“研究闭环”:深度检索、跨源交叉、结构化归纳、报告生成,最终输出有引用、可复现的调研报告与决策建议。通义团队通过创新的技术架构和训练方法,使DeepResearch在多个极高难度的信息检索和推理任务中取得了最先进的(SOTA)成绩:

  • Humanity’s Last Exam (HLE):32.9
  • BrowseComp‑EN:43.4
  • BrowseComp‑ZH:46.7
  • xBench‑DeepSearch:75.0

DeepResearch与现有智能体性能对比图 DeepResearch全面超越了目前所有的闭源及开源智能体(Agent)。此外,通义团队还完整分享了一套可落地的高水平智能体构建方法论,详细介绍了从数据合成、Agentic 增量预训练(CPT)、有监督微调(SFT)冷启动,到强化学习(RL)的全套流程。

数据合成策略:为训练提供海量“燃料”

通义 DeepResearch 独创了全自动合成数据管道,彻底摆脱了昂贵人工标注的瓶颈。团队设计了一个名为 AgentFounder 的系统,持续从文档、网络爬取数据、知识图谱、工具调用记录等多源采集信息,构建“实体锚定的开放世界知识记忆”。基于采样得到的实体和相关知识,系统自动生成多种风格的问题–答案对,为预训练和后续微调提供海量基础训练样本。这些过程可以被想象成给模型构建了一个“知识宫殿”和“练习题库”,使其能够不断积累各种知识和场景下的问答能力。

此外,团队还进行动作(行为)合成:基于历史交互轨迹和题目,生成推理与决策过程数据。例如,将原始步骤重构为多步规划决策任务,形成多阶段解决方案序列。这些合成轨迹模拟模型在真实 Web 环境中的查询、点击、推理步骤,极大丰富了智能体对不同操作序列的认识,甚至无需额外调用真实 API 就能离线模拟各种复杂推理动作。所有这些数据合成策略形成了一个“数据飞轮”:预训练产生的数据不断供给后续阶段,又反过来促进更多样本的生成。

Agentic 增量预训练 (CPT):夯实模型基础

You Might Also Like

阿里Qoder CLI重磅发布:赋能终端命令编程,开启AI编程新范式
SubAgents:多模型融合与成本极致压缩的AI编程实践
Claude Skills:革新AI任务处理,超越MCP协议的Agent新范式
知识永生:AI智能体如何将组织经验沉淀为永久资产,解决传统知识管理困境

Agentic CPT相当于给智能体做“扎实的理论学习”。团队首先用合成好的大规模数据对基础语言模型进行增量预训练。在这个阶段,模型并非仅仅背诵静态文本,而是学习一系列模拟“研究过程”的轨迹:比如根据一个查询逐步提取文档信息、调用工具、形成答案。这通过掩码语言建模的方式,使模型隐式学会规划和工具使用的技能。在类比上,就像让学徒阅读大量专业书籍和案例解析,同时练习整理信息和提出问题,为后续的实践操作打下坚实基础。Agentic CPT 的创新在于其AgentFounder 数据方案:利用前述数据合成产生的丰富问答对与推理过程,实现了可扩展的大规模训练。

有监督微调 (SFT) 冷启动:模拟专家示范

在增量预训练后,通义 DeepResearch 会让模型通过有监督微调 (SFT)进行“专家示范”训练,快速进入任务状态。此阶段使用合成的高质量问答和轨迹数据,使模型学习规范的思考–行动–观察循环。具体做法是用两种风格的示例训练模型:一是经典的 ReAct 形式(“思考→行动→观察”循环),使模型学会结构化答题;二是团队提出的 IterResearch 形式,即在多轮推理时每轮重新聚焦关键内容,避免上下文信息过多造成干扰。SFT 阶段可以被比作导师带着学生做练习题:模型在“老师示范”下,将之前打好的理论知识用于具体问答和多轮推理场景。通过这样的冷启动,模型迅速掌握从结构化思考到生成连贯行动的能力,为后续自我优化打下良好基础。

智能体强化学习流程图 强化学习 (RL):在模拟环境中自我演练

最后进入强化学习阶段,智能体在安全可控的模拟环境中“自行试错”,持续优化决策策略。通义团队采用定制的GRPO(Group Relative Policy Optimization)算法,严格遵循on-policy训练范式,确保奖励信号与模型当前能力匹配。在训练目标上,使用了基于Token级别的策略梯度损失,并引入留一法(leave-one-out)来降低方差,同时有选择地剔除过长未完成的负样本,避免模型陷入“格式崩溃”。训练时还通过增大批次和并行实例来稳定学习。这类似于模拟战场练习,智能体不断在仿真网页环境中进行查询、点击和推理,每一次成功完成任务都会得到奖励,模型的策略随着奖励(reward)持续上升,探索度(policy entropy)保持高位。这一切都依托稳定的环境和数据支持:团队构建了离线维基百科+自制工具的沙盒模拟环境,并实时自动管理生成数据,以保证训练过程高效且鲁棒。

阶段协同与闭环:不断迭代的训练循环

通义 DeepResearch 的成功还在于各阶段环环相扣、形成闭环。从CPT阶段打基础,到SFT阶段冷启动,最后到RL阶段自我进化,每一步都为下一步提供素材和启发。CPT和SFT产生的合成数据反过来可用于强化学习训练,RL训练新得的轨迹也可反馈到数据管道中,持续丰富训练样本。这可谓是一个不断“自己喂养自己”的训练循环。正如通义团队所总结的:“从基础模型开始,先进行了 Agentic 持续预训练以初始化工具使用技能,然后使用类似专家的数据进行监督微调以实现冷启动,最后进行基于策略的强化学习,使模型进行自我进化”。这一全栈式方案相当于教会一个学习者:先在课堂上学习知识、再在实验室跟随导师练习,最后独立做项目,实现技能的真实落地。

DeepResearch智能体训练流程全景图 整体来看,通义 DeepResearch 的训练流程兼顾了规模化合成数据与精细化算法设计。通过高质量数据合成不断为模型提供“训练燃料”,并在各阶段采用面向智能体特性的训练目标和策略,最终培养出能够自主规划、多步推理的开源智能体。这一创新方法论为开源社区提供了完整可复现的方案,揭示了从“聊天机器人”到“自主研究者”转型的路径。

应用场景

DeepResearch已在实际产品中得到应用。阿里表示,该模型已赋能高德地图和“通义法睿”等内部项目。例如,在高德地图中,DeepResearch被用作智能出行Agent:集成专用地图API、实时天气和交通监测等工具,可根据当前情况规划最优路线。通义团队与高德团队合作,通过DeepResearch模型提供能力,结合高德团队的工具和Agent链路,成功打造了高德App中助手「小高老师」的复杂查询体验,并在地图行业内打出了影响力。

在法律领域,DeepResearch驱动的“通义法睿”智能体能自动检索法律法规、案例和裁判文书,并进行深度归纳分析,在“法条引用相关性”和“案例引用相关性”两项指标上超过了OpenAI和Claude等国际顶尖模型,为法律从业者提供了准确可靠的检索和分析支持。

开源链接

  • Homepage: https://tongyi-agent.github.io/
  • Blog: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
  • Github: https://github.com/Alibaba-NLP/DeepResearch
  • Hugging Face: https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
  • Model Scope: https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B
TAGGED:Agent训练DeepResearch开源AI智能体通义
Share This Article
Email Copy Link Print
Previous Article 图1:mcRigor 论文发表情况 mcRigor:统计方法提升单细胞数据元细胞划分的严谨性与可靠性
Next Article Speech LLM 落地挑战 美团开源LongCat-Audio-Codec:高效语音编解码器助力Speech LLM实时交互落地
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251205190349369.jpg
Meta战略大转向:削减30%元宇宙预算,全力押注AI
科技
20251205183721458.jpg
南部非洲古人类基因组改写进化史:20万年隔离与独特基因
科技
20251205180959635.jpg
AMD为对华出口AI芯片支付15%税费,引发美国宪法争议
科技
20251205174331374.jpg
家的定义与核心价值:探索现代居住空间的意义
科技

相关内容

企业级Agent面临的挑战
Agent生态

瓴羊AgentOne:阿里十年场景沉淀赋能企业级智能体,深度解析其应用与挑战

2025年10月17日
ACP 作为面向 Agent 的开放商业标准
Agent生态

Stripe 联手 OpenAI 发布 ACP:深入探讨 Agent 支付战略与 AI 经济影响

2025年11月7日
传统数据治理面临的挑战
AI 前沿技术

语义治理:面向AI时代的企业数据治理新范式

2025年10月18日
Devin.ai DeepWiki自动生成的项目知识库示例界面
Agent生态

Claude Agent SDK实践:构建开源DeepWiki项目知识库

2025年10月26日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up