阿里开源通义DeepResearch：科研智能体训练全流程深度解析

DeepResearch模型在科研场景中的应用示意图 2025年9月16日，阿里通义实验室发布了DeepResearch，这是一款针对科研场景设计的开源智能体模型系统。它不再是简单的对话机器人，而是能像研究人员一样，围绕一个问题构建完整的“研究闭环”：深度检索、跨源交叉、结构化归纳、报告生成，最终输出有引用、可复现的调研报告与决策建议。通义团队通过创新的技术架构和训练方法，使DeepResearch在多个极高难度的信息检索和推理任务中取得了最先进的（SOTA）成绩：

Humanity’s Last Exam (HLE)：32.9
BrowseComp‑EN：43.4
BrowseComp‑ZH：46.7
xBench‑DeepSearch：75.0

DeepResearch与现有智能体性能对比图 DeepResearch全面超越了目前所有的闭源及开源智能体（Agent）。此外，通义团队还完整分享了一套可落地的高水平智能体构建方法论，详细介绍了从数据合成、Agentic 增量预训练（CPT）、有监督微调（SFT）冷启动，到强化学习（RL）的全套流程。

数据合成策略：为训练提供海量“燃料”

通义 DeepResearch 独创了全自动合成数据管道，彻底摆脱了昂贵人工标注的瓶颈。团队设计了一个名为 AgentFounder 的系统，持续从文档、网络爬取数据、知识图谱、工具调用记录等多源采集信息，构建“实体锚定的开放世界知识记忆”。基于采样得到的实体和相关知识，系统自动生成多种风格的问题–答案对，为预训练和后续微调提供海量基础训练样本。这些过程可以被想象成给模型构建了一个“知识宫殿”和“练习题库”，使其能够不断积累各种知识和场景下的问答能力。

此外，团队还进行动作（行为）合成：基于历史交互轨迹和题目，生成推理与决策过程数据。例如，将原始步骤重构为多步规划决策任务，形成多阶段解决方案序列。这些合成轨迹模拟模型在真实 Web 环境中的查询、点击、推理步骤，极大丰富了智能体对不同操作序列的认识，甚至无需额外调用真实 API 就能离线模拟各种复杂推理动作。所有这些数据合成策略形成了一个“数据飞轮”：预训练产生的数据不断供给后续阶段，又反过来促进更多样本的生成。

Agentic 增量预训练 (CPT)：夯实模型基础

Agentic CPT相当于给智能体做“扎实的理论学习”。团队首先用合成好的大规模数据对基础语言模型进行增量预训练。在这个阶段，模型并非仅仅背诵静态文本，而是学习一系列模拟“研究过程”的轨迹：比如根据一个查询逐步提取文档信息、调用工具、形成答案。这通过掩码语言建模的方式，使模型隐式学会规划和工具使用的技能。在类比上，就像让学徒阅读大量专业书籍和案例解析，同时练习整理信息和提出问题，为后续的实践操作打下坚实基础。Agentic CPT 的创新在于其AgentFounder 数据方案：利用前述数据合成产生的丰富问答对与推理过程，实现了可扩展的大规模训练。

有监督微调 (SFT) 冷启动：模拟专家示范

在增量预训练后，通义 DeepResearch 会让模型通过有监督微调 (SFT)进行“专家示范”训练，快速进入任务状态。此阶段使用合成的高质量问答和轨迹数据，使模型学习规范的思考–行动–观察循环。具体做法是用两种风格的示例训练模型：一是经典的 ReAct 形式（“思考→行动→观察”循环），使模型学会结构化答题；二是团队提出的 IterResearch 形式，即在多轮推理时每轮重新聚焦关键内容，避免上下文信息过多造成干扰。SFT 阶段可以被比作导师带着学生做练习题：模型在“老师示范”下，将之前打好的理论知识用于具体问答和多轮推理场景。通过这样的冷启动，模型迅速掌握从结构化思考到生成连贯行动的能力，为后续自我优化打下良好基础。

智能体强化学习流程图 强化学习 (RL)：在模拟环境中自我演练

最后进入强化学习阶段，智能体在安全可控的模拟环境中“自行试错”，持续优化决策策略。通义团队采用定制的GRPO（Group Relative Policy Optimization）算法，严格遵循on-policy训练范式，确保奖励信号与模型当前能力匹配。在训练目标上，使用了基于Token级别的策略梯度损失，并引入留一法（leave-one-out）来降低方差，同时有选择地剔除过长未完成的负样本，避免模型陷入“格式崩溃”。训练时还通过增大批次和并行实例来稳定学习。这类似于模拟战场练习，智能体不断在仿真网页环境中进行查询、点击和推理，每一次成功完成任务都会得到奖励，模型的策略随着奖励（reward）持续上升，探索度（policy entropy）保持高位。这一切都依托稳定的环境和数据支持：团队构建了离线维基百科+自制工具的沙盒模拟环境，并实时自动管理生成数据，以保证训练过程高效且鲁棒。

阶段协同与闭环：不断迭代的训练循环

通义 DeepResearch 的成功还在于各阶段环环相扣、形成闭环。从CPT阶段打基础，到SFT阶段冷启动，最后到RL阶段自我进化，每一步都为下一步提供素材和启发。CPT和SFT产生的合成数据反过来可用于强化学习训练，RL训练新得的轨迹也可反馈到数据管道中，持续丰富训练样本。这可谓是一个不断“自己喂养自己”的训练循环。正如通义团队所总结的：“从基础模型开始，先进行了 Agentic 持续预训练以初始化工具使用技能，然后使用类似专家的数据进行监督微调以实现冷启动，最后进行基于策略的强化学习，使模型进行自我进化”。这一全栈式方案相当于教会一个学习者：先在课堂上学习知识、再在实验室跟随导师练习，最后独立做项目，实现技能的真实落地。

DeepResearch智能体训练流程全景图整体来看，通义 DeepResearch 的训练流程兼顾了规模化合成数据与精细化算法设计。通过高质量数据合成不断为模型提供“训练燃料”，并在各阶段采用面向智能体特性的训练目标和策略，最终培养出能够自主规划、多步推理的开源智能体。这一创新方法论为开源社区提供了完整可复现的方案，揭示了从“聊天机器人”到“自主研究者”转型的路径。

应用场景

DeepResearch已在实际产品中得到应用。阿里表示，该模型已赋能高德地图和“通义法睿”等内部项目。例如，在高德地图中，DeepResearch被用作智能出行Agent：集成专用地图API、实时天气和交通监测等工具，可根据当前情况规划最优路线。通义团队与高德团队合作，通过DeepResearch模型提供能力，结合高德团队的工具和Agent链路，成功打造了高德App中助手「小高老师」的复杂查询体验，并在地图行业内打出了影响力。

在法律领域，DeepResearch驱动的“通义法睿”智能体能自动检索法律法规、案例和裁判文书，并进行深度归纳分析，在“法条引用相关性”和“案例引用相关性”两项指标上超过了OpenAI和Claude等国际顶尖模型，为法律从业者提供了准确可靠的检索和分析支持。

开源链接

Homepage: https://tongyi-agent.github.io/
Blog: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
Github: https://github.com/Alibaba-NLP/DeepResearch
Hugging Face: https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
Model Scope: https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B

阿里开源通义DeepResearch：科研智能体训练全流程深度解析

阿里开源通义DeepResearch：科研智能体训练全流程深度解析

发表回复取消回复

最新内容

《亚洲水发展展望2025》深度解读：亚太水安全喜忧参半，未来挑战何在？

谷歌支付6800万美元和解语音助手监听诉讼，你的隐私可能被“误触发”录音

甲骨文豪掷500亿美元押注AI基建，美国数据中心版图加速扩张

OpenAI总裁豪掷2500万美元支持特朗普，科技巨头与政坛的深度捆绑引关注

相关内容

Anthropic Agent代码执行新范式：Token消耗暴降98.7%，实现AI效率革命

Claude Agent Skills：Anthropic赋能AI智能体专业任务执行

上下文工程崛起：Manus创始人Peak Ji揭秘AI Agent核心突破与五大策略

Dify Plugin Daemon高可用部署实践：解决插件不加载与稳定性挑战

分类

快速链接

阿里开源通义DeepResearch：科研智能体训练全流程深度解析

You Might Also Like

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复