前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI 前沿技术

通义DeepResearch深度解析:核心功能、模型训练与Agent前沿探讨

NEXTECH
Last updated: 2025年10月16日 上午8:00
By NEXTECH
Share
83 Min Read
SHARE

阿里通义实验室近期发布了Tongyi DeepResearch Agent项目。尽管未举行发布会或大规模宣传,该项目在GitHub上架当天即迅速登顶“每日趋势榜”。

Contents
关键的三个词这个项目里有什么?为什么是这样三个阶段?增量训练及其数据合成监督微调及对应数据合成强化学习RQ1:是否需要 DeepResearch Agent?RQ2: 是否需要 Agent 专用模型?通用大模型是否足够?RQ3: 是否需要花费大量时间准备数据?RQ4: 是否需要 CPT?RQ5: 是否需要 SFT/RL?RQ6: 能否参考此方案训练其他 Agent?

该项目发布后,迅速引发业界讨论。部分读者因文档中提及“后训练”、“工具调用”、“强化学习”等专业术语而感到困惑。

为帮助读者理解,本文将尝试以更轻松的方式拆解三个核心问题:

Q1: DeepResearch包含哪些功能,如何使用?

Q2: DeepResearch 模型是如何训练出来的?

此外,科学研究是一个前赴后继的过程,近年的Agent相关研究涌现出诸多创意,也伴随着同行间的争议与普遍共识。本文也将从“共识”、“欠共识”和“新探索”三个方面讨论:

You Might Also Like

AI安全的“皇帝新衣”:千亿级模型投资正建立在集体幻觉之上
RAG系统多轮对话问题改写:基于历史记录的召回优化策略
vLLM与魔搭社区:Windows本地部署大模型完整指南
OpenAI 2025开发者日:开幕主题演讲精要与多项重磅功能升级

Q3: 哪些DeepResearch设计值得参考?

本文结构与上述三个问题一一对应。不同背景的读者可酌情选择重点章节:

  • AI应用开发者:推荐精读第二章,可找到模块说明、架构等信息,适合希望集成到工作流中的朋友。

  • AI研究人员:重点关注第三章,讨论数据构建、训练策略以及论文中未详述但实验关键的细节。建议搭配咖啡与耐心阅读。

  • 技术管理者/架构师:请移步第四章,梳理了当前的欠共识,有助于判断项目投入价值、借鉴方向以及是否等待下一代技术。

项目 Github地址:

https://github.com/Alibaba-NLP/DeepResearch

开源模型 Tongyi-DeepResearch-30B-A3B:

https://ModelScope.cn/models/iic/Tongyi-DeepResearch-30B-A3B/

声明:本文所涉知识可能存在纰漏,欢迎指正。部分信息在技术报告[2]和ArXiv论文[12]中表述不完全一致,本文仅加以注明。文中提及各项目所有权归属原作者,本文仅作解读。

二、DeepResearch包含什么,怎么使用?

Tongyi DeepResearch项目是2025年9月16日发布的开源Web Agent模型,实现了SOTA(最先进)性能,在Humanity’s Last Exam(HLE)上得分32.9、BrowseComp上45.3,以及xbench-DeepSearch上75.0,超越了OpenAI的Deep Research等专有模型。

通义DeepResearch Agent在HLE、BrowseComp和xbench-DeepSearch上的SOTA性能得分

关键的三个词

该项目的定位是【开源的】、【高性能】、【Web Agent】。让我们逐个审视这三个关键词。

首先是【开源的】。自2025年年初以来,闭源大模型Grok、Claude、GPT一骑绝尘,最近OpenAI发布的GPT5也横扫大量榜单。而开源社区阵营则略显低调,自Llama迭代减缓后,由DeepSeek、Qwen和Mistral等扛起大旗,OpenAI发布的GPT-OSS也未掀起太多波澜。在商业化应用开发领域,闭源模型表现出巨大优势。在此背景下,高质量的开源项目,特别是Agent相关研究,变得至关重要。

其次是【高性能】。这属于常规说法。若炼丹炼出“低性能”模型,通常只会默默删除,并在周报中写“模型训练有点小问题,重新开始”。因此,每一个发布的模型都自然是“高性能”的,这便是传说中的幸存者偏差,类似于能返航的飞机一定是未被击中油箱的,能跑回泉水的英雄肯定血量大于0。

最后是【Web Agent】。这个概念本身存在分歧,与之相关的有Web-enhanced LLM(搜索增强模型)、Deep Search(如Perplexity AI)或AI search(百度也推出了此功能)。从产品角度可进行细分,从技术角度,Web Agent至少需具备“主动发起对web请求”的特性。这几类可归结如下,换言之,它们是本项目替代技术。

Web Agent技术与替代方案分类图

这个项目里有什么?

该项目包含以下几个部分:

  1. 模型:即DeepResearch-30B-A3B[1],这是一个30B的MoE模型,每次激活3B参数。其较小的尺寸和激活参数量有效保证了推理效率。特别地,此尺寸模型具备在PC/Mac上部署的潜力,例如MacBook Pro M2即可部署30B模型。

  2. 模型推理代码:由于模型采用了Qwen3MoeForCausalLM架构,与Qwen3模型的部署推理方式完全一致,可参考Qwen3系列模型的部署,如Qwen3-30B-A3B-Instruct-2507[4]。可直接使用Vllm和Ollama进行本地部署;此外,ModelScope提供了开箱即用的模型服务[3]。

  3. 实验评测代码:实验代码已在项目的Github中开源[3],采用字节跳动的Sandbox_fusion作为代码执行沙箱和评测环境,可用于重现报告中声明的实验结果。该代码包含一个名为ReAct的Agent使用模式。

  4. Agent推理代码:项目本身并未直接提供Agent推理代码,但由于采用了Qwen3底座,因此兼容Qwen-Agent框架。特别地,技术报告和论文中提到的IterResearch模式(即heavy模式)截至2025-09-23尚未在开源代码中提供,代码[1]中仍为ReAct模式。若感兴趣,可联系开发非官方版本的IterResearch模式Agent。另外,百炼提供了一个Agent的体验版本[11]。

这四个部分的大致架构如图所示,图中实心方块代表模型,白底绿色方块代表组件或框架,黑色方框则突出核心特点。

Tongyi DeepResearch项目核心模块架构图
根据用途,这些模块可组合使用:

  • 想研究模型,选择 1+2+3;

  • 想研究 Agent,选择 3;

  • 想体验/开发应用,选择 4;

  • 想知道为什么宇宙终极问题的答案是 42,读者可发送邮件讨论。

三、DeepResearch模型是如何被生产出来的?

Tongyi DeepResearch 模型研发与多数推理模型训练类似,通常包含以下三个阶段。

  1. 增量训练及其数据合成(包含两个CPT 阶段)

  2. 监督微调及其数据合成(SFT阶段,作为冷启动)

  3. 强化学习阶段(RL阶段)

这几个阶段的串联如图所示,其中最左侧的Base Model即为基础预训练模型,本项目使用的是Qwen3的30B预训练模型:Qwen3-30B-A3B[5]。经过本章节描述的几个阶段,最终得到DeepResearch模型,即DeepResearch-30B-A3B[3]。本章节将首先讨论该设计流程的必要性,随后逐一介绍各阶段的关键设计。

DeepResearch模型训练的三个关键阶段流程

为什么是这样三个阶段?

在详细探讨这些细节之前,本节将大致探讨该流程设计的共识与欠共识。

首先,自2021年起,业界普遍认可数据制作上的投入是值得的,大量研究指出高质量数据对模型训练效果至关重要。特别地,合成数据已成为开源模型中最不开源的部分之一。大家注意到,开源模型提供了可下载分发的模型,但未提供其训练数据,因此是模型开源,训练数据难开源。背后原因众多,未来可撰写专题讨论此部分。本项目中,作者团队提供了许多数据合成细节和一个相关项目的数据[9]。

第二个是关于增量训练的必要性。这已接近共识,但仅限于“增量训练”一词本身。具体实践中,项目组可能侧重于使模型偏向指令模式、扩充对特殊指令的遵循能力,或在增量训练中强化上下文学习(ICL)。这些差异主要体现在损失函数设计和训练数据上。本项目中,作者们称其增量训练为“智能体增量与训练”。此外,“接近共识”的原因在于,蚂蚁集团最近发布的Atom-Searcher即是一个跳过CPT阶段的方案[15]。

第三个是冷启动+强化学习的必要性。随着Deepseek报告和大量类似研究的披露,从业者使用精心设计的冷启动数据和良好设计的RL环境作为最后一个训练阶段,这一点也接近了共识[7]。此外,Websailor的工作中提到,在工具场景中,纯RL无法有效提升工具调用次数,而这一提升可通过冷启动SFT阶段完成[6]。

让我们逐个分析这三个阶段。

增量训练及其数据合成

在分析讨论此阶段之前,一个关键问题是:

“Agent的增强训练(CPT)究竟需要增强什么?”

或者说,“Agent的CPT与垂类模型CPT、以及推理模型CPT在对LLM的增强上有什么不同?”

这个问题很重要,若认为Agent的CPT即是知识增强,则应侧重补充Agent所用工具的知识;若认为Agent的CPT是推理能力增强,则也许应直接基于推理模型(如OSS-GPT)进行微调,而非增强训练。

这个问题与“周五晚高峰的交通状况能否更糟糕?”并称为阻碍AI发展的核心命题。这当然属于欠共识的一部分,该报告[2]中的细节或许能提供线索。

首先,该项目的CPT数据包含两大类:

  1. 常见的高质量CPT数据,例如爬虫数据、知识图谱。可预期,其中肯定包含大量价值连城的私有高质量数据。但这一点与大部分CPT差异性不大,可认为是预训练的有效补充和延续。毕竟在LLM的每个训练阶段中,延续上一个阶段是非常有效的设计。

  2. 后训练的轨迹数据,这是本章节最关键的一点:轨迹合成数据。先来看报告中的一张图:

DeepResearch Agent轨迹数据合成过程示例

图示展示了一种合成轨迹的方式。考虑一个问题Q,原始数据的轨迹是图上方的Original Trajectory,从轨迹中以步骤级别展开,图上的“I have 3 solutions”、“I choose Solution[3]”等是关键步骤。对这些步骤,扩展为多个可能的分支,例如在“I have 3 solutions”时,分别得到三个候选方案(图上显示为串形生成,也许也可并行?),然后对其中任一方案往后展开(rollout)。熟悉强化学习和AlphaGo的朋友对此应很熟悉。对于轨迹,拆分成动作数据,包含单步的规划、推理动作和多步的决策动作。这个拆分维度很有启发性,能较为全面地覆盖Agent对LLM能力的需求,并指导各种Agent中LLM的升级迭代。

但这种轨迹构造做法存在两个小问题:构造数据的样本采纳率不高,且效率非常低下。

首先,展开过程中会产生大量无用尝试,导致rollout样本中真正可用的高质量数据不多。其次,此过程很慢,特别是工具调用环节,代码中作者们准备了多线程并行。在知乎上,一名自称项目作者提到“一条轨迹的价格远比想象中昂贵”,也从侧面反映了采样问题对此类研究的制约。回到合成数据阶段,可明确知道的是,该项目作者们进行了大量探索,期待更详细的报告。

Tongyi DeepResearch提出了一个新的Agent模式,叫做IterResearch。与ReAct模式相比,IterResearch有两个关键点:

  1. 良好维护的核心报告,

  2. 动态维护的工作空间。

在ReAct中,模型的上下文会快速被工具调用结果占用,例如一个打开网页的工具调用便可一次性用掉10k+的上下文。这不仅严重占用LLM有限的上下文窗口,还会产生严重的污染问题——模型可能忘记之前的问题和分析思路。因此,IterResearch选择动态维护工具调用结果组成的工作空间,并将核心分析思路等放在专门的核心报告中。这种做法可理解为针对多步工具调用中的上下文折叠压缩,也是此项目在长周期Agent(long-horizon)中的关键设计。遗憾的是,IterResearch代码并未随开源项目放出,仓库中仅提供了ReAct代码。

部分解读者[10]推测,IterResearch模式即为论文[12]中提及的heavy版本。若此推测成立,则根据论文实验可知,该工作带来的性能提升显著,例如在Humanity’s Last Exam中,IterResearch比ReAct高7.9pt,在BrowserComp上高14pt。

IterResearch和ReAct在训练中存在诸多不同,这不仅体现在数据上,还体现在数据并行和采样上。项目作者并未透露DeepResearch-30B-A3B采用哪种方式训练。推断存在两种可能:

  1. 还存在一个DeepResearch-30B-A3B-Heavy版本并未放出,且该版本采用了IterResearch方式训练。本次开源的DeepResearch-30B-A3B仅用ReAct方式训练。

  2. IterResearch和ReAct在训练框架中实现了兼容,目前开放的DeepResearch-30B-A3B也可能在IterResearch上工作。

最后,回顾之前的问题:“Agent的增强训练(CPT)究竟需要增强什么?”从本项目的数据合成策略来看,Agent的CPT可增强单步的规划、推理动作和多步的决策动作。注意这是一个更接近于充分,也许非必要的条件。在没有更明确共识之前,这是一个很好的参考答案。

监督微调及对应数据合成

此阶段主要用作对RL的冷启动,在该项目的技术报告中提及不多。推测原因有二:

  1. 框架成熟改动不大。

  2. 主要数据驱动。

从设计上讲,此阶段的存在接近于共识。从DeepSeek的论文中,冷启动的意义已被阐明,尽管仍有研究者相信,去除冷启动后RL也能达到类似效果,例如DeepSeek-R1-Zero。但在大量代码生成和数学任务中,冷启动都证明了其有效性。在Agent的训练中,虽不能说是共识,但也是很自然的做法。

本节重点讨论此阶段的数据合成。该项目引入了一种新的web数据合成方法WebFrontier,有三个要点:

  1. 种子数据生成:使用网页数据、文档和电子书作为基础,首先将其清洗并处理成chunk,利用一个模型生成种子QA对,这种做法在大部分数据合成中都存在。

  2. 迭代式复杂度升级:此阶段包含一个自举过程,由一个Agent装备工具(即本DeepResearch中的四个工具:通用搜索、学术搜索、网页浏览和代码执行),要求该Agent改进问题和答案。显然,此过程旨在增加数据与DeepResearch场景的契合度,并尽可能利用工具。

  3. 质量控制:此阶段旨在去除过于简单和过于难(可能不正确)的样本。首先通过一个不带工具的Agent尝试求解,若问题能被解决则说明太简单,予以过滤;然后使用一个配置工具的强力模型组成的Agent尝试求解,若能通过则保留。对于未能求解的样本,再经过一次人工审核,回收部分样本。

WebFrontier是一种很有趣的数据构建方式,它采用了“种子”-“扩展”-“评估”等经典套路,且其中扩展阶段使用了本项目整体的工具集合。总体设计思路上是对场景(评测数据、工具)深度绑定的,这种类似于过拟合的绑定,带来的潜在问题是跨团队复现与跨场景效果下降[13]。

值得注意的是,在作者团队之前的工作中,从WebWalker、WebSailor、WebSailor-v2到WebShaper,提出了大量数据构建方式,从网页点击到图谱合成,再到形式化建模。这一系列工作产生的数据,都可能帮助了DeepResearch的训练。但在Arxiv论文中[12],仅提到了WebFrontier,推测是为了突出技术贡献点,毕竟之前那几个工作也都有各种论文发表,无需额外强调。

回到WebFrontier,从训练角度,这种设计能很好地保证训练数据与模型推理时所见工具的一致性,但也存在一些潜在隐患:

工具的拓展性如何得到保证?

本项目中,工具集合固定为四个,确实无需考虑扩展使用。但对于产业应用或更广泛意义上的Agentic应用,对工具的预期并非固定集合。特别是随着MCP生态的兴起,动态工具集合似乎更符合产业现状。

那么,WebFrontier对于动态工具集合的有效性便是一个值得思考的问题。同样,在类似研究中,也可增加一个维度来考察模型。

强化学习

强化学习的基础优化算法选择了GSPO[8],注意到在报告[2]中提到的是GRPO,在Arxiv提到的是GSPO[12]。这两种算法目前都比较成熟,本文将重点关注DeepResearch项目中的改动。

在训练策略上,将每条完整的轨迹自然分解为多个训练样本,让每一个轮次对应一个样本,而传统方式是每条轨迹对应一个训练样本(mono-contextual)。假设一个问题有G条轨迹,每条轨迹平均有T个轮次,那么传统方法只能得到G个样本,而该方法可得到G*T个样本。这种做法能提高数据利用率,但存在信用分配问题:虽然每个轮次被视为独立样本,但最终任务的成功或失败由整条轨迹决定。如何将最终的奖励(或惩罚)公平、准确地分配给轨迹中的每一个中间轮次,是一个经典难题。

组级别的优势归一化:所有轮次样本被一起进行组级别的优势归一化(group-level advantage normalization)。这意味着,无论样本来自研究的早期、中期还是晚期,它们都在同一标准下被评估和学习。这有利于模型均衡掌握整个研究过程中每一阶段的推理和综合能力,而非仅偏向学习“开头怎么想”或“结尾怎么答”。

为兼顾轨迹长度差异导致的每个batch样本总数不固定的问题,加入了最小损失下采样,将数据库下采样为数据并行规模的整数倍。

另外,IterResearch的工作模式使得状态仅包含“上一轮的报告”和“最近的工具响应”。若“报告”的综合能力不足,未能完全捕捉之前所有轮次的关键信息,那么模型在当前轮次的决策将基于有损、不完整的历史摘要。换言之,这种方式对报告的质量有着非常严重的依赖,若报告生成模块本身存在幻觉或遗漏问题,对整体影响可能是致命的。

最后,项目作者团队在Infra上还有一个很好的设计,即双环境策略。它包含一个模拟环境和一个真实环境。在模型演化中,先在模拟环境中进行快速迭代,再应用到真实环境中,可参考WebSailor-v2和Environment Scaling[15]。

四、参考 DeepResearch 的哪些设计?

前文已提到诸多共识与欠共识,本章节将进行更多讨论。技术上的共识往往表示技术的成熟,或一个研究阶段的终结。例如,GPT3.5和Llama促使行业达成关键共识,即基于Transformer的预训练模型是通用的生成器。这是共识,与之对应的是之前的欠共识,即大量预训练与小规模专用模型的讨论,以及各种CNN架构的设计争议。这些欠共识随共识的出现而渐渐淡出主流讨论。但需注意的是,淡出并非消失,学术界不乏逆袭案例,如Hinton对神经网络的坚持便是其中之一。

在DeepResearch以及Agent的模型训练中,哪些是欠共识,哪些已接近共识了呢?

RQ1:是否需要 DeepResearch Agent?

如前文提到,DeepResearch Agent这种技术主要用于自主问题求解。若已在使用或正在调研以下场景,则可考虑DeepResearch Agent:

  1. AI搜索:典型案例有百度的智能搜索、Perplexity AI、夸克搜索、Google的AI summary等。这类场景是DeepResearch Agent的潜在应用场景。但此技术方案相比于现有的“LLM总结搜索引擎结果”,在效率上有明显短板,一次查询往往需要数分钟。

  2. 分析和报告生成:典型案例是OpenAI和Gemini的Deep Research。这种场景非常合适,但需注意模型的幻觉和数据源的可信问题。

RQ2: 是否需要 Agent 专用模型?通用大模型是否足够?

当前这个问题仍处于欠共识状态。

该问题的答案对应两种截然不同的技术路线:一是专门训练模型以满足Agent需求,二是扩充通用模型的基础设施以满足Agent需求,例如OWL。

首先在评测上,前者是SOTA。以Humanity’s Last Exam为例,通用模型如DeepSeek-R1的24分远低于Tongyi DeepResearch的28.8分。但实际使用中,仍有更多争议。

专用模型的优势在于:1. 专门训练掌握工具调用;2. 长程推理,自主决策能力超越通用对话模型本身。而通用模型的支持者则认为这两个方面均可由通用模型覆盖。

RQ3: 是否需要花费大量时间准备数据?

这个问题虽有争议,但相对客观的从业者都赞同数据质量的必要性。对于Agent模型而言,什么是高质量数据呢?以下几个线索值得关注:

  1. 数据标注的质量:一个粗浅的区分方式是:a)人工标注 b)模型标注 c)欠标注。对于人工标注数据,可信度很高,但实际操作中,人工数据质量并非无懈可击,因错误相信人工标注数据导致的问题也常常发生。模型标注数据在合成中已大量使用,精心构建的数据链路、多模型的混合标注方案也能保证一定的质量。对于欠标注数据,部分研究者认为质量过低,但值得注意的是,在预训练以及CPT中,混入欠标注数据是值得探索的。

  2. 轨迹多样性:相比于问答数据,轨迹数据是非常昂贵的数据,其获取和精细标注的成本很高,一方面由于轨迹很长,另一方面涉及多次工具调用。昂贵导致的一个问题就是稀少,更进一步导致多样性差,因此在Tongyi DeepResearch项目中重点探索了轨迹数据的构建。

RQ4: 是否需要 CPT?

前文提过一个问题“Agent的增强训练(CPT)究竟需要增强什么?”,当时的结论是目前并未明确。此外,从成本角度考量,CPT消耗的算力、数据成本和人力成本都不容小觑。那么能否跳过CPT阶段呢?

从当前的同类研究上看,CPT并非必选项。跳过CPT方案,而侧重于SFT和RL也是可行的路线,见[15]。

RQ5: 是否需要 SFT/RL?

若想以更低成本尝试,或定制自己的DeepResearch Agent,一个最直接的方式是放弃SFT/RL,接入一个能获取到的最昂贵、最大的模型,然后投入时间精心设计Prompt。当然,许多框架如OpenManus、OWL能更好地维护工具调用和上下文。

RQ6: 能否参考此方案训练其他 Agent?

尽管DeepResearch是一个很有趣的Agent,但在研究和开发中,人们还需要各种各样的Agent,例如Terminal的Agent、Github的PR Agent等。那么DeepResearch的方案能否帮助这些研究呢?

这个问题远没有共识,一些线索是:

  1. 合成数据+多阶段训练方式的有效性在大量场景中都得到了证实,或许可以参考这种总体流程。

  2. 数据合成方法,特别是WebFrontier这种数据合成方式,与工具高度相关,其有效性尚未被证明可以迁移到其他工具和对应Agent中。若训练一个Excel Agent,通常不会使用网页数据作为构造源头。

  3. 封闭的工具集合看起来有利于模型训练。在DeepResearch研究中,固定几种工具带来了稳定的数据构建链路和效果,一个自然的推论是,这种做法或许会降低Agent训练的难度。若Agent的工具种类复杂,不妨先固定一部分工具,再进行模型训练。

  4. 长程推理看起来越来越有希望得到解决,但目前未必那么成熟。若场景中Agent必须推理20步,或许应考虑简化问题。

五、最后

Tongyi DeepResearch是一个优秀且具有重要参考意义的项目,不仅提供了强大的模型,也为上述诸多非共识问题提供了一些解决线索。期待学术界和产业界未来能涌现更多优秀成果。若对本项目及相关扩展内容感兴趣,欢迎通过邮件交流。

探索之路漫长,我们仍在前行。

参考文献

[1] Tongyi-DeepResearch-30B-A3B 的 modelscope 模型地址:

https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B/summary

[2] Qwen3-30B-A3B-Instruct-2507 的 modelscope 模型地址:

https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Instruct-2507

[3] Tongyi DeepResearch Github 地址:

https://github.com/Alibaba-NLP/DeepResearch

[4] Tongyi DeepResearch 技术报告:

https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

[5] Qwen3-30B-A3B 的模型地址

https://www.modelscope.cn/models/Qwen/Qwen3-30B-A3B

[6] WebSailor: Navigating Super‑human Reasoning for Web Agent

https://arxiv.org/pdf/2507.02592

[7] WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents

https://arxiv.org/pdf/2509.06501

[8] Group sequence policy optimization

https://arxiv.org/pdf/2507.18071

[9] WebShaper 数据

https://modelscope.cn/datasets/iic/WebShaper

[10]深度解析通义 DeepResearch:阿里开源的 300 亿参数深度研究智能体

https://blog.csdn.net/m0_37733448/article/details/151958917

[11]百炼的 Tongyi DeepResearch 体验地址

https://bailian.console.aliyun.com/?spm=a2ty02.31808181.d_app-market.1.6c4974a1tFmoFc&tab=app#/app/app-market/deep-search/

[12] Tongyi DeepResearch 论文

https://arxiv.org/pdf/2509.13309

[13]关于过拟合的讨论

https://zhuanlan.zhihu.com/p/1951785880655209261

[14]疑似项目作者的在知乎上的讨论

https://www.zhihu.com/question/1951587761955009058/answer/1952425910868357997

[15] Towards General Agentic Intelligence via Environment Scaling

https://arxiv.org/pdf/2509.13311

TAGGED:Agent模型AI前沿技术Web Agent大模型训练通义DeepResearch
Share This Article
Email Copy Link Print
Previous Article 20251016075811157.jpg UVic突破:低成本实现亚埃级原子成像,显微镜技术迎来新纪元
Next Article Veo 3.1 首尾帧补间功能示例:汽车从悬崖起飞结束帧 Google Veo 3.1 重磅发布:全解析其强大功能与创新应用
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251205190349369.jpg
Meta战略大转向:削减30%元宇宙预算,全力押注AI
科技
20251205183721458.jpg
南部非洲古人类基因组改写进化史:20万年隔离与独特基因
科技
20251205180959635.jpg
AMD为对华出口AI芯片支付15%税费,引发美国宪法争议
科技
20251205174331374.jpg
家的定义与核心价值:探索现代居住空间的意义
科技

相关内容

Arena竞技场测试排名
AI 前沿技术

Google Gemini 3 Pro横空出世:多项基准测试全面领先,重新定义大模型性能天花板

2025年11月19日
RAG Chunking 核心概念:块大小与重叠窗口示意图
AI 前沿技术

RAG分块策略实战:从原理到优化,提升大模型问答效果

2025年10月30日
OpenAI DevDay 2025 大会宣传图
AI 前沿技术

OpenAI DevDay 2025重磅发布:ChatGPT Apps、AgentKit与新一代大模型API详解

2025年10月8日
传统数据治理面临的挑战
AI 前沿技术

语义治理:面向AI时代的企业数据治理新范式

2025年10月18日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up