通义DeepResearch深度解析：核心功能、模型训练与Agent前沿探讨

阿里通义实验室近期发布了Tongyi DeepResearch Agent项目。尽管未举行发布会或大规模宣传，该项目在GitHub上架当天即迅速登顶“每日趋势榜”。

Contents

关键的三个词这个项目里有什么？为什么是这样三个阶段？增量训练及其数据合成监督微调及对应数据合成强化学习 RQ1:是否需要 DeepResearch Agent?RQ2: 是否需要 Agent 专用模型？通用大模型是否足够？RQ3: 是否需要花费大量时间准备数据？RQ4: 是否需要 CPT？RQ5: 是否需要 SFT/RL?RQ6: 能否参考此方案训练其他 Agent？

该项目发布后，迅速引发业界讨论。部分读者因文档中提及“后训练”、“工具调用”、“强化学习”等专业术语而感到困惑。

为帮助读者理解，本文将尝试以更轻松的方式拆解三个核心问题：

Q1: DeepResearch包含哪些功能，如何使用？

Q2: DeepResearch 模型是如何训练出来的？

此外，科学研究是一个前赴后继的过程，近年的Agent相关研究涌现出诸多创意，也伴随着同行间的争议与普遍共识。本文也将从“共识”、“欠共识”和“新探索”三个方面讨论：

Q3: 哪些DeepResearch设计值得参考？

本文结构与上述三个问题一一对应。不同背景的读者可酌情选择重点章节：

AI应用开发者：推荐精读第二章，可找到模块说明、架构等信息，适合希望集成到工作流中的朋友。
AI研究人员：重点关注第三章，讨论数据构建、训练策略以及论文中未详述但实验关键的细节。建议搭配咖啡与耐心阅读。
技术管理者/架构师：请移步第四章，梳理了当前的欠共识，有助于判断项目投入价值、借鉴方向以及是否等待下一代技术。

项目 Github地址：

https://github.com/Alibaba-NLP/DeepResearch

开源模型 Tongyi-DeepResearch-30B-A3B：

https://ModelScope.cn/models/iic/Tongyi-DeepResearch-30B-A3B/

声明：本文所涉知识可能存在纰漏，欢迎指正。部分信息在技术报告[2]和ArXiv论文[12]中表述不完全一致，本文仅加以注明。文中提及各项目所有权归属原作者，本文仅作解读。

二、DeepResearch包含什么，怎么使用？

Tongyi DeepResearch项目是2025年9月16日发布的开源Web Agent模型，实现了SOTA（最先进）性能，在Humanity’s Last Exam（HLE）上得分32.9、BrowseComp上45.3，以及xbench-DeepSearch上75.0，超越了OpenAI的Deep Research等专有模型。

通义DeepResearch Agent在HLE、BrowseComp和xbench-DeepSearch上的SOTA性能得分

关键的三个词

该项目的定位是【开源的】、【高性能】、【Web Agent】。让我们逐个审视这三个关键词。

首先是【开源的】。自2025年年初以来，闭源大模型Grok、Claude、GPT一骑绝尘，最近OpenAI发布的GPT5也横扫大量榜单。而开源社区阵营则略显低调，自Llama迭代减缓后，由DeepSeek、Qwen和Mistral等扛起大旗，OpenAI发布的GPT-OSS也未掀起太多波澜。在商业化应用开发领域，闭源模型表现出巨大优势。在此背景下，高质量的开源项目，特别是Agent相关研究，变得至关重要。

其次是【高性能】。这属于常规说法。若炼丹炼出“低性能”模型，通常只会默默删除，并在周报中写“模型训练有点小问题，重新开始”。因此，每一个发布的模型都自然是“高性能”的，这便是传说中的幸存者偏差，类似于能返航的飞机一定是未被击中油箱的，能跑回泉水的英雄肯定血量大于0。

最后是【Web Agent】。这个概念本身存在分歧，与之相关的有Web-enhanced LLM（搜索增强模型）、Deep Search（如Perplexity AI）或AI search（百度也推出了此功能）。从产品角度可进行细分，从技术角度，Web Agent至少需具备“主动发起对web请求”的特性。这几类可归结如下，换言之，它们是本项目替代技术。

Web Agent技术与替代方案分类图

这个项目里有什么？

该项目包含以下几个部分：

模型：即DeepResearch-30B-A3B[1]，这是一个30B的MoE模型，每次激活3B参数。其较小的尺寸和激活参数量有效保证了推理效率。特别地，此尺寸模型具备在PC/Mac上部署的潜力，例如MacBook Pro M2即可部署30B模型。
模型推理代码：由于模型采用了Qwen3MoeForCausalLM架构，与Qwen3模型的部署推理方式完全一致，可参考Qwen3系列模型的部署，如Qwen3-30B-A3B-Instruct-2507[4]。可直接使用Vllm和Ollama进行本地部署；此外，ModelScope提供了开箱即用的模型服务[3]。
实验评测代码：实验代码已在项目的Github中开源[3]，采用字节跳动的Sandbox_fusion作为代码执行沙箱和评测环境，可用于重现报告中声明的实验结果。该代码包含一个名为ReAct的Agent使用模式。
Agent推理代码：项目本身并未直接提供Agent推理代码，但由于采用了Qwen3底座，因此兼容Qwen-Agent框架。特别地，技术报告和论文中提到的IterResearch模式（即heavy模式）截至2025-09-23尚未在开源代码中提供，代码[1]中仍为ReAct模式。若感兴趣，可联系开发非官方版本的IterResearch模式Agent。另外，百炼提供了一个Agent的体验版本[11]。

这四个部分的大致架构如图所示，图中实心方块代表模型，白底绿色方块代表组件或框架，黑色方框则突出核心特点。

Tongyi DeepResearch项目核心模块架构图
根据用途，这些模块可组合使用：

想研究模型，选择 1+2+3；
想研究 Agent，选择 3；
想体验/开发应用，选择 4；
想知道为什么宇宙终极问题的答案是 42，读者可发送邮件讨论。

三、DeepResearch模型是如何被生产出来的？

Tongyi DeepResearch 模型研发与多数推理模型训练类似，通常包含以下三个阶段。

增量训练及其数据合成（包含两个CPT 阶段）
监督微调及其数据合成（SFT阶段，作为冷启动）
强化学习阶段（RL阶段）

这几个阶段的串联如图所示，其中最左侧的Base Model即为基础预训练模型，本项目使用的是Qwen3的30B预训练模型：Qwen3-30B-A3B[5]。经过本章节描述的几个阶段，最终得到DeepResearch模型，即DeepResearch-30B-A3B[3]。本章节将首先讨论该设计流程的必要性，随后逐一介绍各阶段的关键设计。

DeepResearch模型训练的三个关键阶段流程

为什么是这样三个阶段？

在详细探讨这些细节之前，本节将大致探讨该流程设计的共识与欠共识。

首先，自2021年起，业界普遍认可数据制作上的投入是值得的，大量研究指出高质量数据对模型训练效果至关重要。特别地，合成数据已成为开源模型中最不开源的部分之一。大家注意到，开源模型提供了可下载分发的模型，但未提供其训练数据，因此是模型开源，训练数据难开源。背后原因众多，未来可撰写专题讨论此部分。本项目中，作者团队提供了许多数据合成细节和一个相关项目的数据[9]。

第二个是关于增量训练的必要性。这已接近共识，但仅限于“增量训练”一词本身。具体实践中，项目组可能侧重于使模型偏向指令模式、扩充对特殊指令的遵循能力，或在增量训练中强化上下文学习（ICL）。这些差异主要体现在损失函数设计和训练数据上。本项目中，作者们称其增量训练为“智能体增量与训练”。此外，“接近共识”的原因在于，蚂蚁集团最近发布的Atom-Searcher即是一个跳过CPT阶段的方案[15]。

第三个是冷启动+强化学习的必要性。随着Deepseek报告和大量类似研究的披露，从业者使用精心设计的冷启动数据和良好设计的RL环境作为最后一个训练阶段，这一点也接近了共识[7]。此外，Websailor的工作中提到，在工具场景中，纯RL无法有效提升工具调用次数，而这一提升可通过冷启动SFT阶段完成[6]。

让我们逐个分析这三个阶段。

增量训练及其数据合成

在分析讨论此阶段之前，一个关键问题是：

“Agent的增强训练（CPT）究竟需要增强什么？”

或者说，“Agent的CPT与垂类模型CPT、以及推理模型CPT在对LLM的增强上有什么不同？”

这个问题很重要，若认为Agent的CPT即是知识增强，则应侧重补充Agent所用工具的知识；若认为Agent的CPT是推理能力增强，则也许应直接基于推理模型（如OSS-GPT）进行微调，而非增强训练。

这个问题与“周五晚高峰的交通状况能否更糟糕？”并称为阻碍AI发展的核心命题。这当然属于欠共识的一部分，该报告[2]中的细节或许能提供线索。

首先，该项目的CPT数据包含两大类：

常见的高质量CPT数据，例如爬虫数据、知识图谱。可预期，其中肯定包含大量价值连城的私有高质量数据。但这一点与大部分CPT差异性不大，可认为是预训练的有效补充和延续。毕竟在LLM的每个训练阶段中，延续上一个阶段是非常有效的设计。
后训练的轨迹数据，这是本章节最关键的一点：轨迹合成数据。先来看报告中的一张图：

DeepResearch Agent轨迹数据合成过程示例

图示展示了一种合成轨迹的方式。考虑一个问题Q，原始数据的轨迹是图上方的Original Trajectory，从轨迹中以步骤级别展开，图上的“I have 3 solutions”、“I choose Solution[3]”等是关键步骤。对这些步骤，扩展为多个可能的分支，例如在“I have 3 solutions”时，分别得到三个候选方案（图上显示为串形生成，也许也可并行？），然后对其中任一方案往后展开（rollout）。熟悉强化学习和AlphaGo的朋友对此应很熟悉。对于轨迹，拆分成动作数据，包含单步的规划、推理动作和多步的决策动作。这个拆分维度很有启发性，能较为全面地覆盖Agent对LLM能力的需求，并指导各种Agent中LLM的升级迭代。

但这种轨迹构造做法存在两个小问题：构造数据的样本采纳率不高，且效率非常低下。

首先，展开过程中会产生大量无用尝试，导致rollout样本中真正可用的高质量数据不多。其次，此过程很慢，特别是工具调用环节，代码中作者们准备了多线程并行。在知乎上，一名自称项目作者提到“一条轨迹的价格远比想象中昂贵”，也从侧面反映了采样问题对此类研究的制约。回到合成数据阶段，可明确知道的是，该项目作者们进行了大量探索，期待更详细的报告。

Tongyi DeepResearch提出了一个新的Agent模式，叫做IterResearch。与ReAct模式相比，IterResearch有两个关键点：

良好维护的核心报告，
动态维护的工作空间。

在ReAct中，模型的上下文会快速被工具调用结果占用，例如一个打开网页的工具调用便可一次性用掉10k+的上下文。这不仅严重占用LLM有限的上下文窗口，还会产生严重的污染问题——模型可能忘记之前的问题和分析思路。因此，IterResearch选择动态维护工具调用结果组成的工作空间，并将核心分析思路等放在专门的核心报告中。这种做法可理解为针对多步工具调用中的上下文折叠压缩，也是此项目在长周期Agent（long-horizon）中的关键设计。遗憾的是，IterResearch代码并未随开源项目放出，仓库中仅提供了ReAct代码。

部分解读者[10]推测，IterResearch模式即为论文[12]中提及的heavy版本。若此推测成立，则根据论文实验可知，该工作带来的性能提升显著，例如在Humanity’s Last Exam中，IterResearch比ReAct高7.9pt，在BrowserComp上高14pt。

IterResearch和ReAct在训练中存在诸多不同，这不仅体现在数据上，还体现在数据并行和采样上。项目作者并未透露DeepResearch-30B-A3B采用哪种方式训练。推断存在两种可能：

还存在一个DeepResearch-30B-A3B-Heavy版本并未放出，且该版本采用了IterResearch方式训练。本次开源的DeepResearch-30B-A3B仅用ReAct方式训练。
IterResearch和ReAct在训练框架中实现了兼容，目前开放的DeepResearch-30B-A3B也可能在IterResearch上工作。

最后，回顾之前的问题：“Agent的增强训练（CPT）究竟需要增强什么？”从本项目的数据合成策略来看，Agent的CPT可增强单步的规划、推理动作和多步的决策动作。注意这是一个更接近于充分，也许非必要的条件。在没有更明确共识之前，这是一个很好的参考答案。

监督微调及对应数据合成

此阶段主要用作对RL的冷启动，在该项目的技术报告中提及不多。推测原因有二：

框架成熟改动不大。
主要数据驱动。

从设计上讲，此阶段的存在接近于共识。从DeepSeek的论文中，冷启动的意义已被阐明，尽管仍有研究者相信，去除冷启动后RL也能达到类似效果，例如DeepSeek-R1-Zero。但在大量代码生成和数学任务中，冷启动都证明了其有效性。在Agent的训练中，虽不能说是共识，但也是很自然的做法。

本节重点讨论此阶段的数据合成。该项目引入了一种新的web数据合成方法WebFrontier，有三个要点：

种子数据生成：使用网页数据、文档和电子书作为基础，首先将其清洗并处理成chunk，利用一个模型生成种子QA对，这种做法在大部分数据合成中都存在。
迭代式复杂度升级：此阶段包含一个自举过程，由一个Agent装备工具（即本DeepResearch中的四个工具：通用搜索、学术搜索、网页浏览和代码执行），要求该Agent改进问题和答案。显然，此过程旨在增加数据与DeepResearch场景的契合度，并尽可能利用工具。
质量控制：此阶段旨在去除过于简单和过于难（可能不正确）的样本。首先通过一个不带工具的Agent尝试求解，若问题能被解决则说明太简单，予以过滤；然后使用一个配置工具的强力模型组成的Agent尝试求解，若能通过则保留。对于未能求解的样本，再经过一次人工审核，回收部分样本。

WebFrontier是一种很有趣的数据构建方式，它采用了“种子”-“扩展”-“评估”等经典套路，且其中扩展阶段使用了本项目整体的工具集合。总体设计思路上是对场景（评测数据、工具）深度绑定的，这种类似于过拟合的绑定，带来的潜在问题是跨团队复现与跨场景效果下降[13]。

值得注意的是，在作者团队之前的工作中，从WebWalker、WebSailor、WebSailor-v2到WebShaper，提出了大量数据构建方式，从网页点击到图谱合成，再到形式化建模。这一系列工作产生的数据，都可能帮助了DeepResearch的训练。但在Arxiv论文中[12]，仅提到了WebFrontier，推测是为了突出技术贡献点，毕竟之前那几个工作也都有各种论文发表，无需额外强调。

回到WebFrontier，从训练角度，这种设计能很好地保证训练数据与模型推理时所见工具的一致性，但也存在一些潜在隐患：

工具的拓展性如何得到保证？

本项目中，工具集合固定为四个，确实无需考虑扩展使用。但对于产业应用或更广泛意义上的Agentic应用，对工具的预期并非固定集合。特别是随着MCP生态的兴起，动态工具集合似乎更符合产业现状。

那么，WebFrontier对于动态工具集合的有效性便是一个值得思考的问题。同样，在类似研究中，也可增加一个维度来考察模型。

强化学习

强化学习的基础优化算法选择了GSPO[8]，注意到在报告[2]中提到的是GRPO，在Arxiv提到的是GSPO[12]。这两种算法目前都比较成熟，本文将重点关注DeepResearch项目中的改动。

在训练策略上，将每条完整的轨迹自然分解为多个训练样本，让每一个轮次对应一个样本，而传统方式是每条轨迹对应一个训练样本（mono-contextual）。假设一个问题有G条轨迹，每条轨迹平均有T个轮次，那么传统方法只能得到G个样本，而该方法可得到G*T个样本。这种做法能提高数据利用率，但存在信用分配问题：虽然每个轮次被视为独立样本，但最终任务的成功或失败由整条轨迹决定。如何将最终的奖励（或惩罚）公平、准确地分配给轨迹中的每一个中间轮次，是一个经典难题。

组级别的优势归一化：所有轮次样本被一起进行组级别的优势归一化（group-level advantage normalization）。这意味着，无论样本来自研究的早期、中期还是晚期，它们都在同一标准下被评估和学习。这有利于模型均衡掌握整个研究过程中每一阶段的推理和综合能力，而非仅偏向学习“开头怎么想”或“结尾怎么答”。

为兼顾轨迹长度差异导致的每个batch样本总数不固定的问题，加入了最小损失下采样，将数据库下采样为数据并行规模的整数倍。

另外，IterResearch的工作模式使得状态仅包含“上一轮的报告”和“最近的工具响应”。若“报告”的综合能力不足，未能完全捕捉之前所有轮次的关键信息，那么模型在当前轮次的决策将基于有损、不完整的历史摘要。换言之，这种方式对报告的质量有着非常严重的依赖，若报告生成模块本身存在幻觉或遗漏问题，对整体影响可能是致命的。

最后，项目作者团队在Infra上还有一个很好的设计，即双环境策略。它包含一个模拟环境和一个真实环境。在模型演化中，先在模拟环境中进行快速迭代，再应用到真实环境中，可参考WebSailor-v2和Environment Scaling[15]。

四、参考 DeepResearch 的哪些设计？

前文已提到诸多共识与欠共识，本章节将进行更多讨论。技术上的共识往往表示技术的成熟，或一个研究阶段的终结。例如，GPT3.5和Llama促使行业达成关键共识，即基于Transformer的预训练模型是通用的生成器。这是共识，与之对应的是之前的欠共识，即大量预训练与小规模专用模型的讨论，以及各种CNN架构的设计争议。这些欠共识随共识的出现而渐渐淡出主流讨论。但需注意的是，淡出并非消失，学术界不乏逆袭案例，如Hinton对神经网络的坚持便是其中之一。

在DeepResearch以及Agent的模型训练中，哪些是欠共识，哪些已接近共识了呢？

RQ1:是否需要 DeepResearch Agent?

如前文提到，DeepResearch Agent这种技术主要用于自主问题求解。若已在使用或正在调研以下场景，则可考虑DeepResearch Agent：

AI搜索：典型案例有百度的智能搜索、Perplexity AI、夸克搜索、Google的AI summary等。这类场景是DeepResearch Agent的潜在应用场景。但此技术方案相比于现有的“LLM总结搜索引擎结果”，在效率上有明显短板，一次查询往往需要数分钟。
分析和报告生成：典型案例是OpenAI和Gemini的Deep Research。这种场景非常合适，但需注意模型的幻觉和数据源的可信问题。

RQ2: 是否需要 Agent 专用模型？通用大模型是否足够？

当前这个问题仍处于欠共识状态。

该问题的答案对应两种截然不同的技术路线：一是专门训练模型以满足Agent需求，二是扩充通用模型的基础设施以满足Agent需求，例如OWL。

首先在评测上，前者是SOTA。以Humanity’s Last Exam为例，通用模型如DeepSeek-R1的24分远低于Tongyi DeepResearch的28.8分。但实际使用中，仍有更多争议。

专用模型的优势在于：1. 专门训练掌握工具调用；2. 长程推理，自主决策能力超越通用对话模型本身。而通用模型的支持者则认为这两个方面均可由通用模型覆盖。

RQ3: 是否需要花费大量时间准备数据？

这个问题虽有争议，但相对客观的从业者都赞同数据质量的必要性。对于Agent模型而言，什么是高质量数据呢？以下几个线索值得关注：

数据标注的质量：一个粗浅的区分方式是：a）人工标注 b）模型标注 c）欠标注。对于人工标注数据，可信度很高，但实际操作中，人工数据质量并非无懈可击，因错误相信人工标注数据导致的问题也常常发生。模型标注数据在合成中已大量使用，精心构建的数据链路、多模型的混合标注方案也能保证一定的质量。对于欠标注数据，部分研究者认为质量过低，但值得注意的是，在预训练以及CPT中，混入欠标注数据是值得探索的。
轨迹多样性：相比于问答数据，轨迹数据是非常昂贵的数据，其获取和精细标注的成本很高，一方面由于轨迹很长，另一方面涉及多次工具调用。昂贵导致的一个问题就是稀少，更进一步导致多样性差，因此在Tongyi DeepResearch项目中重点探索了轨迹数据的构建。

RQ4: 是否需要 CPT？

前文提过一个问题“Agent的增强训练（CPT）究竟需要增强什么？”，当时的结论是目前并未明确。此外，从成本角度考量，CPT消耗的算力、数据成本和人力成本都不容小觑。那么能否跳过CPT阶段呢？

从当前的同类研究上看，CPT并非必选项。跳过CPT方案，而侧重于SFT和RL也是可行的路线，见[15]。

RQ5: 是否需要 SFT/RL?

若想以更低成本尝试，或定制自己的DeepResearch Agent，一个最直接的方式是放弃SFT/RL，接入一个能获取到的最昂贵、最大的模型，然后投入时间精心设计Prompt。当然，许多框架如OpenManus、OWL能更好地维护工具调用和上下文。

RQ6: 能否参考此方案训练其他 Agent？

尽管DeepResearch是一个很有趣的Agent，但在研究和开发中，人们还需要各种各样的Agent，例如Terminal的Agent、Github的PR Agent等。那么DeepResearch的方案能否帮助这些研究呢？

这个问题远没有共识，一些线索是：

合成数据+多阶段训练方式的有效性在大量场景中都得到了证实，或许可以参考这种总体流程。
数据合成方法，特别是WebFrontier这种数据合成方式，与工具高度相关，其有效性尚未被证明可以迁移到其他工具和对应Agent中。若训练一个Excel Agent，通常不会使用网页数据作为构造源头。
封闭的工具集合看起来有利于模型训练。在DeepResearch研究中，固定几种工具带来了稳定的数据构建链路和效果，一个自然的推论是，这种做法或许会降低Agent训练的难度。若Agent的工具种类复杂，不妨先固定一部分工具，再进行模型训练。
长程推理看起来越来越有希望得到解决，但目前未必那么成熟。若场景中Agent必须推理20步，或许应考虑简化问题。

五、最后

Tongyi DeepResearch是一个优秀且具有重要参考意义的项目，不仅提供了强大的模型，也为上述诸多非共识问题提供了一些解决线索。期待学术界和产业界未来能涌现更多优秀成果。若对本项目及相关扩展内容感兴趣，欢迎通过邮件交流。

探索之路漫长，我们仍在前行。

参考文献

[1] Tongyi-DeepResearch-30B-A3B 的 modelscope 模型地址：

https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B/summary

[2] Qwen3-30B-A3B-Instruct-2507 的 modelscope 模型地址：

https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Instruct-2507

[3] Tongyi DeepResearch Github 地址：

https://github.com/Alibaba-NLP/DeepResearch

[4] Tongyi DeepResearch 技术报告:

https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

[5] Qwen3-30B-A3B 的模型地址

https://www.modelscope.cn/models/Qwen/Qwen3-30B-A3B

[6] WebSailor: Navigating Super‑human Reasoning for Web Agent

https://arxiv.org/pdf/2507.02592

[7] WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents

https://arxiv.org/pdf/2509.06501

[8] Group sequence policy optimization

https://arxiv.org/pdf/2507.18071

[9] WebShaper 数据

https://modelscope.cn/datasets/iic/WebShaper

[10]深度解析通义 DeepResearch：阿里开源的 300 亿参数深度研究智能体

https://blog.csdn.net/m0_37733448/article/details/151958917

[11]百炼的 Tongyi DeepResearch 体验地址

https://bailian.console.aliyun.com/?spm=a2ty02.31808181.d_app-market.1.6c4974a1tFmoFc&tab=app#/app/app-market/deep-search/

[12] Tongyi DeepResearch 论文

https://arxiv.org/pdf/2509.13309

[13]关于过拟合的讨论

https://zhuanlan.zhihu.com/p/1951785880655209261

[14]疑似项目作者的在知乎上的讨论

https://www.zhihu.com/question/1951587761955009058/answer/1952425910868357997

[15] Towards General Agentic Intelligence via Environment Scaling

https://arxiv.org/pdf/2509.13311

通义DeepResearch深度解析：核心功能、模型训练与Agent前沿探讨

关键的三个词

这个项目里有什么？

为什么是这样三个阶段？

增量训练及其数据合成

监督微调及对应数据合成

强化学习

RQ1:是否需要 DeepResearch Agent?

RQ2: 是否需要 Agent 专用模型？通用大模型是否足够？

RQ3: 是否需要花费大量时间准备数据？

RQ4: 是否需要 CPT？

RQ5: 是否需要 SFT/RL?

RQ6: 能否参考此方案训练其他 Agent？

发表回复取消回复

最新内容

《亚洲水发展展望2025》深度解读：亚太水安全喜忧参半，未来挑战何在？

谷歌支付6800万美元和解语音助手监听诉讼，你的隐私可能被“误触发”录音

甲骨文豪掷500亿美元押注AI基建，美国数据中心版图加速扩张

OpenAI总裁豪掷2500万美元支持特朗普，科技巨头与政坛的深度捆绑引关注

相关内容

Claude Code：Anthropic AI团队利用Skills革新前端设计，UI设计师如何应对“AI slop”挑战？

开源安全审核模型终极PK：Qwen3Guard、OpenAI-SafeGuard、Llama4-Guard王者之争

Palantir智能化技术路线：AI时代企业级架构平台的战略核心

RAG Chunking 2.0：提升文档分块效果的八大实用策略与Python示例

分类

快速链接

You Might Also Like

关键的三个词

这个项目里有什么？

为什么是这样三个阶段？

增量训练及其数据合成

监督微调及对应数据合成

强化学习

RQ1:是否需要 DeepResearch Agent?

RQ2: 是否需要 Agent 专用模型？通用大模型是否足够？

RQ3: 是否需要花费大量时间准备数据？

RQ4: 是否需要 CPT？

RQ5: 是否需要 SFT/RL?

RQ6: 能否参考此方案训练其他 Agent？

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复