智能体关键技术深度解析：从产品实践到核心概念

对于厌倦了智能体科普文章的读者而言，本文将提供深入见解。

随着人工智能的普及，AI Agent（智能体）的概念已逐渐成为如大模型般的基础背景概念。提及智能体，人们常认为其较大型语言模型（LLM）更为强大，能调用工具，基于外部知识库回答问题，并支持MCP协议等。

作为普通用户，理解至此或许已足够。然而，对于人工智能的深入关注者而言，这些认知远远不够。有必要对智能体的全景进行更全面深入的了解，这涉及以下核心问题：

智能体的愿景和理念是什么？其价值锚定何处？
智能体通过何种思路或方式工作以达成目标？
智能体是否实际兑现了其承诺的价值？
目前遇到了哪些问题？未来演进方向如何？

基础科普文章虽对前述问题提供基本答案，但阅读后常发现不少内容未能充分支撑其标题，甚至明显可见AI汇编痕迹。这表明识别高质量信息对于人工智能和人类均非易事。当然，亦有深入浅出的佳作梳理了基本概念与框架，但因缺乏具体实例，仍难以形成深刻理解（此处指的并非代码层面的干货，而是技术框架与产品价值间的逻辑关联）。

本文旨在通过深度研究智能体（如OpenAI的DeepResearch）这一发展最为成熟的赛道，具体阐释智能体的核心思路框架如何成功应用于DeepResearch类产品的打造，从而具象化理解RAG、工作流、记忆机制等关键技术在真实商业智能体产品中的作用与实现机制。

本文重点学习和参考了论文《DEEP RESEARCH AGENTS: A SYSTEMATIC EXAMINATION AND ROADMAP》进行梳理，并在此基础上结合相关研究进行扩展。

一、深度研究智能体定义及产品——智能体理念的实际商业落地

什么是深度研究智能体

深度研究（Deep Research, DR）智能体主要指用于特定完成“深度研究”类任务的智能体，相比直接使用大模型问答来搜索信息并生成研究分析报告，深度研究智能体通过引入高级推理、任务规划和分析工具等，提升了大模型在完成研究报告生成任务上的效果。

论文中给出的正式定义：深度研究智能体是由大型语言模型（LLMs）驱动的智能体（AI Agent），具备动态推理、自适应规划、多轮外部数据检索及工具使用能力，并能生成全面的分析报告，适用于信息研究任务。

全球DeepResearch产品

在深度研究智能体中，第一个登场的谷歌Gemini，随后OpenAI、Perplexity等也相继推出了自己的同名功能。

Gemini DeepResearch（Google）

Gemini DeepResearch是谷歌旗下DeepMind的产品，于24年底首次发布。其特点是基于“先计划”、“再执行”模式和Google的搜索基础设施服务实现广泛的搜索与内容整合，采用 “先规划、后执行”范式，一次给出全面的计划并支持用户调整计划，适合需要大量信息获取和综合研究型的任务。（体现了智能体理念中的“规划”环节，以及工具使用与环境交互，如将谷歌搜索服务作为工具在过程中调用）

ChatGPT 的DeepResearch功能（OpenAI）

OpenAI 也是深度研究智能体的先行者，其Deep Research功能在2025年春季向plus会员开放。相较于直接使用GPT模型，其最显著的差异在于它会模仿人类研究员的思路，将复杂问题拆解成若干小的问题，然后分步解决。这种自主规划拆解问题的能力，使得Deep Research能够胜任解决更加复杂问题的工作（其实这也就是智能体的理念）。

Grok DeepSearch（xAI）

Grok发布的是「DeepSearch」，没有”Research”只有”Search”。后续还推出了「DeeperSearch」。从命名就可以看出，它的特点和优势就是“Search”。DeepSearch可以从多个渠道抓取数据，包括社交媒体、新闻和各类专业数据库等，并验证数据可靠性，对信息进行分析和过滤，提升结果的可信度。

Qwen Deep Research（阿里）

Qwen Deep Research 是通义千问的研究型智能体模型。它可拆解复杂问题，结合互联网搜索进行推理分析并生成研究报告。

二、深度研究智能体工作流程——直观理解智能体的组成和工作机制

深度研究智能体的工作流程

下图展示了一个典型的深度研究智能体架构，它描述了从用户输入到最终输出的完整工作流。从用户输入开始，经过规划和意图澄清（可选），到迭代使用各种工具（包括离线检索（矢量数据库和关系数据库）、在线检索（API和浏览器）以及扩展功能（如数据分析、编码等）和多模态生成的全过程，最终生成结构化的综合报告。

深度研究智能体工作流程（来源于参考资料[1]）

直观理解智能体的组成和工作机制

虽然这张图描述的工作流是一个智能研究的例子，但其实这张图展示的工作机制是典型的智能体通用工作机制。用于直观具象理解智能体的核心组成和机制非常合适。图中对智能体中的核心组成概念进行了中文标注。

智能体的核心能力包括规划、记忆、执行（含工具调用）和感知环境。这些能力通过智能体的“思考模块”（模型）、“执行模块”（工具）、“流程控制模块”（编排）等核心组成部分实现。结合流程图，可更具象地理解这些概念。

规划（大模型LLM）：当用户输入需求时，大模型会实现用户的意图分析，并基于用户意图来完成任务的规划和拆解。
执行（智能体执行和编排模块、与智能体、工具的交互）：这里涉及到是单智能体架构还是多智能体架构。
- 如果采用单智能体的架构，则在此部分可以在大模型基础上，通过调用内、外部的工具，以及外部的知识和工具去进行任务执行。那么流程控制则体现在，任务执行是一个循环迭代的过程，流程控制模块会监控任务的执行状态，循环迭代执行直至最终目标的达成。
- 如果采用多智能体架构，则此部分是多个用于完成更加特定细分任务的智能体，除了调用工具，智能体之间还可以基于 A2A 协议进行交互，以共同完成目标。
感知环境（智能体的边界）：从狭义的智能体定义上来看，用红色线划分的区域可理解为一个智能体的核心组成边界。明确智能体的边界也即明确了感知外部环境的交互接口。智能体可通过各类传感器、数据接口等，收集周围环境信息，理解当前状态。如在深度研究智能体中，通过文本输入界面或接口接收用户文字信息，便是环境感知的一种。更复杂的案例，如自动驾驶智能体，则借助摄像头、雷达等感知道路交通等环境信息，为后续决策提供依据。
记忆：尽管图中未特殊标记，但记忆对于智能体至关重要。智能体拥有短期记忆和长期记忆。短期记忆用于记录当前工作过程中的对话和任务上下文，而长期记忆则存储过去的历史与经验，以期在未来任务中表现更优，其能力直接影响最终生成质量。

三、如何实现“模型不变，能力增强”——智能体使用的核心关键技术

在这一部分中，仍基于流程图理解智能体中使用的核心关键技术。首先，智能体本身带来了一种AI应用的范式，但其并非一种具体技术，而是为实现智能体工作机制和理念所应用到的诸多核心相关技术。

下图中用红色字体标记了深度研究智能体在不同环节和组件中涉及的一些技术，尽管是深度研究智能体中的应用，但这些关键技术具有通用性。这些名词有些指向具体的某类技术，如RAG、记忆机制；有些是方法和协议，如：MCP Function calling；而还有些则指向技术概念和框架，如单智能体架构、多智能体架构。

智能体的工作流/工作模式

首先来看工作流。工作流可分为“静态” 与 “动态” 两大类。

静态工作流（Static Workflow）模式下，智能体几乎不会自主决定流程，工作流由开发者进行预定义，即人工将任务拆分成固定流程的子任务。某些子任务可能由大模型完成，但大模型不能决定下一步做什么，需根据工作流中定义好的下一步继续。这种模式最大的优势是确定性和可控性，但缺点是牺牲了灵活和智能，更像是一种保守和传统的AI尝试模式。

动态工作流（Dynamic Workflow）则是指允许智能体完全自主或部分自主决定流程的模式。在单个智能体架构下，动态工作流有着更加细分的几种实现模式。此外，在多智能体架构下，动态工作流的运行模式也有所不同。在单智能体中，动态工作流的几种模式如下：

ReAct模式：思考-行动交替的动态规划执行。这种模式类似于人类的“边想边做”。智能体循环执行：先思考当前状态与目标，生成下一步的想法，根据想法执行操作，比如调用某个工具。获得操作反馈并思考下一步，执行下一步，如此循环直到任务完成。这种模式的优点是能够逐步校正方向，更靠近目标。缺点是缺乏全局规划，具有“短视”性。

ReAct模式示意图（来自参考资料[2]）

Plan-and-Execute模式：先规划后调整。这种模式下，智能体会先生成一个较完整的计划，然后再行动，将任务拆解成子任务清单并逐一执行。智能体可根据实际执行情况动态调整（Refine），例如某一步结果不如预期，可修改后续步骤或重新规划。这种模式的优势是预先进行全局规划，避免了ReAct模式的“走一步看一步”的短视，但缺点是若初始计划有缺陷或步骤不合理，可能导致任务沿错误方向进行，虽可Refine但会增加额外开销。

Plan-and-Execute 模式示意图（来自参考资料[2]）

Workflow+局部智能模式：兼顾确定性与智能化。顾名思义，这种模式结合了静态工作流和动态工作流，整体采用静态工作流，但在特定节点（步骤）嵌入智能决策和执行。嵌入的智能节点可采用ReAct模式或Plan-and-Execute模式。这种模式的优点是平衡了可控性和智能灵活性，但缺点是工作流定义复杂，且实际表现可能“难评”。

Workflow+局部智能模式示意图（来自参考资料[2]）

单智能体到多智能体架构

针对复杂场景，可构建多个智能体。多智能体（Multi-Agent）系统通过多个专业化智能体协作执行子任务，这些子任务由专门的独立智能体规划，并可根据实时反馈持续分配、重新分配任务。多个Agent之间可通过A2A协议互相发现、分工协作，协同完成复杂任务。这类系统通常采用分层或集中式规划机制，常借助LangGraph、AutoGen、CrewAI等典型开发框架实现。多智能体系统的优势是能高效处理复杂、可并行的任务，但缺点是其协调复杂度很高。

多智能体系统的多层模式示意图（来自参考资料[2]）

检索增强生成

检索增强生成（Retrieval-Augmented Generation, RAG）是一种结合信息检索与自然语言生成的人工智能技术，旨在通过动态引入外部知识库的信息，提升大语言模型在知识密集型任务中的表现。在深度研究型智能体中，RAG技术扮演着“动态知识引擎”的角色。智能体需处理跨领域、多模态的复杂任务（如科研分析、决策支持），而传统LLM受限于静态训练数据和参数化知识，难以实时更新专业知识或处理罕见实体。RAG在智能体中的关键作用具体体现在：

拓展知识边界：连接外部结构化/非结构化数据库（如向量数据库、知识图谱），实时检索最新领域知识，解决模型训练数据滞后性问题。
增强可信决策：通过引用权威来源减少模型“幻觉”，生成内容具备可追溯性，用户可验证答案来源，提升智能体的可信度。
支持持续学习：结合记忆管理技术（如Reflexion），智能体可将检索结果转化为长期记忆，迭代优化任务规划与推理能力。例如，在科研场景中，Agentic RAG通过主动迭代检索学术文献，生成跨学科的综合分析报告。

除了深度研究型智能体，RAG在打造企业知识助手、打造个人知识助手等定位的产品中，也是非常关键的技术。目前，有多款能够基于个人知识库快速打造知识助手的产品，比如腾讯的ima。（关于RAG，值得深入学习再单开一篇）

Function Calling和MCP

智能体支持对工具调用是其非常重要的一个关键能力。如在深度研究智能体中，当涉及到分析计算指标、生成可视化图表等非自然语言处理类型的任务时，大模型就需要调用外部工具来完成这些任务。那么如何调用？这里就涉及到 Function Calling 和MCP这两个重要的技术概念。首先说明的是，两者有一些关联但完全不同。

函数调用（Function Calling）是指大语言模型具备的一种意图识别能力，能够识别何时应调用外部函数，并生成符合函数要求的参数。因此，Function Calling更多指的是模型具备这种识别需要调用外部函数的能力。需注意的是，大模型本身并不会直接去调用这些函数。它会依据用户输入的自然语言进行分析，识别出意图，生成一个函数调用指令，然后由模型的调用方（即大模型再上一层的应用程序层）负责执行。

这里的外部函数主要是什么？主要就是一些工具，这些工具主要以API的形式提供服务。大模型通过调用外部函数，可以实现数据查询、计算、控制外部系统等无法通过纯语言生成完成的任务。因此，Function Calling这项能力让模型可以与外部工具、API和服务进行交互，实质上是搭建了AI模型与现实世界系统之间的桥梁。

一个具体的例子，在这个例子中可以看到，大模型只返回调用函数所需的入参，不直接调用函数。（来自参考资料[3]）

随着工具数量的不断增加，且每个工具可能由不同的提供商提供，用法不同，客户端程序中就需要编写各种工具的调用和声明代码；另一方面，不同大模型的厂商对于自己大模型的接口定义也不同，因此，客户端程序一面要对接各种不同的工具，一面又要适配不同的大模型，就变得非常繁琐。随后MCP出现了。

MCP（Model Context Protocol）是由 Anthropic 公司提出的一种协议。主要解决不同大语言模型与不同外部工具集成的标准化问题。通过MCP，开发者能够以一种统一的方式将各种数据源和工具连接到 AI 大模型，从而提升大模型的实用性和灵活性。在技术架构上，MCP 采用了客户端-服务器架构，MCP 客户端(Clients）负责维持与 MCP 服务器的1:1连接。因此，MCP主要做了一件标准化的事。

若要阐明Function Calling与MCP之间的关系，附图能提供最直观的解释。MCP可被理解为Function Calling提供了一种更为解耦和标准化的技术实现手段。除开发人员外，用户层面通常难以感知到两者间的差异。

Function Calling 和MCP（来自参考资料[4]下的一篇回答）

记忆机制

记忆是智能体中一个庞大且关键的组成部分。类比人脑的记忆机制，模型或智能体记忆机制的重要性不言而喻。在深度研究智能体中，记忆机制实现跨多轮检索，持续调用相关信息，从而提升任务效率与连贯性。

关于记忆的定义，狭义上指智能体运行交互过程中，交互历史的存储，即对话内容、环境反馈等信息，属于模型外部记忆，不包括模型原有的底层参数。例如，在与DeepSeek对话时，单个聊天窗口中的对话历史信息便属此类。这些上下文内容需存储并在后续需要时进行检索和调用。广义上的记忆则包括模型内置记忆，即大模型经训练后，其参数隐式编码的海量知识，亦称参数记忆。参数记忆承载通用背景知识，外部记忆记录动态信息，两者共同构成智能体的完整记忆。

主要讨论模型外部记忆。记忆机制需要设计记忆模块来实现，负责写入、管理、读取三个环节形成闭环：不断记录重要信息，持续整理已有记忆，并在需要时提取相关知识支援决策。

首先，记录内容主要包括以下三类：

交互过程内部：即当前对话或当前任务执行过程中产生的信息。例如，在一次对话中用户提供的新事实、代理执行动作得到的观察结果，均属于当前回合内需记忆的内容。
历史积累信息：指先前完成的对话或任务中累积的信息。智能体可从过去对话中提取经验，如以前解决类似问题的方法、失败的教训等。
外部知识库：例如接入互联网、文档数据库等，使LLM能够记忆并检索不在训练语料中的新知识。这方面与RAG有关联。

其次，如何存储？这里要提到记忆的一种常用分类：短期记忆和长期记忆。当智能体接收到环境知觉或对话内容后，需决定哪些信息需要写入记忆。短期记忆（Short-Term Memory, STM）主要用于存储当前会话或任务的上下文信息，具有较短的生命周期，通常只在当前任务中记住信息，帮助智能体在当前会话中记住用户的请求或问题。然而，短期记忆是有限的。例如，在处理深度研究任务时，智能体通常需要进行大量多轮检索，生成数十万甚至数百万 tokens。尽管 LLM 的上下文窗口不断扩大，但仍难以满足超长上下文任务的需求。长期记忆（Long-Term Memory, LTM）则用于保存长期积累的知识和经验，生命周期较长，可以跨会话和任务记住信息，如用户的姓名、年龄、位置、既往偏好等。在后续对话中，智能体应用将持续引用这些信息，提升交互体验。因此，通过记忆模块存储下来的历史扮演长期记忆的角色。信息通常被存储在向量数据库或其他类型的数据库中，目前普遍采用向量化存储。

什么时候取用？当智能体需要利用过往信息进行推理决策时，就要从记忆库中检索相关内容并载入到当前上下文中。优秀的记忆读取机制可以做到既召回有用的信息，又不引入无关噪音，并能在复杂任务中结合多条记忆进行综合推理。

记忆机制领域专业性强，本文仅对关键概念进行初步探讨。随着人工智能逐渐演变为助理和伙伴，记忆机制的重要性日益凸显。然而，更大的记忆能力意味着更高的资源消耗，如何在高效与应用效果之间取得平衡，对技术发展提出巨大挑战。

写在最后

面对风靡一时的热门概念，需保持审慎态度。

智能体产品鲜有开源或公开原理细节，使其显得更为高深莫测。关于智能体相对于直接使用大模型，除了工具能力的增强外，在其他方面是否真有助益，各界评价不一。因此，在讨论智能体的优越性时，其核心价值究竟体现在何处？显然，仅有技术和理论上的进步是不足够的。尽管目前已有众多MCP方案，但在实际AI应用中，其可用性和用户体验远未达到网络宣传的理想程度。智能体有望改变传统应用的服务提供方式及人机交互模式，但从当前实践来看，其理念和特性虽已得到验证，潜在价值尚未完全爆发。这种框架在未来几年是否有可能被新框架革新，仍是未知数。

参考资料

《DEEP RESEARCH AGENTS: A SYSTEMATIC EXAMINATION AND ROADMAP》, 原文链接：https://arxiv.org/abs/2506.18096v1
https://blog.csdn.net/m0_56255097/article/details/148559561
https://www.panziye.com/ai/16261.html
https://www.zhihu.com/question/13800647198/answer/1948818202290258372
https://blog.csdn.net/WhiteHat_Zhou/article/details/150552830

智能体关键技术深度解析：从产品实践到核心概念

发表回复取消回复

最新内容

《亚洲水发展展望2025》深度解读：亚太水安全喜忧参半，未来挑战何在？

谷歌支付6800万美元和解语音助手监听诉讼，你的隐私可能被“误触发”录音

甲骨文豪掷500亿美元押注AI基建，美国数据中心版图加速扩张

OpenAI总裁豪掷2500万美元支持特朗普，科技巨头与政坛的深度捆绑引关注

相关内容

谷歌新工具Pomelli：输入网址，AI自动生成品牌同款设计（深度解析）

Claude Skills：终结提示词时代，定义AI能力新范式（核心原理与应用）

RAG Chunking 2.0：提升文档分块效果的八大实用策略与Python示例

用Claude/Cursor写代码？警惕AI生成代码的10大安全漏洞！

分类

快速链接

You Might Also Like

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复