Shuai Guo的LangGraph文章向读者展示了如何构建一个深度研究智能体。当该智能体被实际进行端到端测试时,最令人惊讶之处是什么?未来又有哪些可以改进的地方?
最令人惊讶的莫过于深度研究智能体在端到端运行时竟如此容易出错。那种“生成查询 → 搜索 → 反思 → 重复”的循环在理论上看起来很完美,但在实践中却很快就会出现问题。主要存在两个显著的问题。首先,智能体有时会将通过搜索找到的信息与预训练时记忆的信息混淆。这显然不理想,因为构建者期望大型语言模型(LLM)仅负责综合信息和识别知识缺口,而完全依赖网络搜索来验证和确立答案的准确性。
另一个持续带来困扰的问题是信息污染。当搜索结果返回类似但并非完全匹配的内容时,模型却将其视为完全符合用户要求的信息。例如,在一次测试中,深度研究智能体被要求研究某个特定的错误报告(比如代码库中的#4521号问题),但搜索结果却返回了与#4522号问题相关的内容,并且智能体开始混淆两者的症状,将其视为同一个问题。
除了这两个主要问题之外,构建者还面临着处理冲突信息和判断深度研究终止条件的挑战。这些问题都无法通过简单地增加搜索结果或运行更多迭代来解决。
核心的领悟是,如果目标是超越“仅仅一个演示”并构建一个能够在生产环境中实际运行的系统,那么“护栏”的重要性不亚于甚至超过了智能体本身的架构。“测试驱动开发”的理念在此非常适用:在构建之前,首先明确“好”的定义。未来,构建者会首先定义清晰的规则,然后围绕这些限制来构建智能体架构。
Shuai Guo曾撰文指出,分析型AI(SQL/BI + 经典机器学习)并不会因为智能体的兴起而消亡。如果现在要设计一个现代数据栈,哪些工作会交给智能体,哪些会保留给分析型AI?
分析型AI具有可复现性和数值精确性。而基于LLM的智能体则擅长处理非结构化上下文、翻译结果以及与人类沟通。在分析型AI和智能体AI之间分配任务时,如果任务偏向定量分析,则倾向于使用分析型AI;而如果任务更偏向定性,例如信息综合、故事叙述或判断,则可以考虑LLM/智能体作为更好的选择。
可以设想一个具体的客户流失预测系统。从宏观层面看,这通常涉及两个步骤:识别高风险客户,以及对这些客户采取行动。在识别高风险客户的第一步中,构建者会倾向于依靠分析型AI来设计有信息量的特征,在历史行为数据上训练梯度提升模型,并使用训练好的模型计算客户流失倾向得分。此外,还会运行SHAP分析以获取特征重要性得分,从而解释预测结果。每一个步骤都是精确且可复现的,并且有大量的最佳实践可供借鉴,以确保获得准确可靠的结果。
然而,接下来就是有趣的部分:如何实际应用这些预测结果?这正是基于LLM的智能体可以发挥作用的地方。智能体可以根据客户的历史数据草拟个性化的挽留邮件,或许还能推荐客户尚未尝试过的相关产品功能,并根据他们过去的客服工单情况调整邮件的语气。这其中不涉及复杂的数学运算,而是以一种情境感知的方式进行智能沟通。
早期投入培养的哪项技能,在当前AI工具日益强大的背景下,依然能带来优势?
系统思维。
系统思维本质上是思考如何将系统分解为各个组件。不同的组件之间如何交互?交接点在哪里?反馈循环存在于何处?如果触及某个部分,其他部分会发生什么变化?
这项技能是在大学期间培养的,当时主修航空航天工程,专注于航空发动机设计。喷气发动机的特点是“牵一发而动全身”,对它的研究帮助培养了三个习惯:分解系统、定义清晰的接口,并始终关注耦合效应。
诚然,AI工具的能力正在不断增强,例如我们拥有了更好的编码助手、更有效的RAG(检索增强生成)管道,或能处理更长上下文的LLM。但这些进展大多发生在狭窄的领域。系统思维有助于将大局置于核心位置,而非一味追逐最热门的工具并试图将其强行整合到现有工作中。对于LLM应用,构建者总是会从绘制组件草图开始,确定组件间的交互和输入/输出,确保添加检查和护栏,然后随着工具的改进来替换或升级组件。
事实上,构建LLM应用让Shuai Guo想起了喷气发动机的设计:新技术层出不穷,但扎实的系统设计能持续积累价值。
从宏观角度来看,数据科学或AI领域目前哪些部分变化过快,哪些部分变化不够快?
多智能体AI系统无疑是目前发展最快的领域之一。人们不时会看到各种炫酷的演示(无论是编码助手还是研究助手)。能够帮助开发者高效构建自身多智能体应用的新型开源框架也层出不穷。这一切都令人兴奋。但问题在于:人们是否在对这些复杂系统实际行为理解不足的情况下,就过快地将其推出?
差距就在于此:围绕这些多智能体系统的整个“保障”层(assurance layer)发展不够迅速。为了应对这一挑战,可以(也应该)将这些多智能体系统视为任何其他工业系统。在制造业中,采用数据驱动的方法辅助系统设计、控制、状态监测和故障分析是一种常见做法。同样的方法也能惠及多智能体系统。例如,是否可以采用贝叶斯优化来设计多智能体架构?或者利用基于机器学习的异常检测来监控智能体的性能并捕捉安全威胁?
好消息是,这方面的发展势头正在积聚。目前,LLM的可观测性平台、评估框架等正在兴起,它们为应用这些工业级的、数据驱动的方法奠定了基础。该领域蕴藏着巨大的机会,即有机会将工业系统的严谨性引入智能体AI,使这些工具更加可靠和值得信赖,这正是令人感到兴奋之处。
