AI Agent的真相：擅长执行，拙于思考

一、AI Agent：一个“听话”的实习生

最近，关于AI Agent将颠覆软件开发、甚至取代人类工作的讨论不绝于耳。从全自动程序员Devin到各类开源框架，似乎一个无所不能的“AI员工”时代已经到来。

然而，在实际应用中，我们很快会遇到一个尴尬的现实：这些看似强大的Agent在处理简单、明确的任务时表现出色，可一旦任务链条变长、出现意料之外的错误，它们便会立刻“卡住”。

这就像团队里的两种角色：

资深工程师：你给他一个模糊的目标，他能自行查阅文档、调试错误、在不同方案中权衡取舍，最终交付结果。
实习生：你给他一份清晰的操作手册（SOP），他能完美执行。但如果手册里没写某个步骤，或者执行中弹出一个未知错误，他就会停下来，然后把问题抛还给你。

当前的多数AI Agent，尤其是基于开源模型的，更接近后者的状态。它们是出色的执行者，却远非合格的思考者。

二、能力幻觉：从哪里来，到哪里去？

AI Agent的能力幻觉，源于它们在“模式匹配”类任务上的成功。比如，通过API调用查询天气、预订一辆网约车、或者在电商后台拉取昨天的销售数据。这些任务的共同点是：意图清晰、路径单一、结果可预测。

对于这类任务，一个中等规模的开源模型足以胜任。它就像一个熟练工，能将用户的自然语言指令精确地映射到特定的工具调用（Tool Calling）上。这也是为什么许多AI Agent的演示视频看起来如此惊艳——它们展示的通常是这类“最佳路径”场景。

然而，真正的挑战出现在“推理悬崖”的边缘。当一个任务需要多个步骤、且后一步依赖于前一步的分析结果时，模型的短板就暴露了。例如，一个财务分析Agent被要求“对比上季度各产品线的销售额和利润率，找出异常项并分析原因”。

这个任务至少包含三步：

调用API，获取销售额数据。
调用另一个API，获取成本数据，并计算利润率。
综合两组数据，进行比较和归因分析。

Agent可能在第一步就因API权限问题失败。但它不会像人类一样去检查权限配置，反而可能自信地给出一个风马牛不相及的错误诊断，比如“数据库连接超时”。它自信地制造了一个错误的“事实”，然后礼貌地请求你的下一步指示。这不仅没有解决问题，反而将人引向了错误的方向。

三、跑分的胜利，不等于推理的胜利

一个普遍的误区是，用模型排行榜的跑分来衡量其在Agent任务中的可靠性。根据Epoch AI等机构的研究，顶级开源模型在许多基准测试上与闭源模型的差距正在缩小。在中国，“百模大战”的焦点也常常集中在各类评测榜单的排名上。

但这存在一个根本性问题：基准测试衡量的是平均能力，而真实世界考验的是处理极端情况的能力。

绝大多数基准测试，本质上是“闭卷考试”，衡量模型在已知问题域内的知识储备和模式识别能力。而AI Agent在执行任务时，面对的是一个充满不确定性的“开卷世界”。API可能会超时，数据格式可能不匹配，系统环境可能发生变化——这些都是榜单无法覆盖的“意外”。

正如Palo Alto Networks曾将AI Agent列为未来的潜在安全威胁，其风险根源并非恶意，而在于“高权限”与“低推理能力”的危险组合。一个能访问你全部文件和应用的Agent，如果无法准确判断指令的后果，其破坏力可能远超想象。

四、从模型崇拜到“手册”工程

既然无法指望模型成为一个能独立思考的“天才”，那么出路在哪里？答案是：为它打造一本足够详尽的“操作手册”。

这催生了一门新的工程学科：Agent工程。其核心思想，不再是追求一个更聪明的模型，而是设计一个更鲁棒的系统框架，来弥补模型在推理和错误恢复上的不足。像LangGraph这样的框架，本质上就是为AI Agent构建复杂的、有状态的“工作流图”。

在这个体系下，模型被视为一个强大的、但偶尔会“犯错”的组件。工程师的职责是：

定义清晰的工具（Tools）：明确每个API的功能、参数和预期的返回格式。
设计详尽的恢复逻辑（Error Handling）：预设各种潜在的失败场景，并为Agent规划好备用路径或重试机制。
建立多步验证（Verification）：在关键节点，让Agent自我检查或请求人类确认，确保任务在正确的轨道上。

在中国，这种务实的工程思维或许更具优势。相比于追求通用人工智能（AGI），国内的科技公司更擅长在具体的、垂直的场景中打磨应用。与其打造一个泛泛的“全能助理”，不如构建一个高度定制化的“淘宝订单处理专家”或“企业微信报告生成器”。在这些限定领域内，一本详尽的“操作手册”是完全可能被设计出来的。

结论：承认模型的局限，拥抱工程的价值

AI Agent的未来，可能不是由一个无所不能的超级模型主宰，而是一个分工明确的混合生态。

最顶尖的闭源大模型，将扮演“资深专家”的角色，处理那些需要高度创造力、复杂推理和模糊判断的开放式任务。

而广大的开源模型，将作为“超级实习生”，在无数个被精心设计的“操作手册”（Agent框架）的指导下，高效地完成各行各业的结构化、自动化任务。

对于企业和开发者而言，最重要的一课是：诚实地评估模型的局限性。与其把宝押在下一个“更聪明”的模型上，不如现在就开始投资构建稳健的Agent工程体系。因为在可预见的未来，决定AI Agent价值上限的，不是模型的智商，而是驾驭它的那本“手册”的厚度与智慧。

一、AI Agent：一个“听话”的实习生

这就像团队里的两种角色：

资深工程师：你给他一个模糊的目标，他能自行查阅文档、调试错误、在不同方案中权衡取舍，最终交付结果。
实习生：你给他一份清晰的操作手册（SOP），他能完美执行。但如果手册里没写某个步骤，或者执行中弹出一个未知错误，他就会停下来，然后把问题抛还给你。

当前的多数AI Agent，尤其是基于开源模型的，更接近后者的状态。它们是出色的执行者，却远非合格的思考者。

二、能力幻觉：从哪里来，到哪里去？

这个任务至少包含三步：

调用API，获取销售额数据。
调用另一个API，获取成本数据，并计算利润率。
综合两组数据，进行比较和归因分析。

三、跑分的胜利，不等于推理的胜利

但这存在一个根本性问题：基准测试衡量的是平均能力，而真实世界考验的是处理极端情况的能力。

四、从模型崇拜到“手册”工程

既然无法指望模型成为一个能独立思考的“天才”，那么出路在哪里？答案是：为它打造一本足够详尽的“操作手册”。

在这个体系下，模型被视为一个强大的、但偶尔会“犯错”的组件。工程师的职责是：

定义清晰的工具（Tools）：明确每个API的功能、参数和预期的返回格式。
设计详尽的恢复逻辑（Error Handling）：预设各种潜在的失败场景，并为Agent规划好备用路径或重试机制。
建立多步验证（Verification）：在关键节点，让Agent自我检查或请求人类确认，确保任务在正确的轨道上。

结论：承认模型的局限，拥抱工程的价值

AI Agent的未来，可能不是由一个无所不能的超级模型主宰，而是一个分工明确的混合生态。

最顶尖的闭源大模型，将扮演“资深专家”的角色，处理那些需要高度创造力、复杂推理和模糊判断的开放式任务。

而广大的开源模型，将作为“超级实习生”，在无数个被精心设计的“操作手册”（Agent框架）的指导下，高效地完成各行各业的结构化、自动化任务。

AI Agent的真相：擅长执行，拙于思考

一、AI Agent：一个“听话”的实习生

二、能力幻觉：从哪里来，到哪里去？

三、跑分的胜利，不等于推理的胜利

四、从模型崇拜到“手册”工程

结论：承认模型的局限，拥抱工程的价值

想了解 AI 如何助力您的企业？

24小时热榜

阿联酋联手Colossal打造基因“诺亚方舟”

微软推出AI内容授权市场，为出版商与开发者搭建桥梁

欧盟发布AI法案高风险系统关键指南

OpenAI 从 Anthropic 挖角安全专家，年薪超 55 万美元

伊朗袭击波及 AWS，阿联酋数据中心被迫关闭

Claude 登顶 App Store，ChatGPT 遭抵制风波

英伟达联手电信巨头，打造AI原生6G网络

科技从业者联名呼吁五角大楼撤销对Anthropic封禁

免费获取 AI 落地指南

AI Agent的真相：擅长执行，拙于思考

一、AI Agent：一个“听话”的实习生

二、能力幻觉：从哪里来，到哪里去？

三、跑分的胜利，不等于推理的胜利

四、从模型崇拜到“手册”工程

结论：承认模型的局限，拥抱工程的价值

想了解 AI 如何助力您的企业？

24小时热榜

阿联酋联手Colossal打造基因“诺亚方舟”

微软推出AI内容授权市场，为出版商与开发者搭建桥梁

欧盟发布AI法案高风险系统关键指南

OpenAI 从 Anthropic 挖角安全专家，年薪超 55 万美元

伊朗袭击波及 AWS，阿联酋数据中心被迫关闭

Claude 登顶 App Store，ChatGPT 遭抵制风波

英伟达联手电信巨头，打造AI原生6G网络

科技从业者联名呼吁五角大楼撤销对Anthropic封禁

免费获取 AI 落地指南