AI Agent的热潮之下,一个被忽视的真相是:它们更像一个指令明确的实习生,而非能独立解决问题的资深专家。开源模型能高效处理重复性任务,但在面对复杂、意外的场景时,其推理能力的短板便暴露无遗。真正的壁垒不在于模型本身,而在于如何构建一个能驾驭其“不确定性”的工程体系。
最近,关于AI Agent将颠覆软件开发、甚至取代人类工作的讨论不绝于耳。从全自动程序员Devin到各类开源框架,似乎一个无所不能的“AI员工”时代已经到来。
然而,在实际应用中,我们很快会遇到一个尴尬的现实:这些看似强大的Agent在处理简单、明确的任务时表现出色,可一旦任务链条变长、出现意料之外的错误,它们便会立刻“卡住”。
这就像团队里的两种角色:
当前的多数AI Agent,尤其是基于开源模型的,更接近后者的状态。它们是出色的执行者,却远非合格的思考者。
AI Agent的能力幻觉,源于它们在“模式匹配”类任务上的成功。比如,通过API调用查询天气、预订一辆网约车、或者在电商后台拉取昨天的销售数据。这些任务的共同点是:意图清晰、路径单一、结果可预测。
对于这类任务,一个中等规模的开源模型足以胜任。它就像一个熟练工,能将用户的自然语言指令精确地映射到特定的工具调用(Tool Calling)上。这也是为什么许多AI Agent的演示视频看起来如此惊艳——它们展示的通常是这类“最佳路径”场景。
然而,真正的挑战出现在“推理悬崖”的边缘。当一个任务需要多个步骤、且后一步依赖于前一步的分析结果时,模型的短板就暴露了。例如,一个财务分析Agent被要求“对比上季度各产品线的销售额和利润率,找出异常项并分析原因”。
这个任务至少包含三步:
Agent可能在第一步就因API权限问题失败。但它不会像人类一样去检查权限配置,反而可能自信地给出一个风马牛不相及的错误诊断,比如“数据库连接超时”。它自信地制造了一个错误的“事实”,然后礼貌地请求你的下一步指示。这不仅没有解决问题,反而将人引向了错误的方向。

一个普遍的误区是,用模型排行榜的跑分来衡量其在Agent任务中的可靠性。根据Epoch AI等机构的研究,顶级开源模型在许多基准测试上与闭源模型的差距正在缩小。在中国,“百模大战”的焦点也常常集中在各类评测榜单的排名上。
但这存在一个根本性问题:基准测试衡量的是平均能力,而真实世界考验的是处理极端情况的能力。
绝大多数基准测试,本质上是“闭卷考试”,衡量模型在已知问题域内的知识储备和模式识别能力。而AI Agent在执行任务时,面对的是一个充满不确定性的“开卷世界”。API可能会超时,数据格式可能不匹配,系统环境可能发生变化——这些都是榜单无法覆盖的“意外”。
正如Palo Alto Networks曾将AI Agent列为未来的潜在安全威胁,其风险根源并非恶意,而在于“高权限”与“低推理能力”的危险组合。一个能访问你全部文件和应用的Agent,如果无法准确判断指令的后果,其破坏力可能远超想象。
既然无法指望模型成为一个能独立思考的“天才”,那么出路在哪里?答案是:为它打造一本足够详尽的“操作手册”。
这催生了一门新的工程学科:Agent工程。其核心思想,不再是追求一个更聪明的模型,而是设计一个更鲁棒的系统框架,来弥补模型在推理和错误恢复上的不足。像LangGraph这样的框架,本质上就是为AI Agent构建复杂的、有状态的“工作流图”。
在这个体系下,模型被视为一个强大的、但偶尔会“犯错”的组件。工程师的职责是:
在中国,这种务实的工程思维或许更具优势。相比于追求通用人工智能(AGI),国内的科技公司更擅长在具体的、垂直的场景中打磨应用。与其打造一个泛泛的“全能助理”,不如构建一个高度定制化的“淘宝订单处理专家”或“企业微信报告生成器”。在这些限定领域内,一本详尽的“操作手册”是完全可能被设计出来的。
AI Agent的未来,可能不是由一个无所不能的超级模型主宰,而是一个分工明确的混合生态。
最顶尖的闭源大模型,将扮演“资深专家”的角色,处理那些需要高度创造力、复杂推理和模糊判断的开放式任务。
而广大的开源模型,将作为“超级实习生”,在无数个被精心设计的“操作手册”(Agent框架)的指导下,高效地完成各行各业的结构化、自动化任务。
对于企业和开发者而言,最重要的一课是:诚实地评估模型的局限性。与其把宝押在下一个“更聪明”的模型上,不如现在就开始投资构建稳健的Agent工程体系。因为在可预见的未来,决定AI Agent价值上限的,不是模型的智商,而是驾驭它的那本“手册”的厚度与智慧。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断