AI Agent:实习生的终结者,下场的从业者的和看台上的观众
实习生的终结者
过去很长一段时间,人工智能被视为少数算法专家的专属领域,其输入输出通常是向量,需特殊处理才能转化为人类可理解的语言,多数人只能被动接受结果。随着大语言模型问世,其强大的自然语言处理、知识迁移和上下文学习能力,使得用户能够通过语言直接影响模型的输出。
四象限时间管理法强调将不值得亲自做的事情委派出去。许多情况下,缺乏合适人选或只能分配给低薪实习生,但实习生完成任务的效果与个人能力高度相关。大模型的发展为业界提供了将工作高效委派出去的契机,若大模型表现出色,便能有大量“虚拟实习生”分担任务。然而,大模型并非简单替代实习生。实习生具备“动手”能力,而大模型仅是一个对话窗口。为解决大模型“没有手”的问题,AI Agent应运而生,使大模型能够通过Function Call与外部系统交互。从某种意义上说,Agent即是为工具增添了LLM大脑,或是为LLM赋予了一双“手”。相比实习生,AI Agent通常更可控,能减少意外情况,提供更可靠的辅助。
下场的从业者
大模型在商业应用中常因其“一本正经地胡说八道”的特性,被视作玩具而非可靠工具。工具应能在关键时刻发挥作用,而玩具仅供闲暇时把玩。尽管能生成图片和视频的多模态大模型让许多人认为其在娱乐领域潜力更大,但实际情况是,多数用户通过其产生的流量收入甚至不足以覆盖Token成本。SOTA模型的持续更新未能根本解决的问题是,基于概率论的人工智能难以实现绝对准确。然而,这一点对许多人而言并不那么关键,因为分配给“实习生”的任务通常不涉及核心业务,只需保证任务量并避免显著错误即可。对于从业者而言,真正的挑战在于:实习生无论接到何种任务,只要提供指导文档,通常都能在下班前提交结果;而大模型面对新任务时,可能因无法理解或执行而“卡壳”。从业者面临的难点在于如何在任务的广度与执行效果之间找到最佳平衡点。
看台上的观众
大模型的“观众”可大致分为普通用户、评测媒体、客户和投资机构等。普通用户对品牌忠诚度不高,倾向于选择最实用高效的产品;评测媒体则热衷于通过各类创新测评和产品对比来吸引流量。尽管客户最关注产品效果,但他们所需的往往是一个整体解决方案,而非仅仅一个AI Agent。
国内投资机构在当前市场中表现得最为冷静。尽管公开场合屡次宣称人工智能是下一个万亿级风口,但国内鲜有投资应用层创业公司的消息。这主要基于两方面原因:一方面,行业仍处于早期阶段,赛道尚未成熟,在强调投资回报率的当下,风险过高;另一方面,当前的应用场景中,成功实现端到端落地的案例仍属少数。许多投资机构仍在SaaS领域的困境中挣扎,要求创业者保证最低回报率,而创业者自身对公司的未来发展也未有清晰规划。这是一个充满变数的赛道,任何微小的技术波动都可能迅速颠覆一家初创公司,因此创业者需要具备敏锐的洞察力,才能穿越行业迷雾。
结语
在强调落地的时代,AI应用层竞争的关键并非在于Prompt撰写的优劣,而在于能否成为体系化问题的解决者。模型层面的创新已成为大型科技公司的主导,而应用层创新的进入门槛虽低,但变现门槛极高。从业者往往未能清晰定位自身,其根本原因在于对用户需求缺乏深入理解。AI的落地并非简单地在界面上放置一个输入框,这可能让用户产生撰写长篇大论的心理负担;同样,客户的核心需求并非让AI代写代码,而是希望能够通过某种机制,使其所需的系统得以构建并顺利运行。
图片来源: Zane Durante, et al. “Agent AI: Surveying the Horizons of Multimodal Interaction.” (2024).
