AI 助手的新纪元:Claude 的 GUI 能力探索
自 Anthropic 在去年 10 月为 Claude 推出“计算机使用”功能以来,人们对 AI 助手在模仿人类交互能力方面的潜力充满了期待。新加坡国立大学 Show Lab 的一项最新研究为我们揭示了当前一代图形用户界面 (GUI) 助手的能力边界。
Claude 是首个能够像人类一样通过 GUI 与设备交互的前沿模型。它仅通过桌面截图获取信息,并通过触发键盘和鼠标操作进行交互。这项功能有望让用户能够通过简单的指令自动执行任务,而无需访问应用程序的 API。
研究人员在各种任务中测试了 Claude,包括网页搜索、工作流程完成、办公效率和电子游戏。网页搜索任务包括浏览和交互网站,例如搜索和购买商品或订阅新闻服务。工作流程任务涉及多应用程序交互,例如从网站提取信息并将其插入电子表格。办公效率任务测试了助手执行常见操作的能力,例如格式化文档、发送电子邮件和创建演示文稿。电子游戏任务评估了助手执行需要理解游戏逻辑和计划行动的多步骤任务的能力。
每个任务都测试了模型在三个维度上的能力:规划、行动和评价。首先,模型必须制定一个连贯的计划来完成任务。然后,它必须能够通过将每个步骤转换为操作来执行计划,例如打开浏览器、点击元素和输入文本。最后,评价元素决定了模型是否能够评估其在完成任务过程中的进展和成功。模型应该能够理解它是否在过程中犯了错误并纠正路线。如果任务无法完成,它应该给出合理的解释。研究人员基于这三个组成部分创建了一个框架,并由人类对所有测试进行了审查和评分。
总的来说,Claude 在执行复杂任务方面表现出色。它能够推理和规划执行任务所需的多个步骤,执行操作并每一步都评估其进度。它还可以协调不同应用程序之间的操作,例如从网页复制信息并将其粘贴到电子表格中。此外,在某些情况下,它会在任务结束时重新审视结果,以确保一切与目标一致。模型的推理轨迹表明它对不同工具和应用程序的工作原理有基本的了解,并且能够有效地协调它们。
然而,它也倾向于犯一些普通人类用户很容易避免的微不足道的错误。例如,在一个任务中,模型未能完成订阅,因为它没有向下滚动网页以找到相应的按钮。在其他情况下,它在非常简单明了的任务中失败了,例如选择和替换文本或将项目符号更改为数字。此外,模型要么没有意识到自己的错误,要么对无法实现预期目标的原因做出了错误的假设。
研究人员认为,模型对其进度的错误判断突出了“模型自我评估机制的不足”,并表明“对这个问题的完整解决方案可能仍然需要改进 GUI 助手框架,例如引入一个内部化的严格评价模块”。从结果中可以清楚地看出,GUI 助手无法复制人类使用计算机的所有基本细微差别。
使用基本的文本描述来自动执行任务的前景非常诱人。但至少目前,这项技术还没有准备好大规模部署。模型的行为不稳定,会导致不可预测的结果,这在敏感的应用中可能造成破坏性后果。通过为人类设计的界面执行操作也不是完成可以通过 API 完成的任务的最快方式。
我们还有很多关于赋予大型语言模型 (LLM) 鼠标和键盘控制权的安全风险需要了解。例如,一项研究表明,网络代理很容易受到人类可以轻松忽略的对抗性攻击的攻击。
大规模自动化任务仍然需要强大的基础设施,包括可以安全连接并大规模提供服务的 API 和微服务。然而,像 Claude 计算机使用这样的工具可以帮助产品团队探索想法,并在不投入时间和金钱开发新功能或服务来自动执行任务的情况下迭代不同的解决方案。一旦发现可行的解决方案,团队就可以专注于开发实现高效可靠交付所需的代码和组件。