ChatGPT 的横空出世,掀起了生成式 AI 的热潮,转眼两年过去,仅仅是拥有一个无所不能的 AI 助手,似乎已经不再令人感到新奇。AI 的下一个突破,将是能够替我们完成任务的 AI 代理。对于程序员等专业用户来说,这种代理型 AI 已经开始崭露头角,但对于普通用户而言,这样的 AI 助手还遥不可及。
然而,这将很快改变。Anthropic、Google DeepMind 和 OpenAI 近期都发布了实验性的 AI 模型,这些模型能够像人类一样使用电脑,例如搜索网络信息、填写表格和点击按钮。在用户的简单指示下,它们可以完成诸如订购杂货、叫车、寻找最优惠价格或预订旅行等任务。虽然这些早期模型的能力有限,尚未广泛应用,但它们预示着 AI 的发展方向。
“这仅仅是 AI 在电脑上点击操作,”OpenAI 首席执行官 Sam Altman 在演示视频中说道,他一边观察着名为 Operator 的 OpenAI 代理在 OpenTable 网站上搜索旧金山餐厅,并查询晚上 7 点的预订情况。
卡内基梅隆大学机器学习副教授 Zachary Lipton 指出,AI 代理已经开始嵌入到针对不同类型企业客户的专业软件中,例如销售人员、医生和律师。但直到现在,我们还没有看到能够“在你的笔记本电脑上完成日常工作”的 AI 代理。他表示:“令人着迷的是,人们开始将‘钥匙’交到 AI 手中。”
Anthropic、Google DeepMind 和 OpenAI 的 AI 代理
Anthropic 率先发布了这项新功能,他们在 10 月份宣布其 Claude 聊天机器人现在可以“像人类一样使用电脑”。该公司强调,他们将这项功能作为公开测试版提供,目前仅供开发人员使用,这些开发人员正在基于 Anthropic 的大型语言模型构建工具和产品。Claude 通过查看用户看到的屏幕截图,并计算将光标移动到特定位置进行点击所需的像素数量来进行导航。Anthropic 的发言人表示,Claude 可以在任何电脑和任何桌面应用程序中完成这项工作。
紧随其后的是 Google DeepMind,他们推出了基于 Google Gemini 2 语言模型的 Project Mariner。该公司在 12 月份展示了 Mariner,但将其称为“早期研究原型”,并表示目前仅向“可信测试人员”提供该工具。作为另一项预防措施,Mariner 目前仅在 Chrome 浏览器中运行,并且仅在活动标签页中运行,这意味着它不会在您执行其他任务时在后台运行。虽然这一要求似乎在一定程度上违背了拥有省时 AI 助手这一目的,但这很可能是开发早期阶段的临时措施。
最后,OpenAI 在 1 月份推出了名为 Operator 的电脑使用代理 (CUA)。OpenAI 将其称为“研究预览版”,仅向每月支付 200 美元使用 OpenAI 高级服务的用户提供,但该公司表示正在努力将其推广到更广泛的用户群体。Operator 团队的工程师 Yash Kumar 表示,该工具可以与几乎所有网站配合使用。“我们从浏览器开始,因为这是大多数工作发生的地方,”Kumar 说。但他指出,“CUA 模型也经过训练可以使用电脑,因此我们有可能将其扩展到”与其他桌面应用程序配合使用。
与其他 AI 代理一样,Operator 依赖于链式思维推理来接收指令,并将指令分解成一系列可执行的任务。如果它需要更多信息才能完成任务——例如,如果您更喜欢购买红洋葱还是黄洋葱——它会暂停并请求输入。在执行最终步骤之前,它还会要求确认,例如预订餐厅餐桌或下达杂货订单。
电脑使用代理的安全问题
以下是一些电脑使用代理目前无法完成的任务:登录网站、同意服务条款、解决验证码以及输入信用卡或其他支付信息。如果代理遇到这些障碍,它会将控制权交还给用户。OpenAI 指出,Operator 不会在用户输入登录或支付信息时截取浏览器屏幕截图。
三家公司都指出,将 AI 放在电脑的控制权上可能会带来安全风险。Anthropic 特别提出了提示注入攻击的担忧,即恶意攻击者可以向用户的提示中添加一些内容,使模型执行意外操作。“由于 Claude 可以解释来自连接到互联网的电脑的屏幕截图,因此它可能会接触到包含提示注入攻击的内容,”Anthropic 在一篇博文中写道。
CMU 的 Lipton 表示,这些公司尚未透露有关电脑使用代理及其工作原理的太多信息,因此很难评估风险。“如果有人让你的电脑操作员执行恶意操作,这是否意味着他们已经获得了你的电脑的访问权限?”他问道,如果是这样,为什么恶意攻击者不直接采取行动呢?
尽管如此,Lipton 还是表示,考虑到我们在网上进行的所有操作和购买,“不难想象,一些操作可能会让用户陷入困境。”例如,他说,“谁会是第一个醒来后说‘我的[代理]给我买了一支车队’的人?”
电脑使用代理的未来
虽然三家公司都没有透露其电脑使用代理的广泛发布时间表,但似乎消费者将在今年开始使用这些代理——要么通过大型 AI 公司,要么通过创建更便宜的仿制品的新兴公司。
OpenAI 的 Kumar 表示,这是一个激动人心的时刻,Operator 标志着人类与 AI 更加协作的未来的一个步骤。“这是我们通往 AGI 的道路上的一个里程碑,”他说,指的是人们长期以来梦寐以求/担心的通用人工智能。“能够使用人类每天都在使用的相同界面和工具,扩展了 AI 的实用性,帮助人们节省日常任务的时间。”
如果你还记得 2013 年的预言电影《她》,我们似乎正在走向电影开头那个世界,那个时候,性感的 Samantha 还没有开始在男主角耳边说话。这是一个每个人都拥有一个无聊而中性的 AI 来帮助他们阅读和回复信息,以及处理其他日常琐事的时代。一旦 AI 公司牢固地实现这一目标,他们无疑会开始着手打造 Samantha。