OpenAI 推出首个半自主 AI 代理:Operator,开启网页自动化新纪元
OpenAI 近日发布了其首个半自主 AI 代理——Operator,旨在像人类一样“操作”网页浏览器。它能够使用鼠标指针点击、自主输入文字、浏览网页并执行各种网站操作,例如通过 OpenTable 预订餐厅、在 Instacart 和 DoorDash 上完成订单,不再局限于 ChatGPT 界面或 OpenAI 的应用程序编程接口 (API)。
OpenAI 首席执行官兼联合创始人 Sam Altman 在公司 YouTube 频道上直播的演示中表示:“这款产品是我们迈向代理的第一步。”
OpenAI 总裁兼联合创始人 Greg Brockman 在 X 上写道:“2025 年是代理的时代。”
目前,Operator 仅面向 OpenAI ChatGPT Pro(每月 200 美元)付费订阅用户在美国地区开放预览,旨在展示代理 AI 的潜力,同时收集关键反馈以改进其功能。
Operator 不会接管您的网页浏览器,而是让您访问一个独立的新网站——operator.chatgpt.com,并提供一个类似于 ChatGPT 的提示输入框。
在该输入框中输入请求——“帮我找到今晚洛杉矶湖人队的比赛门票”——将触发 Operator 在 OpenAI 服务器上运行的云端虚拟浏览器中打开一个新的浏览器窗口。然后,该代理可以执行各种任务,例如填写表格、管理在线预订,甚至预订体育比赛和音乐会的门票,以及导航其他常见工作流程。用户可以实时观察云端浏览器中鼠标指针的移动。如果代理遇到问题,它会停止并通过文本输出向用户发送消息,类似于 ChatGPT 的响应。
此外,在虚拟浏览器下方,用户将看到 Operator 可以代表他们执行的操作和建议。
然而,用户可以随时接管控制权——类似于现代汽车上的半自动驾驶系统模式。当 Operator 在另一个网站上到达购买页面时,它也会要求用户输入自己的支付凭据。最后,用户还可以保存他们希望在未来使用的特定工作流程,并再次启动它们。
Operator 由 OpenAI 所谓的“计算机使用代理 (CUA)”技术驱动,该技术是 GPT-4o 的一个新变体,专门针对使用计算机进行训练。
Operator 与其他自动化工具的不同之处在于它模仿了人类与图形用户界面 (GUI) 的交互。
该系统不依赖于专门的 API,而是利用屏幕截图作为视觉输入,并使用虚拟鼠标和键盘操作来完成任务。
底层的 CUA 模型将 GPT-4o 的视觉能力与强化学习相结合,使代理能够感知、推理并对屏幕上的内容进行操作。
这种方法使 Operator 能够处理各种任务,包括电子商务浏览、旅行计划,甚至重复性任务,例如创建播放列表或管理购物清单。值得注意的基准测试表明了它的有效性:
- 在 WebVoyager 上的成功率为 87%,这是一项实时网站导航测试。
- 在 WebArena 上的成功率为 58.1%,该测试模拟了现实世界的电子商务和内容管理场景。
但竞争已经十分激烈:就在昨天,中国科技公司字节跳动(TikTok 的母公司)也推出了自己的 AI 代理,用于控制网页浏览器并代表用户执行操作。名为 UI-TARS 的该代理完全开源,并拥有同样令人印象深刻的基准测试性能(尽管似乎没有在相同的基准测试上进行直接比较),这意味着 OpenAI 的 Operator 需要显著优于或更可靠,才能证明其通过 ChatGPT Pro 订阅访问的相对较高成本(每月 200 美元)是合理的。
OpenAI 正在与多家企业合作,以确保 Operator 满足现实世界的需求。包括 Instacart、DoorDash 和 Etsy 在内的公司已经在测试该技术,用于从杂货配送到个性化购物等各种用例。
Priceline 首席执行官 Brett Keller 对其在旅行计划中的实用性表示赞赏,称其为“使旅行更加无缝和个性化的重要一步”。
在公共部门应用方面,斯托克顿市正在探索利用 Operator 简化公民参与的方式。该市信息技术总监 Jamil Niazi 强调了 AI 使居民更容易注册服务的潜力。
然而,也存在一些局限性。科技出版物 Every 早期获得了预览,并在过去一周对其进行了测试,发现:
“Operator 设计的一个特点是它不使用您的浏览器。相反,它使用 OpenAI 数据中心中的一个浏览器,您可以远程观看和与之交互。这种设计决策的优点是您可以在任何地方、任何时间使用 Operator——例如,在任何移动设备上。
缺点是,许多网站,例如 Reddit,已经阻止 AI 代理浏览,因此 Operator 无法访问它们。在此研究预览模式下,出于性能或法律原因,OpenAI 还阻止 Operator 访问某些资源密集型网站,例如 Figma 或竞争对手拥有的网站,例如 YouTube。”
鉴于 Operator 能够代表用户采取行动,因此它在开发过程中配备了强大的安全功能:
- 用户控制:Operator 会在执行敏感操作(例如进行购买或发送电子邮件)时请求确认。
- 观察模式:确保用户在执行关键任务(尤其是在电子邮件或金融平台等敏感网站上)时进行监督。
- 防止滥用:该系统经过训练,可以拒绝有害请求,并包含针对恶意攻击(例如嵌入网站中的恶意提示)的保护措施。
OpenAI 还整合了保护用户隐私的功能,包括清除浏览数据和选择退出用于模型改进的数据共享的选项。
OpenAI 设想 Operator 在个人和企业环境中发挥更广泛的作用。随着时间的推移,该公司计划将 Operator 的访问权限扩展到 Plus、Team 和 Enterprise 用户,最终将其集成到 ChatGPT 中。
该公司还计划通过 API 提供底层的 CUA 技术,使开发人员能够创建自定义的计算机使用代理。
尽管潜力巨大,但 Operator 仍处于开发阶段。OpenAI 坦诚地承认了它的局限性,例如在处理复杂界面或不熟悉的工作流程方面存在困难。早期用户的反馈将在提高系统准确性、可靠性和安全性方面发挥关键作用。
随着 OpenAI 通过现实世界的使用不断改进 Operator,它力求将 AI 从被动工具转变为数字生态系统中的积极参与者。无论是简化日常任务还是创新业务工作流程,OpenAI 都将 Operator 定位为使 AI 变得易于访问、实用和安全的下一步。