前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

OpenAI智能助手:帮你订餐、购票、购物清单

洞察2025年4月10日· 5 分钟阅读5 阅读

OpenAI 推出首个半自主 AI 代理:Operator,开启网页自动化新纪元 OpenAI 近日发布了其首 […]

OpenAI 推出首个半自主 AI 代理:Operator,开启网页自动化新纪元

OpenAI 近日发布了其首个半自主 AI 代理——Operator,旨在像人类一样“操作”网页浏览器。它能够使用鼠标指针点击、自主输入文字、浏览网页并执行各种网站操作,例如通过 OpenTable 预订餐厅、在 Instacart 和 DoorDash 上完成订单,不再局限于 ChatGPT 界面或 OpenAI 的应用程序编程接口 (API)。

OpenAI 首席执行官兼联合创始人 Sam Altman 在公司 YouTube 频道上直播的演示中表示:“这款产品是我们迈向代理的第一步。”

OpenAI 总裁兼联合创始人 Greg Brockman 在 X 上写道:“2025 年是代理的时代。”

目前,Operator 仅面向 OpenAI ChatGPT Pro(每月 200 美元)付费订阅用户在美国地区开放预览,旨在展示代理 AI 的潜力,同时收集关键反馈以改进其功能。

Operator 不会接管您的网页浏览器,而是让您访问一个独立的新网站——operator.chatgpt.com,并提供一个类似于 ChatGPT 的提示输入框。

在该输入框中输入请求——“帮我找到今晚洛杉矶湖人队的比赛门票”——将触发 Operator 在 OpenAI 服务器上运行的云端虚拟浏览器中打开一个新的浏览器窗口。然后,该代理可以执行各种任务,例如填写表格、管理在线预订,甚至预订体育比赛和音乐会的门票,以及导航其他常见工作流程。用户可以实时观察云端浏览器中鼠标指针的移动。如果代理遇到问题,它会停止并通过文本输出向用户发送消息,类似于 ChatGPT 的响应。

此外,在虚拟浏览器下方,用户将看到 Operator 可以代表他们执行的操作和建议。

然而,用户可以随时接管控制权——类似于现代汽车上的半自动驾驶系统模式。当 Operator 在另一个网站上到达购买页面时,它也会要求用户输入自己的支付凭据。最后,用户还可以保存他们希望在未来使用的特定工作流程,并再次启动它们。

Operator 由 OpenAI 所谓的“计算机使用代理 (CUA)”技术驱动,该技术是 GPT-4o 的一个新变体,专门针对使用计算机进行训练。

Operator 与其他自动化工具的不同之处在于它模仿了人类与图形用户界面 (GUI) 的交互。

该系统不依赖于专门的 API,而是利用屏幕截图作为视觉输入,并使用虚拟鼠标和键盘操作来完成任务。

底层的 CUA 模型将 GPT-4o 的视觉能力与强化学习相结合,使代理能够感知、推理并对屏幕上的内容进行操作。

这种方法使 Operator 能够处理各种任务,包括电子商务浏览、旅行计划,甚至重复性任务,例如创建播放列表或管理购物清单。值得注意的基准测试表明了它的有效性:

  • 在 WebVoyager 上的成功率为 87%,这是一项实时网站导航测试。
  • 在 WebArena 上的成功率为 58.1%,该测试模拟了现实世界的电子商务和内容管理场景。

但竞争已经十分激烈:就在昨天,中国科技公司字节跳动(TikTok 的母公司)也推出了自己的 AI 代理,用于控制网页浏览器并代表用户执行操作。名为 UI-TARS 的该代理完全开源,并拥有同样令人印象深刻的基准测试性能(尽管似乎没有在相同的基准测试上进行直接比较),这意味着 OpenAI 的 Operator 需要显著优于或更可靠,才能证明其通过 ChatGPT Pro 订阅访问的相对较高成本(每月 200 美元)是合理的。

OpenAI 正在与多家企业合作,以确保 Operator 满足现实世界的需求。包括 Instacart、DoorDash 和 Etsy 在内的公司已经在测试该技术,用于从杂货配送到个性化购物等各种用例。

Priceline 首席执行官 Brett Keller 对其在旅行计划中的实用性表示赞赏,称其为“使旅行更加无缝和个性化的重要一步”。

在公共部门应用方面,斯托克顿市正在探索利用 Operator 简化公民参与的方式。该市信息技术总监 Jamil Niazi 强调了 AI 使居民更容易注册服务的潜力。

然而,也存在一些局限性。科技出版物 Every 早期获得了预览,并在过去一周对其进行了测试,发现:

“Operator 设计的一个特点是它不使用您的浏览器。相反,它使用 OpenAI 数据中心中的一个浏览器,您可以远程观看和与之交互。这种设计决策的优点是您可以在任何地方、任何时间使用 Operator——例如,在任何移动设备上。

缺点是,许多网站,例如 Reddit,已经阻止 AI 代理浏览,因此 Operator 无法访问它们。在此研究预览模式下,出于性能或法律原因,OpenAI 还阻止 Operator 访问某些资源密集型网站,例如 Figma 或竞争对手拥有的网站,例如 YouTube。”

鉴于 Operator 能够代表用户采取行动,因此它在开发过程中配备了强大的安全功能:

  • 用户控制:Operator 会在执行敏感操作(例如进行购买或发送电子邮件)时请求确认。
  • 观察模式:确保用户在执行关键任务(尤其是在电子邮件或金融平台等敏感网站上)时进行监督。
  • 防止滥用:该系统经过训练,可以拒绝有害请求,并包含针对恶意攻击(例如嵌入网站中的恶意提示)的保护措施。

OpenAI 还整合了保护用户隐私的功能,包括清除浏览数据和选择退出用于模型改进的数据共享的选项。

OpenAI 设想 Operator 在个人和企业环境中发挥更广泛的作用。随着时间的推移,该公司计划将 Operator 的访问权限扩展到 Plus、Team 和 Enterprise 用户,最终将其集成到 ChatGPT 中。

该公司还计划通过 API 提供底层的 CUA 技术,使开发人员能够创建自定义的计算机使用代理。

尽管潜力巨大,但 Operator 仍处于开发阶段。OpenAI 坦诚地承认了它的局限性,例如在处理复杂界面或不熟悉的工作流程方面存在困难。早期用户的反馈将在提高系统准确性、可靠性和安全性方面发挥关键作用。

随着 OpenAI 通过现实世界的使用不断改进 Operator,它力求将 AI 从被动工具转变为数字生态系统中的积极参与者。无论是简化日常任务还是创新业务工作流程,OpenAI 都将 Operator 定位为使 AI 变得易于访问、实用和安全的下一步。

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

鸽子靠肝脏中的磁感细胞导航
TOP1

鸽子靠肝脏中的磁感细胞导航

代码不珍贵,AI才值得
TOP2

代码不珍贵,AI才值得

3

我把手机相册改造成了自主AI代理

2小时前
4

技术浪潮如何重塑企业战略

2小时前
5

流利不等于得体:AI社交语用失败本质

2小时前
流利不等于得体:AI社交语用失败本质
6

共情之战:AI时代,我们真的赢了吗?

2小时前
7

游戏AI拼的不是智商,是演技

2小时前
8

每月100美元AI,如何花出800美元的效果

2小时前
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款