前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

OpenAI智能助手:帮你订餐、购票、购物清单

NEXTECH
Last updated: 2025年4月11日 上午6:50
By NEXTECH
Share
21 Min Read
SHARE

OpenAI 推出首个半自主 AI 代理:Operator,开启网页自动化新纪元

OpenAI 近日发布了其首个半自主 AI 代理——Operator,旨在像人类一样“操作”网页浏览器。它能够使用鼠标指针点击、自主输入文字、浏览网页并执行各种网站操作,例如通过 OpenTable 预订餐厅、在 Instacart 和 DoorDash 上完成订单,不再局限于 ChatGPT 界面或 OpenAI 的应用程序编程接口 (API)。

OpenAI 首席执行官兼联合创始人 Sam Altman 在公司 YouTube 频道上直播的演示中表示:“这款产品是我们迈向代理的第一步。”

OpenAI 总裁兼联合创始人 Greg Brockman 在 X 上写道:“2025 年是代理的时代。”

目前,Operator 仅面向 OpenAI ChatGPT Pro(每月 200 美元)付费订阅用户在美国地区开放预览,旨在展示代理 AI 的潜力,同时收集关键反馈以改进其功能。

Operator 不会接管您的网页浏览器,而是让您访问一个独立的新网站——operator.chatgpt.com,并提供一个类似于 ChatGPT 的提示输入框。

在该输入框中输入请求——“帮我找到今晚洛杉矶湖人队的比赛门票”——将触发 Operator 在 OpenAI 服务器上运行的云端虚拟浏览器中打开一个新的浏览器窗口。然后,该代理可以执行各种任务,例如填写表格、管理在线预订,甚至预订体育比赛和音乐会的门票,以及导航其他常见工作流程。用户可以实时观察云端浏览器中鼠标指针的移动。如果代理遇到问题,它会停止并通过文本输出向用户发送消息,类似于 ChatGPT 的响应。

此外,在虚拟浏览器下方,用户将看到 Operator 可以代表他们执行的操作和建议。

然而,用户可以随时接管控制权——类似于现代汽车上的半自动驾驶系统模式。当 Operator 在另一个网站上到达购买页面时,它也会要求用户输入自己的支付凭据。最后,用户还可以保存他们希望在未来使用的特定工作流程,并再次启动它们。

Operator 由 OpenAI 所谓的“计算机使用代理 (CUA)”技术驱动,该技术是 GPT-4o 的一个新变体,专门针对使用计算机进行训练。

Operator 与其他自动化工具的不同之处在于它模仿了人类与图形用户界面 (GUI) 的交互。

该系统不依赖于专门的 API,而是利用屏幕截图作为视觉输入,并使用虚拟鼠标和键盘操作来完成任务。

底层的 CUA 模型将 GPT-4o 的视觉能力与强化学习相结合,使代理能够感知、推理并对屏幕上的内容进行操作。

这种方法使 Operator 能够处理各种任务,包括电子商务浏览、旅行计划,甚至重复性任务,例如创建播放列表或管理购物清单。值得注意的基准测试表明了它的有效性:

  • 在 WebVoyager 上的成功率为 87%,这是一项实时网站导航测试。
  • 在 WebArena 上的成功率为 58.1%,该测试模拟了现实世界的电子商务和内容管理场景。

但竞争已经十分激烈:就在昨天,中国科技公司字节跳动(TikTok 的母公司)也推出了自己的 AI 代理,用于控制网页浏览器并代表用户执行操作。名为 UI-TARS 的该代理完全开源,并拥有同样令人印象深刻的基准测试性能(尽管似乎没有在相同的基准测试上进行直接比较),这意味着 OpenAI 的 Operator 需要显著优于或更可靠,才能证明其通过 ChatGPT Pro 订阅访问的相对较高成本(每月 200 美元)是合理的。

OpenAI 正在与多家企业合作,以确保 Operator 满足现实世界的需求。包括 Instacart、DoorDash 和 Etsy 在内的公司已经在测试该技术,用于从杂货配送到个性化购物等各种用例。

Priceline 首席执行官 Brett Keller 对其在旅行计划中的实用性表示赞赏,称其为“使旅行更加无缝和个性化的重要一步”。

在公共部门应用方面,斯托克顿市正在探索利用 Operator 简化公民参与的方式。该市信息技术总监 Jamil Niazi 强调了 AI 使居民更容易注册服务的潜力。

然而,也存在一些局限性。科技出版物 Every 早期获得了预览,并在过去一周对其进行了测试,发现:

“Operator 设计的一个特点是它不使用您的浏览器。相反,它使用 OpenAI 数据中心中的一个浏览器,您可以远程观看和与之交互。这种设计决策的优点是您可以在任何地方、任何时间使用 Operator——例如,在任何移动设备上。

缺点是,许多网站,例如 Reddit,已经阻止 AI 代理浏览,因此 Operator 无法访问它们。在此研究预览模式下,出于性能或法律原因,OpenAI 还阻止 Operator 访问某些资源密集型网站,例如 Figma 或竞争对手拥有的网站,例如 YouTube。”

鉴于 Operator 能够代表用户采取行动,因此它在开发过程中配备了强大的安全功能:

  • 用户控制:Operator 会在执行敏感操作(例如进行购买或发送电子邮件)时请求确认。
  • 观察模式:确保用户在执行关键任务(尤其是在电子邮件或金融平台等敏感网站上)时进行监督。
  • 防止滥用:该系统经过训练,可以拒绝有害请求,并包含针对恶意攻击(例如嵌入网站中的恶意提示)的保护措施。

OpenAI 还整合了保护用户隐私的功能,包括清除浏览数据和选择退出用于模型改进的数据共享的选项。

OpenAI 设想 Operator 在个人和企业环境中发挥更广泛的作用。随着时间的推移,该公司计划将 Operator 的访问权限扩展到 Plus、Team 和 Enterprise 用户,最终将其集成到 ChatGPT 中。

该公司还计划通过 API 提供底层的 CUA 技术,使开发人员能够创建自定义的计算机使用代理。

尽管潜力巨大,但 Operator 仍处于开发阶段。OpenAI 坦诚地承认了它的局限性,例如在处理复杂界面或不熟悉的工作流程方面存在困难。早期用户的反馈将在提高系统准确性、可靠性和安全性方面发挥关键作用。

随着 OpenAI 通过现实世界的使用不断改进 Operator,它力求将 AI 从被动工具转变为数字生态系统中的积极参与者。无论是简化日常任务还是创新业务工作流程,OpenAI 都将 Operator 定位为使 AI 变得易于访问、实用和安全的下一步。

Share This Article
Email Copy Link Print
Previous Article 20250410174439708.png Salesforce:74%的Z世代希望AI能提供最佳购车时机
Next Article robots-future.jpg?resize=1200,600 机器人:未来之路
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20250508230245629.jpg
AI初创公司Perfect获2300万美元融资,用AI解决招聘瓶颈,招聘时间缩短75%
初创
conceptual-illustration-of-large-languag
人工智能模型拥抱类人推理
AI
GettyImages-2194950188.jpg?resize=1200,6
狗狗币圈议程风向标
AI
20250508174846548.png
Omdia:2024财年,LTE和5G专网跟踪报告
报告

相关内容

AI

芯片风扇:数据中心降温新方案

2025年5月3日
240926_biggerisntbetterAI.jpg?resize=120
AI

AI领域:大并不总是更好

2024年10月2日
a-laptop-with-a-smiley-face-on-the-scree
AI

什么是人工智能代理?

2024年11月20日
Two men stare through cracked glass window
AI

700 亿参数模型训练数据提供商发布事故报告

2024年10月5日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?