AI – 前途科技

a-smiling-man-has-a-laptop-open-in-front

Contents

Anthropic、Google DeepMind 和 OpenAI 的 AI 代理电脑使用代理的安全问题电脑使用代理的未来

ChatGPT 的横空出世，掀起了生成式 AI 的热潮，转眼两年过去，仅仅是拥有一个无所不能的 AI 助手，似乎已经不再令人感到新奇。AI 的下一个突破，将是能够替我们完成任务的 AI 代理。对于程序员等专业用户来说，这种代理型 AI 已经开始崭露头角，但对于普通用户而言，这样的 AI 助手还遥不可及。

然而，这将很快改变。Anthropic、Google DeepMind 和 OpenAI 近期都发布了实验性的 AI 模型，这些模型能够像人类一样使用电脑，例如搜索网络信息、填写表格和点击按钮。在用户的简单指示下，它们可以完成诸如订购杂货、叫车、寻找最优惠价格或预订旅行等任务。虽然这些早期模型的能力有限，尚未广泛应用，但它们预示着 AI 的发展方向。

“这仅仅是 AI 在电脑上点击操作，”OpenAI 首席执行官 Sam Altman 在演示视频中说道，他一边观察着名为 Operator 的 OpenAI 代理在 OpenTable 网站上搜索旧金山餐厅，并查询晚上 7 点的预订情况。

卡内基梅隆大学机器学习副教授 Zachary Lipton 指出，AI 代理已经开始嵌入到针对不同类型企业客户的专业软件中，例如销售人员、医生和律师。但直到现在，我们还没有看到能够“在你的笔记本电脑上完成日常工作”的 AI 代理。他表示：“令人着迷的是，人们开始将‘钥匙’交到 AI 手中。”

Anthropic、Google DeepMind 和 OpenAI 的 AI 代理

Anthropic 率先发布了这项新功能，他们在 10 月份宣布其 Claude 聊天机器人现在可以“像人类一样使用电脑”。该公司强调，他们将这项功能作为公开测试版提供，目前仅供开发人员使用，这些开发人员正在基于 Anthropic 的大型语言模型构建工具和产品。Claude 通过查看用户看到的屏幕截图，并计算将光标移动到特定位置进行点击所需的像素数量来进行导航。Anthropic 的发言人表示，Claude 可以在任何电脑和任何桌面应用程序中完成这项工作。

紧随其后的是 Google DeepMind，他们推出了基于 Google Gemini 2 语言模型的 Project Mariner。该公司在 12 月份展示了 Mariner，但将其称为“早期研究原型”，并表示目前仅向“可信测试人员”提供该工具。作为另一项预防措施，Mariner 目前仅在 Chrome 浏览器中运行，并且仅在活动标签页中运行，这意味着它不会在您执行其他任务时在后台运行。虽然这一要求似乎在一定程度上违背了拥有省时 AI 助手这一目的，但这很可能是开发早期阶段的临时措施。

最后，OpenAI 在 1 月份推出了名为 Operator 的电脑使用代理 (CUA)。OpenAI 将其称为“研究预览版”，仅向每月支付 200 美元使用 OpenAI 高级服务的用户提供，但该公司表示正在努力将其推广到更广泛的用户群体。Operator 团队的工程师 Yash Kumar 表示，该工具可以与几乎所有网站配合使用。“我们从浏览器开始，因为这是大多数工作发生的地方，”Kumar 说。但他指出，“CUA 模型也经过训练可以使用电脑，因此我们有可能将其扩展到”与其他桌面应用程序配合使用。

与其他 AI 代理一样，Operator 依赖于链式思维推理来接收指令，并将指令分解成一系列可执行的任务。如果它需要更多信息才能完成任务——例如，如果您更喜欢购买红洋葱还是黄洋葱——它会暂停并请求输入。在执行最终步骤之前，它还会要求确认，例如预订餐厅餐桌或下达杂货订单。

电脑使用代理的安全问题

以下是一些电脑使用代理目前无法完成的任务：登录网站、同意服务条款、解决验证码以及输入信用卡或其他支付信息。如果代理遇到这些障碍，它会将控制权交还给用户。OpenAI 指出，Operator 不会在用户输入登录或支付信息时截取浏览器屏幕截图。

三家公司都指出，将 AI 放在电脑的控制权上可能会带来安全风险。Anthropic 特别提出了提示注入攻击的担忧，即恶意攻击者可以向用户的提示中添加一些内容，使模型执行意外操作。“由于 Claude 可以解释来自连接到互联网的电脑的屏幕截图，因此它可能会接触到包含提示注入攻击的内容，”Anthropic 在一篇博文中写道。

CMU 的 Lipton 表示，这些公司尚未透露有关电脑使用代理及其工作原理的太多信息，因此很难评估风险。“如果有人让你的电脑操作员执行恶意操作，这是否意味着他们已经获得了你的电脑的访问权限？”他问道，如果是这样，为什么恶意攻击者不直接采取行动呢？

尽管如此，Lipton 还是表示，考虑到我们在网上进行的所有操作和购买，“不难想象，一些操作可能会让用户陷入困境。”例如，他说，“谁会是第一个醒来后说‘我的[代理]给我买了一支车队’的人？”

电脑使用代理的未来

虽然三家公司都没有透露其电脑使用代理的广泛发布时间表，但似乎消费者将在今年开始使用这些代理——要么通过大型 AI 公司，要么通过创建更便宜的仿制品的新兴公司。

OpenAI 的 Kumar 表示，这是一个激动人心的时刻，Operator 标志着人类与 AI 更加协作的未来的一个步骤。“这是我们通往 AGI 的道路上的一个里程碑，”他说，指的是人们长期以来梦寐以求/担心的通用人工智能。“能够使用人类每天都在使用的相同界面和工具，扩展了 AI 的实用性，帮助人们节省日常任务的时间。”

如果你还记得 2013 年的预言电影《她》，我们似乎正在走向电影开头那个世界，那个时候，性感的 Samantha 还没有开始在男主角耳边说话。这是一个每个人都拥有一个无聊而中性的 AI 来帮助他们阅读和回复信息，以及处理其他日常琐事的时代。一旦 AI 公司牢固地实现这一目标，他们无疑会开始着手打造 Samantha。

AI

Anthropic、Google DeepMind 和 OpenAI 的 AI 代理

电脑使用代理的安全问题

电脑使用代理的未来

发表回复取消回复

最新内容

《亚洲水发展展望2025》深度解读：亚太水安全喜忧参半，未来挑战何在？

谷歌支付6800万美元和解语音助手监听诉讼，你的隐私可能被“误触发”录音

甲骨文豪掷500亿美元押注AI基建，美国数据中心版图加速扩张

OpenAI总裁豪掷2500万美元支持特朗普，科技巨头与政坛的深度捆绑引关注

相关内容

Roblox 压力下升级安全和家长控制

量子人工智能2025：行业领袖展望未来

DeepSeek-OCR：AI文字识别黑科技，让AI高效处理文字

AI 中间层仍需强劲硬件支撑

分类

快速链接

Anthropic、Google DeepMind 和 OpenAI 的 AI 代理

You Might Also Like

电脑使用代理的安全问题

电脑使用代理的未来

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复