前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

Anthropic 模型:优势与局限

NEXTECH
Last updated: 2024年11月22日 上午3:15
By NEXTECH
Share
12 Min Read
SHARE

AI 助手的新纪元:Claude 的 GUI 能力探索

自 Anthropic 在去年 10 月为 Claude 推出“计算机使用”功能以来,人们对 AI 助手在模仿人类交互能力方面的潜力充满了期待。新加坡国立大学 Show Lab 的一项最新研究为我们揭示了当前一代图形用户界面 (GUI) 助手的能力边界。

Claude 是首个能够像人类一样通过 GUI 与设备交互的前沿模型。它仅通过桌面截图获取信息,并通过触发键盘和鼠标操作进行交互。这项功能有望让用户能够通过简单的指令自动执行任务,而无需访问应用程序的 API。

研究人员在各种任务中测试了 Claude,包括网页搜索、工作流程完成、办公效率和电子游戏。网页搜索任务包括浏览和交互网站,例如搜索和购买商品或订阅新闻服务。工作流程任务涉及多应用程序交互,例如从网站提取信息并将其插入电子表格。办公效率任务测试了助手执行常见操作的能力,例如格式化文档、发送电子邮件和创建演示文稿。电子游戏任务评估了助手执行需要理解游戏逻辑和计划行动的多步骤任务的能力。

每个任务都测试了模型在三个维度上的能力:规划、行动和评价。首先,模型必须制定一个连贯的计划来完成任务。然后,它必须能够通过将每个步骤转换为操作来执行计划,例如打开浏览器、点击元素和输入文本。最后,评价元素决定了模型是否能够评估其在完成任务过程中的进展和成功。模型应该能够理解它是否在过程中犯了错误并纠正路线。如果任务无法完成,它应该给出合理的解释。研究人员基于这三个组成部分创建了一个框架,并由人类对所有测试进行了审查和评分。

总的来说,Claude 在执行复杂任务方面表现出色。它能够推理和规划执行任务所需的多个步骤,执行操作并每一步都评估其进度。它还可以协调不同应用程序之间的操作,例如从网页复制信息并将其粘贴到电子表格中。此外,在某些情况下,它会在任务结束时重新审视结果,以确保一切与目标一致。模型的推理轨迹表明它对不同工具和应用程序的工作原理有基本的了解,并且能够有效地协调它们。

然而,它也倾向于犯一些普通人类用户很容易避免的微不足道的错误。例如,在一个任务中,模型未能完成订阅,因为它没有向下滚动网页以找到相应的按钮。在其他情况下,它在非常简单明了的任务中失败了,例如选择和替换文本或将项目符号更改为数字。此外,模型要么没有意识到自己的错误,要么对无法实现预期目标的原因做出了错误的假设。

研究人员认为,模型对其进度的错误判断突出了“模型自我评估机制的不足”,并表明“对这个问题的完整解决方案可能仍然需要改进 GUI 助手框架,例如引入一个内部化的严格评价模块”。从结果中可以清楚地看出,GUI 助手无法复制人类使用计算机的所有基本细微差别。

使用基本的文本描述来自动执行任务的前景非常诱人。但至少目前,这项技术还没有准备好大规模部署。模型的行为不稳定,会导致不可预测的结果,这在敏感的应用中可能造成破坏性后果。通过为人类设计的界面执行操作也不是完成可以通过 API 完成的任务的最快方式。

我们还有很多关于赋予大型语言模型 (LLM) 鼠标和键盘控制权的安全风险需要了解。例如,一项研究表明,网络代理很容易受到人类可以轻松忽略的对抗性攻击的攻击。

大规模自动化任务仍然需要强大的基础设施,包括可以安全连接并大规模提供服务的 API 和微服务。然而,像 Claude 计算机使用这样的工具可以帮助产品团队探索想法,并在不投入时间和金钱开发新功能或服务来自动执行任务的情况下迭代不同的解决方案。一旦发现可行的解决方案,团队就可以专注于开发实现高效可靠交付所需的代码和组件。

Share This Article
Email Copy Link Print
Previous Article 20241121191345466.jpg 开源AI超越GPT-4,科研新突破
Next Article Snowflake 抢先与 Claude 3.5 整合
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20250508174846548.png
Omdia:2024财年,LTE和5G专网跟踪报告
报告
图片描述
彭博:2025年Q1扎克伯格净资产2120亿美元跃居全球第二
报告
图片描述
新汽车:2025年4月特斯拉英国销量536辆,同比暴跌62%
报告
DeepSeek R2 模型震撼来袭,超越 R1 颠覆世界
初创

相关内容

AI

目前最抢手的科技职位

2024年12月6日
AI

AI重塑CEO风险管理

2024年9月26日
马斯克正试图透过法律途徑,阻止OpenAI從非營利組織轉型為營利性公司的進程。
AI

马斯克起诉OpenAI:阻止其商业化转型

2025年1月22日
AI

生成式AI不会取代你,你的抗拒才是阻碍

2024年11月14日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?