订阅我们的每日和每周新闻通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
微软研究人员及其学术合作伙伴进行的一项全面新调查表明,由大型语言模型 (LLM) 提供支持的人工智能代理正在越来越能够控制图形用户界面 (GUI),这可能会改变人类与软件的交互方式。
这项技术本质上赋予了 AI 系统像人类一样查看和操作计算机界面的能力——点击按钮、填写表格以及在应用程序之间导航。这些“GUI 代理”无需用户学习复杂的软件命令,而是可以解释自然语言请求并自动执行必要的操作。
研究人员写道:“这些代理代表着一种范式转变,使用户能够通过简单的对话命令执行复杂的多步骤任务。”“它们的应用涵盖了网页导航、移动应用程序交互和桌面自动化,提供了一种变革性的用户体验,彻底改变了个人与软件的交互方式。”
可以把它想象成拥有一个能够代表你操作任何软件程序的高技能执行助理。你只需告诉助理你想完成什么,他们就会处理所有使其成为现实的技术细节。
这条时间线描绘了能够控制软件的 AI 代理的快速增长,自 2023 年以来,研究人员和科技公司推出了大量新模型,这些模型按其在网络、移动和计算机平台上的应用进行分类。(来源:arxiv.org)
主要科技公司已经在争先恐后地将这些功能整合到他们的产品中。微软的 Power Automate 使用 LLM 帮助用户跨应用程序创建自动化工作流程。该公司的 Copilot AI 助理可以根据文本命令直接控制软件。Anthropic 的 Claude 的计算机使用功能使 AI 能够与网络界面交互并执行复杂的任务。据报道,谷歌正在开发 Project Jarvis,这是一个 AI 系统,它将使用 Chrome 浏览器执行基于网络的任务,例如研究、购物和旅行预订,尽管这项功能仍在开发中,尚未公开发布。
该论文指出:“大型语言模型,特别是多模态模型的出现,开启了 GUI 自动化的新时代。”“它们在自然语言理解、代码生成、任务泛化和视觉处理方面展现出非凡的能力。”
根据 BCC Research 的分析师预测,到 2028 年,这将是一个潜在的 689 亿美元的市场机会,因为企业正在寻求自动化重复性任务,并使他们的软件更容易被非技术用户使用。预计该市场将从 2022 年的 83 亿美元增长到这个数字,在预测期内的复合年增长率 (CAGR) 为 43.9%。
然而,在该技术得到广泛的企业采用之前,仍存在着巨大的障碍。研究人员确定了几个关键限制,包括代理处理敏感数据时的隐私问题、计算性能限制以及对更好的安全性和可靠性保证的需求。
该论文在谈到早期的自动化方法时指出:“虽然它们对预定义的工作流程有效,但这些方法缺乏动态、现实世界应用所需的灵活性和适应性。”
研究团队提供了一份详细的路线图来解决这些挑战,强调开发能够在设备上本地运行的更高效模型、实施强大的安全措施以及创建标准化评估框架的重要性。
研究人员指出:“通过整合安全措施和可定制的操作,这些代理在处理复杂命令时确保了效率和安全性”,突出了使该技术为企业做好准备的最新进展。
对于企业技术领导者来说,LLM 支持的 GUI 代理的出现既是一个机遇,也是一个战略考量。虽然这项技术承诺通过自动化实现显著的生产力提升,但组织需要仔细评估部署这些 AI 系统的安全隐患和基础设施要求。
该论文解释说:“GUI 代理领域正在朝着多代理架构、多模态能力、多样化的操作集和新颖的决策策略发展。”“这些创新标志着朝着创建能够在各种动态环境中实现高性能的智能、适应性代理迈出的重要一步。”
行业专家预测,到 2025 年,至少 60% 的大型企业将试点某种形式的 GUI 自动化代理,这可能会带来巨大的效率提升,但也引发了关于数据隐私和工作岗位流失的重要问题。
这项全面的调查表明,我们正处于一个拐点,对话式 AI 界面可能会从根本上改变人类与软件的交互方式——尽管要实现这一潜力,需要在底层技术和企业部署实践方面不断取得进步。
研究人员总结道:“这些发展为处理复杂、动态环境的更通用、更强大的代理奠定了基础”,指出了 AI 助理将成为我们与计算机交互方式不可或缺的一部分的未来。