订阅我们的每日和每周新闻通讯,获取有关行业领先人工智能报道的最新更新和独家内容。了解更多
微软的 OmniParser 正在创造奇迹。
这款新的开源模型由微软在月初发布,它可以将屏幕截图转换为更易于人工智能代理理解的格式。本周,它在人工智能代码库 Hugging Face 上成为了下载量最多的模型。
根据 Hugging Face 联合创始人兼首席执行官 Clem Delangue 在 X 上发布的一篇文章,它也是第一个登上榜首的代理相关模型。
但 OmniParser 究竟是什么,为什么它突然受到如此多的关注呢?
本质上,OmniParser 是一款开源的生成式人工智能模型,旨在帮助大型语言模型 (LLM),尤其是像 GPT-4V 这样的视觉增强型 LLM,更好地理解和与图形用户界面 (GUI) 交互。
OmniParser 由微软低调发布,它可能是使生成式工具能够在基于屏幕的环境中导航和理解的关键一步。让我们深入了解这项技术的工作原理以及它为何如此迅速地获得关注。
OmniParser 本质上是一个强大的新工具,旨在将屏幕截图解析为结构化的元素,以便视觉语言模型 (VLM) 可以理解和执行操作。随着 LLM 越来越融入日常工作流程,微软认识到人工智能需要在各种 GUI 上无缝运行。OmniParser 项目旨在赋予人工智能代理查看和理解屏幕布局的能力,提取关键信息(如文本、按钮和图标),并将它们转换为结构化数据。
这使得像 GPT-4V 这样的模型能够理解这些界面,并代表用户自主地执行任务,这些任务从填写在线表格到点击屏幕上的特定部分。
虽然人工智能的 GUI 交互概念并不完全是新事物,但 OmniParser 的功能效率和深度却很突出。以前的模型通常难以进行屏幕导航,尤其是在识别特定可点击元素以及理解它们在更广泛任务中的语义价值方面。微软的方法结合了先进的目标检测和 OCR(光学字符识别)来克服这些障碍,从而产生了一个更可靠、更有效的解析系统。
OmniParser 的优势在于它使用了不同的 AI 模型,每个模型都有特定的作用:
- YOLOv8:通过提供边界框和坐标来检测可交互元素(如按钮和链接)。它本质上识别了屏幕上哪些部分可以交互。
- BLIP-2:分析检测到的元素以确定其用途。例如,它可以识别图标是“提交”按钮还是“导航”链接,从而提供重要的上下文。
- GPT-4V:使用来自 YOLOv8 和 BLIP-2 的数据来做出决策并执行任务,例如点击按钮或填写表格。GPT-4V 处理有效交互所需的推理和决策。
此外,OCR 模块从屏幕中提取文本,这有助于理解 GUI 元素周围的标签和其他上下文。通过结合检测、文本提取和语义分析,OmniParser 提供了一种即插即用的解决方案,不仅适用于 GPT-4V,也适用于其他视觉模型,从而提高了其通用性。
OmniParser 的开源方法是其受欢迎程度的关键因素。它适用于各种视觉语言模型,包括 GPT-4V、Phi-3.5-V 和 Llama-3.2-V,使其能够灵活地为拥有各种高级基础模型的开发人员使用。
OmniParser 在 Hugging Face 上的存在也使其能够被广泛的受众使用,从而促进了实验和改进。这种社区驱动的开发正在帮助 OmniParser 快速发展。微软合作伙伴研究经理 Ahmed Awadallah 指出,开放式协作是构建功能强大的 AI 代理的关键,而 OmniParser 就是这一愿景的一部分。
OmniParser 的发布是科技巨头在人工智能屏幕交互领域争夺主导地位的更广泛竞争的一部分。最近,Anthropic 发布了类似但闭源的功能,称为“计算机使用”,作为其 Claude 3.5 更新的一部分,该功能允许人工智能通过解释屏幕内容来控制计算机。苹果也加入了这场竞争,推出了他们的 Ferret-UI,该工具针对移动 UI,使他们的 AI 能够理解和交互元素,例如小部件和图标。
与这些替代方案相比,OmniParser 的区别在于它致力于在不同平台和 GUI 上的通用性和适应性。OmniParser 不局限于特定的环境,例如仅限于 Web 浏览器或移动应用程序——它旨在成为任何视觉增强型 LLM 与各种数字界面(从桌面到嵌入式屏幕)交互的工具。
尽管 OmniParser 拥有诸多优势,但它也并非没有局限性。一个持续的挑战是准确检测重复图标,这些图标通常出现在类似的上下文中,但用途不同——例如,同一页面上不同表单中的多个“提交”按钮。根据微软的文档,当前模型仍然难以有效地区分这些重复元素,这会导致动作预测中出现潜在的错误。
此外,OCR 组件的边界框精度有时可能不准确,尤其是在文本重叠的情况下,这会导致点击预测错误。这些挑战突出了设计能够准确地与多样化且复杂的屏幕环境交互的人工智能代理所固有的复杂性。
然而,人工智能社区对这些问题能够通过持续改进得到解决持乐观态度,尤其是考虑到 OmniParser 的开源可用性。随着越来越多的开发人员参与到微调这些组件和分享他们的见解中,该模型的功能可能会迅速发展。