前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

微软OmniParser开源火爆

NEXTECH
Last updated: 2024年11月14日 下午9:05
By NEXTECH
Share
17 Min Read
SHARE

订阅我们的每日和每周新闻通讯,获取有关行业领先人工智能报道的最新更新和独家内容。了解更多

微软的 OmniParser 正在创造奇迹。

这款新的开源模型由微软在月初发布,它可以将屏幕截图转换为更易于人工智能代理理解的格式。本周,它在人工智能代码库 Hugging Face 上成为了下载量最多的模型。

根据 Hugging Face 联合创始人兼首席执行官 Clem Delangue 在 X 上发布的一篇文章,它也是第一个登上榜首的代理相关模型。

但 OmniParser 究竟是什么,为什么它突然受到如此多的关注呢?

本质上,OmniParser 是一款开源的生成式人工智能模型,旨在帮助大型语言模型 (LLM),尤其是像 GPT-4V 这样的视觉增强型 LLM,更好地理解和与图形用户界面 (GUI) 交互。

OmniParser 由微软低调发布,它可能是使生成式工具能够在基于屏幕的环境中导航和理解的关键一步。让我们深入了解这项技术的工作原理以及它为何如此迅速地获得关注。

OmniParser 本质上是一个强大的新工具,旨在将屏幕截图解析为结构化的元素,以便视觉语言模型 (VLM) 可以理解和执行操作。随着 LLM 越来越融入日常工作流程,微软认识到人工智能需要在各种 GUI 上无缝运行。OmniParser 项目旨在赋予人工智能代理查看和理解屏幕布局的能力,提取关键信息(如文本、按钮和图标),并将它们转换为结构化数据。

这使得像 GPT-4V 这样的模型能够理解这些界面,并代表用户自主地执行任务,这些任务从填写在线表格到点击屏幕上的特定部分。

虽然人工智能的 GUI 交互概念并不完全是新事物,但 OmniParser 的功能效率和深度却很突出。以前的模型通常难以进行屏幕导航,尤其是在识别特定可点击元素以及理解它们在更广泛任务中的语义价值方面。微软的方法结合了先进的目标检测和 OCR(光学字符识别)来克服这些障碍,从而产生了一个更可靠、更有效的解析系统。

OmniParser 的优势在于它使用了不同的 AI 模型,每个模型都有特定的作用:

  • YOLOv8:通过提供边界框和坐标来检测可交互元素(如按钮和链接)。它本质上识别了屏幕上哪些部分可以交互。
  • BLIP-2:分析检测到的元素以确定其用途。例如,它可以识别图标是“提交”按钮还是“导航”链接,从而提供重要的上下文。
  • GPT-4V:使用来自 YOLOv8 和 BLIP-2 的数据来做出决策并执行任务,例如点击按钮或填写表格。GPT-4V 处理有效交互所需的推理和决策。

此外,OCR 模块从屏幕中提取文本,这有助于理解 GUI 元素周围的标签和其他上下文。通过结合检测、文本提取和语义分析,OmniParser 提供了一种即插即用的解决方案,不仅适用于 GPT-4V,也适用于其他视觉模型,从而提高了其通用性。

OmniParser 的开源方法是其受欢迎程度的关键因素。它适用于各种视觉语言模型,包括 GPT-4V、Phi-3.5-V 和 Llama-3.2-V,使其能够灵活地为拥有各种高级基础模型的开发人员使用。

OmniParser 在 Hugging Face 上的存在也使其能够被广泛的受众使用,从而促进了实验和改进。这种社区驱动的开发正在帮助 OmniParser 快速发展。微软合作伙伴研究经理 Ahmed Awadallah 指出,开放式协作是构建功能强大的 AI 代理的关键,而 OmniParser 就是这一愿景的一部分。

OmniParser 的发布是科技巨头在人工智能屏幕交互领域争夺主导地位的更广泛竞争的一部分。最近,Anthropic 发布了类似但闭源的功能,称为“计算机使用”,作为其 Claude 3.5 更新的一部分,该功能允许人工智能通过解释屏幕内容来控制计算机。苹果也加入了这场竞争,推出了他们的 Ferret-UI,该工具针对移动 UI,使他们的 AI 能够理解和交互元素,例如小部件和图标。

与这些替代方案相比,OmniParser 的区别在于它致力于在不同平台和 GUI 上的通用性和适应性。OmniParser 不局限于特定的环境,例如仅限于 Web 浏览器或移动应用程序——它旨在成为任何视觉增强型 LLM 与各种数字界面(从桌面到嵌入式屏幕)交互的工具。

尽管 OmniParser 拥有诸多优势,但它也并非没有局限性。一个持续的挑战是准确检测重复图标,这些图标通常出现在类似的上下文中,但用途不同——例如,同一页面上不同表单中的多个“提交”按钮。根据微软的文档,当前模型仍然难以有效地区分这些重复元素,这会导致动作预测中出现潜在的错误。

此外,OCR 组件的边界框精度有时可能不准确,尤其是在文本重叠的情况下,这会导致点击预测错误。这些挑战突出了设计能够准确地与多样化且复杂的屏幕环境交互的人工智能代理所固有的复杂性。

然而,人工智能社区对这些问题能够通过持续改进得到解决持乐观态度,尤其是考虑到 OmniParser 的开源可用性。随着越来越多的开发人员参与到微调这些组件和分享他们的见解中,该模型的功能可能会迅速发展。

Share This Article
Email Copy Link Print
Previous Article DHL 携手 Robust AI 部署 Carter AMR
Next Article 企业AI解决方案部署安全保障
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251228110101819.jpg
中国拟规管AI伴侣:防沉迷新规与全球监管趋势
科技
20251228103248390.jpg
阿里通义千问将主导2026年AI格局?Wired深度解析
科技
20251228100451990.jpg
OpenAI高薪55.5万美元急聘安全主管,AI安全危机何解?
科技
20251228093716882.jpg
谷歌AI眼镜2026回归,布林反思初代失败教训
科技

相关内容

20250207225414602.jpg
AI

Timekettle发布AI同声传译耳机Babel操作系统

2025年2月8日
Two men stare through cracked glass window
AI

700 亿参数模型训练数据提供商发布事故报告

2024年10月5日
动物式智能与幽灵式智能(LLMs)对比示意图
AI 前沿技术

Karpathy深度访谈:AI十年发展前瞻,从AGI时间线、智能隐喻到强化学习与Agent转型

2025年10月20日
医疗文件像素化并着火
AI

速度过快,系统性风险来临

2025年8月1日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up