微软Copilot 迎来“视觉”升级:AI 助手将能浏览网页
微软正在不断提升其 AI 助手 Copilot 的能力。近日,这家由萨蒂亚·纳德拉领导的公司宣布,Copilot 现在拥有了“视觉”功能,能够与用户一起浏览互联网。
这项功能最初于今年 10 月公布,现在微软正在向部分 Pro 订阅用户进行预览。据微软介绍,这些用户可以在 Edge 浏览器中打开网页,并使用 Copilot Vision 与网页上的内容进行交互。
虽然这项功能仍处于早期开发阶段,并且功能有限,但一旦完全成熟,它将成为微软企业客户的“游戏规则改变者”,帮助他们分析和决策,并与微软生态系统中的产品(如 OneDrive、Excel、SharePoint 等)进行交互。
从长远来看,Copilot Vision 将如何与 Anthropic 和 Emergence AI 等更开放、更强大的代理产品竞争,也值得关注。这些产品允许开发人员集成代理,以跨越不同供应商的应用程序进行查看、推理和操作。
当用户打开一个网站时,他们可能会有或可能没有明确的目标。但当他们有目标时,例如为学术论文进行研究,执行所需任务的过程就需要浏览网站,阅读所有内容,然后做出决定(例如,是否将网站内容用作论文的参考)。同样的道理也适用于其他日常的网络任务,例如购物。
通过新的 Copilot Vision 体验,微软旨在简化整个过程。本质上,用户现在拥有一个助手,它位于浏览器底部,可以在需要时被调用,以阅读网站内容,包括所有文本和图像,并帮助用户做出决策。
它可以立即扫描、分析并提供所有必要的信息,并考虑用户的目标——就像第二双眼睛一样。
这项功能具有深远的影响,它可以加速工作流程,并带来重大影响,因为代理正在阅读和评估用户正在浏览的内容。然而,微软保证,所有用户共享的上下文和信息将在 Vision 会话关闭后立即删除。微软还指出,网站数据不会被捕获或存储用于训练底层模型。
“简而言之,我们优先考虑版权、创作者和用户的隐私和安全,并将它们放在首位,”Copilot 团队在宣布预览该功能的博客文章中写道。
目前,在美国注册了早期访问 Copilot Labs 计划的选定 Copilot Pro 订阅用户可以在 Edge 浏览器中使用视觉功能。这项功能是可选的,这意味着用户不必担心 AI 一直在阅读他们的屏幕。
此外,在现阶段,它只适用于选定的网站。微软表示,他们将从早期用户那里收集反馈,并逐步改进该功能,同时将其扩展到更多 Pro 用户和其他网站。
从长远来看,该公司甚至可能会将这些功能扩展到其生态系统中的其他产品,例如 OneDrive 和 Excel,让企业用户能够更轻松地工作和做出决策。然而,目前还没有官方确认。更不用说,鉴于目前谨慎的态度,这可能需要一段时间才能成为现实。
微软推出 Copilot Vision 预览版之际,竞争对手正在推动代理 AI 领域的界限。Salesforce 已经在其 Customer 360 产品中推出了 AgentForce,以自动化销售、营销和服务等领域的流程。
与此同时,Anthropic 推出了“Computer Use”,允许开发人员集成 Claude 与计算机桌面环境进行交互,执行以前只能由人工完成的任务,例如打开应用程序、与界面交互和填写表格。