OpenAI ChatGPT 迎来重大更新:视频和屏幕共享功能上线!
OpenAI 终于为其先进的语音模式添加了期待已久的视频和屏幕共享功能,让用户能够以多种方式与聊天机器人互动。
这两项功能现已在 ChatGPT Teams、Plus 和 Pro 用户的 iOS 和 Android 移动应用程序上推出,并将于 1 月份向 ChatGPT 企业版和教育版用户推出。然而,欧盟、瑞士、冰岛、挪威和列支敦士登的用户将无法访问高级语音模式。
OpenAI 在 5 月份首次预告了这项功能,当时该公司发布了 GPT-4o 并讨论了 ChatGPT 学习“观看”游戏并解释正在发生的事情。高级语音模式于 9 月份向用户推出。
用户可以通过高级语音模式屏幕上的新按钮启动视频。
OpenAI 的视频模式感觉就像 FaceTime 这样的视频通话,因为 ChatGPT 会实时响应用户在视频中展示的内容。它可以识别用户周围的环境,识别物体,甚至记住自我介绍的人。在 OpenAI“12 天 Shipmas”活动的一部分演示中,ChatGPT 使用视频功能来帮助冲泡咖啡。ChatGPT 看到咖啡用具,指示何时放入滤纸,并对结果进行评论。
它也与谷歌最近宣布的 Project Astra 非常相似,用户可以在其中打开视频聊天,而 Gemini 2.0 会对它所看到的内容进行回答,例如识别在伦敦街头发现的雕塑。在许多方面,这些功能是像 Humane Pin 和 Rabbit r1 这样的 AI 设备所宣传的功能的更高级版本:让 AI 语音助手对它在视频中看到的内容进行回答。
新的屏幕共享功能将 ChatGPT 从应用程序中带到了浏览器的领域。
对于屏幕共享,用户可以通过三点菜单从 ChatGPT 应用程序中导航出来。他们可以在手机上打开应用程序,并向 ChatGPT 询问它所看到的内容。在演示中,OpenAI 研究人员触发了屏幕共享,然后打开了消息应用程序,要求 ChatGPT 帮助回复通过短信发送的照片。
然而,高级语音模式上的屏幕共享功能与微软和谷歌最近发布的功能类似。
上周,微软发布了 Copilot Vision 的预览版,它允许 Pro 用户在浏览网页时打开 Copilot 聊天。Copilot Vision 可以查看商店网站上的照片,甚至可以帮助玩地图猜谜游戏 Geoguessr。谷歌的 Project Astra 也可以以相同的方式读取浏览器。
谷歌和 OpenAI 都在手机上发布了屏幕共享 AI 聊天功能,以针对那些可能在移动中更多地使用 ChatGPT 或 Gemini 的用户群。但这些类型的功能可能预示着企业与 AI 代理进行更多协作的方式,因为代理可以查看一个人在屏幕上看到的内容。它可以成为使用计算机的模型的前兆,例如 Anthropic 的 Computer Use,其中 AI 模型不仅可以查看屏幕,还可以主动为用户打开选项卡和程序。
为了增添趣味性,OpenAI 还为高级语音模式推出了“圣诞老人模式”。新的预设声音听起来很像穿着红色西装的快乐老人。
与仅限特定用户的新功能不同,“圣诞老人模式”现在可供在移动应用程序、ChatGPT 的网页版以及 Windows 和 MacOS 应用程序上访问高级语音模式的用户使用,直到 1 月初。
不过,与圣诞老人的聊天不会保存在聊天记录中,也不会影响 ChatGPT 的记忆。
即使是 OpenAI 也感受到了圣诞节的气氛。