2024 年 9 月 24 日 下午 12:14
订阅我们的每日和每周新闻简报,获取有关行业领先 AI 报道的最新更新和独家内容。了解更多
在向公众展示四个月后,OpenAI 终于将 ChatGPT 的新的人类对话语音界面——“ChatGPT 高级语音模式”带给了最初的小型测试组和等待名单之外的用户。
OpenAI 表示,所有 OpenAI ChatGPT Plus 和 Team 计划的付费订阅者都将获得 ChatGPT 高级语音模式的访问权限,尽管访问权限将在未来几天内逐步推出。它将首先在美国推出。
下周,该公司计划将 ChatGPT 高级语音模式提供给其 Edu 和 Enterprise 计划的订阅者。
此外,OpenAI 还增加了为语音助手存储“自定义指令”和“记忆”用户希望它表现出的行为的能力,类似于今年早些时候为 ChatGPT 文本版本推出的功能。
它今天还发布了五种新的、不同风格的声音:Arbor、Maple、Sol、Spruce 和 Vale——加入了之前可用的四种声音:Breeze、Juniper、Cove 和 Ember,用户可以使用 ChatGPT 的旧版、不太先进的语音模式与它们交谈。
高级语音正在向 ChatGPT 应用程序中的所有 Plus 和 Team 用户推出,将在本周内完成。在您耐心等待的同时,我们添加了自定义指令、记忆、五种新声音,并改进了口音。
它还可以用 50 多种语言说“对不起,我迟到了”。
这意味着 ChatGPT 用户(个人用户使用 Plus,小型企业团队使用 Teams)可以通过与它交谈来使用聊天机器人,而不是键入提示。用户会在访问应用程序上的语音模式时,通过弹出窗口知道他们已进入高级语音助手。
该公司表示:“自 alpha 版本以来,我们利用学习成果改进了 ChatGPT 在最流行的外国语言中的口音,以及整体的对话速度和流畅度。”“您还会注意到高级语音模式的新设计,其中包含一个动画蓝色球体。”
最初,语音模式有四种声音(Breeze、Juniper、Cove 和 Ember),但新更新将带来五种新声音,分别称为 Arbor、Maple、Sol、Spruce 和 Vale。OpenAI 没有提供新声音的语音样本。
这些更新仅适用于 GPT-4o 模型,不适用于最近发布的预览模型 o1。ChatGPT 用户还可以利用自定义指令和记忆来确保语音模式个性化,并根据他们对所有对话的偏好做出响应。
自从 Apple 的 Siri 和亚马逊的 Alexa 等 AI 语音助手的兴起以来,开发人员一直希望使生成式 AI 聊天体验更像人一样。
ChatGPT 甚至在语音模式推出之前就内置了语音,其朗读功能就是证明。然而,高级语音模式的理念是为用户提供更像人的对话体验,这也是其他 AI 开发人员想要效仿的概念。
Hume AI 是一家由前 Google Deepminder Alan Cowen 创办的初创公司,发布了其 Empathic Voice Interface 的第二个版本,这是一个像人一样的语音助手,可以根据某人声音的模式感知情绪,并且可以通过专有 API 供开发人员使用。
法国 AI 公司 Kyutai 于 7 月发布了 Moshi,这是一个开源 AI 语音助手。
谷歌还在其 Gemini Live 中为其 Gemini 聊天机器人添加了语音,因为它旨在赶超 OpenAI。路透社报道称,Meta 也正在开发听起来像知名演员的声音,以添加到其 Meta AI 平台中。
OpenAI 表示,它正在将其 AI 语音广泛提供给更多平台上的用户,将这项技术带给比其他公司更多的人。
然而,AI 语音实时对话并以适当的情绪做出反应的想法并不总是受到欢迎。
OpenAI 将语音添加到 ChatGPT 的尝试从一开始就存在争议。在其 5 月份宣布 GPT-4o 和语音模式的活动中,人们注意到其中一种声音 Sky 与女演员斯嘉丽·约翰逊的声音相似。
OpenAI 首席执行官山姆·奥特曼在社交媒体上发布了“她”这个词,指的是约翰逊为 AI 助手配音的电影,这并没有帮助。这场争议引发了人们对 AI 开发人员模仿知名人士声音的担忧。
该公司否认其参考了约翰逊,并坚称其无意雇佣声音与他人相似的演员。
该公司表示,用户仅限于 OpenAI 的九种声音。它还表示,它在发布之前评估了其安全性。
该公司在向记者发布的公告中表示:“我们与外部红队测试了该模型的语音功能,他们总共说 45 种不同的语言,代表 29 个不同的地理区域。”
然而,该公司将 ChatGPT 高级语音模式的推出时间从最初计划的 6 月下旬推迟到“7 月下旬或 8 月初”,然后才将其推迟到 OpenAI 选择的初始用户群体,例如宾夕法尼亚大学沃顿商学院教授伊桑·莫利克,理由是需要继续进行安全测试或“红队”语音模式,以避免其在潜在欺诈和不法行为中的使用。
显然,该公司认为它已经做了足够的工作来更广泛地发布该模式——这与 OpenAI 最近更加谨慎的做法一致,即与美国和英国政府携手合作,并允许他们预览新模型,例如其 o1 系列,然后再发布。