ChatGPT 美国推出高级语音模式，团队用户可享用

2024 年 9 月 24 日下午 12:14

订阅我们的每日和每周新闻简报，获取有关行业领先 AI 报道的最新更新和独家内容。了解更多

在向公众展示四个月后，OpenAI 终于将 ChatGPT 的新的人类对话语音界面——“ChatGPT 高级语音模式”带给了最初的小型测试组和等待名单之外的用户。

OpenAI 表示，所有 OpenAI ChatGPT Plus 和 Team 计划的付费订阅者都将获得 ChatGPT 高级语音模式的访问权限，尽管访问权限将在未来几天内逐步推出。它将首先在美国推出。

下周，该公司计划将 ChatGPT 高级语音模式提供给其 Edu 和 Enterprise 计划的订阅者。

此外，OpenAI 还增加了为语音助手存储“自定义指令”和“记忆”用户希望它表现出的行为的能力，类似于今年早些时候为 ChatGPT 文本版本推出的功能。

它今天还发布了五种新的、不同风格的声音：Arbor、Maple、Sol、Spruce 和 Vale——加入了之前可用的四种声音：Breeze、Juniper、Cove 和 Ember，用户可以使用 ChatGPT 的旧版、不太先进的语音模式与它们交谈。

高级语音正在向 ChatGPT 应用程序中的所有 Plus 和 Team 用户推出，将在本周内完成。在您耐心等待的同时，我们添加了自定义指令、记忆、五种新声音，并改进了口音。

它还可以用 50 多种语言说“对不起，我迟到了”。

这意味着 ChatGPT 用户（个人用户使用 Plus，小型企业团队使用 Teams）可以通过与它交谈来使用聊天机器人，而不是键入提示。用户会在访问应用程序上的语音模式时，通过弹出窗口知道他们已进入高级语音助手。

该公司表示：“自 alpha 版本以来，我们利用学习成果改进了 ChatGPT 在最流行的外国语言中的口音，以及整体的对话速度和流畅度。”“您还会注意到高级语音模式的新设计，其中包含一个动画蓝色球体。”

最初，语音模式有四种声音（Breeze、Juniper、Cove 和 Ember），但新更新将带来五种新声音，分别称为 Arbor、Maple、Sol、Spruce 和 Vale。OpenAI 没有提供新声音的语音样本。

这些更新仅适用于 GPT-4o 模型，不适用于最近发布的预览模型 o1。ChatGPT 用户还可以利用自定义指令和记忆来确保语音模式个性化，并根据他们对所有对话的偏好做出响应。

自从 Apple 的 Siri 和亚马逊的 Alexa 等 AI 语音助手的兴起以来，开发人员一直希望使生成式 AI 聊天体验更像人一样。

ChatGPT 甚至在语音模式推出之前就内置了语音，其朗读功能就是证明。然而，高级语音模式的理念是为用户提供更像人的对话体验，这也是其他 AI 开发人员想要效仿的概念。

Hume AI 是一家由前 Google Deepminder Alan Cowen 创办的初创公司，发布了其 Empathic Voice Interface 的第二个版本，这是一个像人一样的语音助手，可以根据某人声音的模式感知情绪，并且可以通过专有 API 供开发人员使用。

法国 AI 公司 Kyutai 于 7 月发布了 Moshi，这是一个开源 AI 语音助手。

谷歌还在其 Gemini Live 中为其 Gemini 聊天机器人添加了语音，因为它旨在赶超 OpenAI。路透社报道称，Meta 也正在开发听起来像知名演员的声音，以添加到其 Meta AI 平台中。

OpenAI 表示，它正在将其 AI 语音广泛提供给更多平台上的用户，将这项技术带给比其他公司更多的人。

然而，AI 语音实时对话并以适当的情绪做出反应的想法并不总是受到欢迎。

OpenAI 将语音添加到 ChatGPT 的尝试从一开始就存在争议。在其 5 月份宣布 GPT-4o 和语音模式的活动中，人们注意到其中一种声音 Sky 与女演员斯嘉丽·约翰逊的声音相似。

OpenAI 首席执行官山姆·奥特曼在社交媒体上发布了“她”这个词，指的是约翰逊为 AI 助手配音的电影，这并没有帮助。这场争议引发了人们对 AI 开发人员模仿知名人士声音的担忧。

该公司否认其参考了约翰逊，并坚称其无意雇佣声音与他人相似的演员。

该公司表示，用户仅限于 OpenAI 的九种声音。它还表示，它在发布之前评估了其安全性。

该公司在向记者发布的公告中表示：“我们与外部红队测试了该模型的语音功能，他们总共说 45 种不同的语言，代表 29 个不同的地理区域。”

然而，该公司将 ChatGPT 高级语音模式的推出时间从最初计划的 6 月下旬推迟到“7 月下旬或 8 月初”，然后才将其推迟到 OpenAI 选择的初始用户群体，例如宾夕法尼亚大学沃顿商学院教授伊桑·莫利克，理由是需要继续进行安全测试或“红队”语音模式，以避免其在潜在欺诈和不法行为中的使用。

显然，该公司认为它已经做了足够的工作来更广泛地发布该模式——这与 OpenAI 最近更加谨慎的做法一致，即与美国和英国政府携手合作，并允许他们预览新模型，例如其 o1 系列，然后再发布。

相关内容