2024 年 10 月 30 日 下午 4:25
图片来源:VentureBeat 使用 MidJourney 生成
订阅我们的每日和每周新闻通讯,获取业界领先的 AI 报道的最新更新和独家内容。了解更多
OpenAI 今天更新了其目前处于测试阶段的实时 API。此次更新为其平台添加了新的语音,用于语音到语音的应用程序,并降低了与缓存提示相关的成本。
实时 API 的测试用户现在可以使用五种新的语音来构建他们的应用程序。OpenAI 在 X 上的一篇帖子中展示了三种新的语音:Ash、Verse 和带有英国口音的 Ballad。
实时 API 的两个更新:– 现在可以使用五种新的语音构建语音到语音体验,这些语音更具表现力和可控性。 ???
– 我们通过使用提示缓存来降低价格。缓存的文本输入价格降低 50%,缓存的音频输入价格降低… pic.twitter.com/jLzZDBrR7l
该公司在其 API 文档中表示,原生语音到语音功能“跳过中间文本格式,意味着低延迟和细致的输出”,而这些语音比之前的语音更容易控制,也更具表现力。
然而,OpenAI 警告称,由于 API 仍处于测试阶段,它目前无法提供客户端身份验证。该公司还表示,处理实时音频可能会出现问题。
“网络状况对实时音频的影响很大,当网络状况不可预测时,大规模地从客户端可靠地传递音频到服务器是一个挑战,”该公司表示。
OpenAI 在 AI 驱动的语音和声音方面的历史一直存在争议。今年 3 月,该公司发布了 Voice Engine,这是一个与 ElevenLabs 竞争的语音克隆平台,但它将访问权限限制在少数研究人员。今年 5 月,在该公司演示了其 GPT-4o 和语音模式后,它暂停使用其中一种语音 Sky,因为女演员斯嘉丽·约翰逊对它与自己的声音相似表示了不满。
该公司于 9 月在美国为付费订阅者(使用 ChatGPT Plus、Enterprise、Teams 和 Edu 的用户)推出了 ChatGPT 高级语音模式。
理想情况下,语音到语音 AI 可以让企业使用语音构建更多实时响应。假设客户致电公司的客户服务平台,在这种情况下,语音到语音功能可以接收客户的语音,理解他们的问题,并使用 AI 生成的语音以更低的延迟进行回复。语音到语音还可以让用户生成配音,用户说出自己的台词,但输出的语音不是他们的。提供此功能的平台之一是 Replica,当然还有 ElevenLabs。
OpenAI 本月在其开发者日发布了实时 API。该 API 旨在加快语音助手的构建速度。
然而,使用语音到语音功能可能会很昂贵。
实时 API 推出时,定价结构为每分钟音频输入 0.06 美元,每分钟音频输出 0.24 美元,这并不便宜。然而,该公司计划通过提示缓存降低实时 API 的价格。
缓存的文本输入价格将下降 50%,缓存的音频输入价格将下降 80%。
OpenAI 在开发者日还宣布了提示缓存,并将经常请求的上下文和提示保存在模型的内存中。这将减少它需要创建以生成响应的令牌数量。降低输入价格可能会鼓励更多感兴趣的开发者连接到 API。
OpenAI 不是唯一推出提示缓存的公司。Anthropic 于 8 月为 Claude 3.5 Sonnet 推出了提示缓存。