OpenAI实时API新增语音并降价

2024 年 10 月 30 日下午 4:25

Credit: VentureBeat generated with MidJourney

图片来源：VentureBeat 使用 MidJourney 生成

订阅我们的每日和每周新闻通讯，获取业界领先的 AI 报道的最新更新和独家内容。了解更多

OpenAI 今天更新了其目前处于测试阶段的实时 API。此次更新为其平台添加了新的语音，用于语音到语音的应用程序，并降低了与缓存提示相关的成本。

实时 API 的测试用户现在可以使用五种新的语音来构建他们的应用程序。OpenAI 在 X 上的一篇帖子中展示了三种新的语音：Ash、Verse 和带有英国口音的 Ballad。

实时 API 的两个更新：– 现在可以使用五种新的语音构建语音到语音体验，这些语音更具表现力和可控性。 ???

– 我们通过使用提示缓存来降低价格。缓存的文本输入价格降低 50%，缓存的音频输入价格降低… pic.twitter.com/jLzZDBrR7l

该公司在其 API 文档中表示，原生语音到语音功能“跳过中间文本格式，意味着低延迟和细致的输出”，而这些语音比之前的语音更容易控制，也更具表现力。

然而，OpenAI 警告称，由于 API 仍处于测试阶段，它目前无法提供客户端身份验证。该公司还表示，处理实时音频可能会出现问题。

“网络状况对实时音频的影响很大，当网络状况不可预测时，大规模地从客户端可靠地传递音频到服务器是一个挑战，”该公司表示。

OpenAI 在 AI 驱动的语音和声音方面的历史一直存在争议。今年 3 月，该公司发布了 Voice Engine，这是一个与 ElevenLabs 竞争的语音克隆平台，但它将访问权限限制在少数研究人员。今年 5 月，在该公司演示了其 GPT-4o 和语音模式后，它暂停使用其中一种语音 Sky，因为女演员斯嘉丽·约翰逊对它与自己的声音相似表示了不满。

该公司于 9 月在美国为付费订阅者（使用 ChatGPT Plus、Enterprise、Teams 和 Edu 的用户）推出了 ChatGPT 高级语音模式。

理想情况下，语音到语音 AI 可以让企业使用语音构建更多实时响应。假设客户致电公司的客户服务平台，在这种情况下，语音到语音功能可以接收客户的语音，理解他们的问题，并使用 AI 生成的语音以更低的延迟进行回复。语音到语音还可以让用户生成配音，用户说出自己的台词，但输出的语音不是他们的。提供此功能的平台之一是 Replica，当然还有 ElevenLabs。

OpenAI 本月在其开发者日发布了实时 API。该 API 旨在加快语音助手的构建速度。

然而，使用语音到语音功能可能会很昂贵。

实时 API 推出时，定价结构为每分钟音频输入 0.06 美元，每分钟音频输出 0.24 美元，这并不便宜。然而，该公司计划通过提示缓存降低实时 API 的价格。

缓存的文本输入价格将下降 50%，缓存的音频输入价格将下降 80%。

OpenAI 在开发者日还宣布了提示缓存，并将经常请求的上下文和提示保存在模型的内存中。这将减少它需要创建以生成响应的令牌数量。降低输入价格可能会鼓励更多感兴趣的开发者连接到 API。

OpenAI 不是唯一推出提示缓存的公司。Anthropic 于 8 月为 Claude 3.5 Sonnet 推出了提示缓存。