OpenAI 发布三款新语音模型，推动实时语音交互

产品2026年5月13日· 6 分钟阅读0 阅读

OpenAI 在 API 中推出 GPT‑Realtime‑2、GPT‑Realtime‑Translate 和 GPT‑Realtime‑Whisper 三款音频模型，支持更自然、更智能的实时语音交互。这些模型可帮助开发者构建语音转动作、系统转语音、语音转语音等新一代语音应用。

OpenAI 在 API 中推出三款音频模型，为开发者解锁新一代语音应用。这些模型旨在让语音交互更自然、更智能，并支持实时响应：

GPT‑Realtime‑2：首款具备 GPT‑5 级别推理能力的语音模型，能处理更复杂的请求，推动对话自然向前。
GPT‑Realtime‑Translate：实时翻译模型，支持 70 多种输入语言和 13 种输出语言，翻译速度与说话者同步。
GPT‑Realtime‑Whisper：流式语音转文本模型，可在说话过程中实时转录。

语音：连接人与产品的新界面

语音正成为人们使用软件最自然的方式之一。开发者在语音 AI 领域正围绕三种模式进行构建：

语音到行动：用户描述需求，系统推理、调用工具并完成任务。例如 Zillow 正在构建的助手，能理解“帮我找符合购买能力、避开繁忙街道、安排周六看房的房源”这类请求。
系统到语音：软件将情境转化为实时语音指导。例如旅行应用主动告知：“您的航班延误了，但还可以赶上转机。我找到了新登机口，规划了最快路线，您的行李也会自动转运。”
语音到语音：AI 帮助实时对话跨越语言、任务或情境变化。例如德国电信正在构建语音支持体验，客户可用最熟悉的语言说话，模型实时翻译对话。

这些模式也可以结合使用。Priceline 正致力于让旅客通过语音管理整个旅程：用对话方式搜索航班酒店，处理航班延误后的酒店调整，获取 TSA 等待时间实时更新，并在落地后翻译对话。

实时语音：让语音模型推理并执行行动

GPT‑Realtime‑2 专为实时语音交互设计，在推理请求、调用工具、处理更正或打断的同时保持对话流畅。关键特性包括：

前言：开发者可在主响应前添加短句，如“让我查一下”，让用户知道代理正在处理。
并行工具调用与可视性：模型可同时调用多个工具，并通过“正在查看日历”等语音提示让用户了解进展。
更强的恢复能力：模型能更优雅地应对错误，例如说“目前遇到问题”，而非静默失败。
更长的上下文：上下文窗口从 32K 增至 128K，支持更长的连贯会话和复杂任务流。
更强的领域理解：更好地保留专业术语、专有名词和医疗词汇。
可控制的语气和表达：可根据情境调整语气，冷静解决问题、共情安抚或兴奋确认。
可调节的推理力度：开发者可选择 minimal、low、medium、high、xhigh 五级推理力度，默认为 low，平衡延迟与推理深度。

在音频评估中，GPT‑Realtime‑2 (high) 在 Big Bench Audio 上的得分比 GPT‑Realtime‑1.5 高 15.2%；(xhigh) 在 Audio MultiChallenge 上指令跟随得分高 13.8%。

实时翻译：构建多语言语音体验

GPT‑Realtime‑Translate 帮助开发者构建实时多语言语音体验，支持 70 多种输入语言和 13 种输出语言，适用于客户支持、跨境销售、教育、活动、媒体等场景。该模型在保持意义完整的同时跟上说话者速度，即使有口音或领域特定用语也能应对。德国电信正在测试该模型，以降低延迟、增强流畅度，使跨语言对话更自然。

实时转录：低延迟语音转文本

GPT‑Realtime‑Whisper 是流式转录模型，适合需要即时字幕、实时会议记录、持续理解用户的语音代理等场景。它能让实时语音在业务流程中立即发挥作用。

安全与定价

Realtime API 集成了多层安全防护，包括主动分类器可中断违规对话。开发者也可通过 Agents SDK 添加额外护栏。定价方面：GPT‑Realtime‑2 每 100 万音频输入 token 32 美元（缓存输入 0.40 美元），输出 64 美元；GPT‑Realtime‑Translate 每分钟 0.034 美元；GPT‑Realtime‑Whisper 每分钟 0.017 美元。