OpenAI 在 API 中推出 GPT‑Realtime‑2、GPT‑Realtime‑Translate 和 GPT‑Realtime‑Whisper 三款音频模型,支持更自然、更智能的实时语音交互。这些模型可帮助开发者构建语音转动作、系统转语音、语音转语音等新一代语音应用。
OpenAI 在 API 中推出三款音频模型,为开发者解锁新一代语音应用。这些模型旨在让语音交互更自然、更智能,并支持实时响应:
语音正成为人们使用软件最自然的方式之一。开发者在语音 AI 领域正围绕三种模式进行构建:
这些模式也可以结合使用。Priceline 正致力于让旅客通过语音管理整个旅程:用对话方式搜索航班酒店,处理航班延误后的酒店调整,获取 TSA 等待时间实时更新,并在落地后翻译对话。
GPT‑Realtime‑2 专为实时语音交互设计,在推理请求、调用工具、处理更正或打断的同时保持对话流畅。关键特性包括:
在音频评估中,GPT‑Realtime‑2 (high) 在 Big Bench Audio 上的得分比 GPT‑Realtime‑1.5 高 15.2%;(xhigh) 在 Audio MultiChallenge 上指令跟随得分高 13.8%。
GPT‑Realtime‑Translate 帮助开发者构建实时多语言语音体验,支持 70 多种输入语言和 13 种输出语言,适用于客户支持、跨境销售、教育、活动、媒体等场景。该模型在保持意义完整的同时跟上说话者速度,即使有口音或领域特定用语也能应对。德国电信正在测试该模型,以降低延迟、增强流畅度,使跨语言对话更自然。
GPT‑Realtime‑Whisper 是流式转录模型,适合需要即时字幕、实时会议记录、持续理解用户的语音代理等场景。它能让实时语音在业务流程中立即发挥作用。
Realtime API 集成了多层安全防护,包括主动分类器可中断违规对话。开发者也可通过 Agents SDK 添加额外护栏。定价方面:GPT‑Realtime‑2 每 100 万音频输入 token 32 美元(缓存输入 0.40 美元),输出 64 美元;GPT‑Realtime‑Translate 每分钟 0.034 美元;GPT‑Realtime‑Whisper 每分钟 0.017 美元。
开发者可通过 Codex 快速将 GPT‑Realtime‑2 集成到现有应用或启动新项目。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断