前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

OpenAI 发布三款新语音模型,推动实时语音交互

产品2026年5月13日· 6 分钟阅读0 阅读

OpenAI 在 API 中推出 GPT‑Realtime‑2、GPT‑Realtime‑Translate 和 GPT‑Realtime‑Whisper 三款音频模型,支持更自然、更智能的实时语音交互。这些模型可帮助开发者构建语音转动作、系统转语音、语音转语音等新一代语音应用。

OpenAI 在 API 中推出三款音频模型,为开发者解锁新一代语音应用。这些模型旨在让语音交互更自然、更智能,并支持实时响应:

  • GPT‑Realtime‑2:首款具备 GPT‑5 级别推理能力的语音模型,能处理更复杂的请求,推动对话自然向前。
  • GPT‑Realtime‑Translate:实时翻译模型,支持 70 多种输入语言和 13 种输出语言,翻译速度与说话者同步。
  • GPT‑Realtime‑Whisper:流式语音转文本模型,可在说话过程中实时转录。

语音:连接人与产品的新界面

语音正成为人们使用软件最自然的方式之一。开发者在语音 AI 领域正围绕三种模式进行构建:

  • 语音到行动:用户描述需求,系统推理、调用工具并完成任务。例如 Zillow 正在构建的助手,能理解“帮我找符合购买能力、避开繁忙街道、安排周六看房的房源”这类请求。
  • 系统到语音:软件将情境转化为实时语音指导。例如旅行应用主动告知:“您的航班延误了,但还可以赶上转机。我找到了新登机口,规划了最快路线,您的行李也会自动转运。”
  • 语音到语音:AI 帮助实时对话跨越语言、任务或情境变化。例如德国电信正在构建语音支持体验,客户可用最熟悉的语言说话,模型实时翻译对话。

这些模式也可以结合使用。Priceline 正致力于让旅客通过语音管理整个旅程:用对话方式搜索航班酒店,处理航班延误后的酒店调整,获取 TSA 等待时间实时更新,并在落地后翻译对话。

实时语音:让语音模型推理并执行行动

GPT‑Realtime‑2 专为实时语音交互设计,在推理请求、调用工具、处理更正或打断的同时保持对话流畅。关键特性包括:

  • 前言:开发者可在主响应前添加短句,如“让我查一下”,让用户知道代理正在处理。
  • 并行工具调用与可视性:模型可同时调用多个工具,并通过“正在查看日历”等语音提示让用户了解进展。
  • 更强的恢复能力:模型能更优雅地应对错误,例如说“目前遇到问题”,而非静默失败。
  • 更长的上下文:上下文窗口从 32K 增至 128K,支持更长的连贯会话和复杂任务流。
  • 更强的领域理解:更好地保留专业术语、专有名词和医疗词汇。
  • 可控制的语气和表达:可根据情境调整语气,冷静解决问题、共情安抚或兴奋确认。
  • 可调节的推理力度:开发者可选择 minimal、low、medium、high、xhigh 五级推理力度,默认为 low,平衡延迟与推理深度。

在音频评估中,GPT‑Realtime‑2 (high) 在 Big Bench Audio 上的得分比 GPT‑Realtime‑1.5 高 15.2%;(xhigh) 在 Audio MultiChallenge 上指令跟随得分高 13.8%。

实时翻译:构建多语言语音体验

GPT‑Realtime‑Translate 帮助开发者构建实时多语言语音体验,支持 70 多种输入语言和 13 种输出语言,适用于客户支持、跨境销售、教育、活动、媒体等场景。该模型在保持意义完整的同时跟上说话者速度,即使有口音或领域特定用语也能应对。德国电信正在测试该模型,以降低延迟、增强流畅度,使跨语言对话更自然。

实时转录:低延迟语音转文本

GPT‑Realtime‑Whisper 是流式转录模型,适合需要即时字幕、实时会议记录、持续理解用户的语音代理等场景。它能让实时语音在业务流程中立即发挥作用。

安全与定价

Realtime API 集成了多层安全防护,包括主动分类器可中断违规对话。开发者也可通过 Agents SDK 添加额外护栏。定价方面:GPT‑Realtime‑2 每 100 万音频输入 token 32 美元(缓存输入 0.40 美元),输出 64 美元;GPT‑Realtime‑Translate 每分钟 0.034 美元;GPT‑Realtime‑Whisper 每分钟 0.017 美元。

开始使用

开发者可通过 Codex 快速将 GPT‑Realtime‑2 集成到现有应用或启动新项目。

标签:OpenAIGPT-Realtime-2实时翻译

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

AI 交互的范式转变:从"回合制"到"实时协作"
TOP1

AI 交互的范式转变:从"回合制"到"实时协作"

参数高尔夫挑战赛的启示
TOP2

参数高尔夫挑战赛的启示

3

回敬 Codex,Claude Code 推出 /goal 功能,不干完不睡觉

17小时前
回敬 Codex,Claude Code 推出 /goal 功能,不干完不睡觉
4

盖洛普:七成美国人反对附近建数据中心

5小时前
盖洛普:七成美国人反对附近建数据中心
5

XGBoost预测急诊量:数据驱动的排班决策

16小时前
XGBoost预测急诊量:数据驱动的排班决策
6

Anthropic宣布Claude永不投放广告

5小时前
7

Claude Opus 4.7刚刚曝光!Claude Code一夜重构,7x24小时替你打工

17小时前
Claude Opus 4.7刚刚曝光!Claude Code一夜重构,7x24小时替你打工
8

四种AI Agent架构的坑,一个都没少踩

5小时前
四种AI Agent架构的坑,一个都没少踩
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款