“`html

亚马逊Nova Sonic：革新实时语音交互的AI引擎

亚马逊，这家电商巨头，其Alexa语音助手近期凭借亚马逊Nova和对Anthropic的投资获得了显著的智能提升。而今，Alexa即将迎来一位强大的“兄弟”——Amazon Nova Sonic。

Nova Sonic是一款全新的基础模型，旨在帮助第三方应用开发者，通过亚马逊Bedrock平台，轻松构建逼真自然的实时语音交互体验。它现已通过双向流式API提供。

事实上，部分Nova Sonic技术——包括语音编码器和语音合成器——已被整合到最新的Alexa+模型中。亚马逊发言人表示，这种策略能够同时为不同应用场景带来语音技术的优势，并根据用户反馈和技术进步持续改进系统。

Nova Sonic的应用场景广泛，涵盖客户支持、引导、信息检索和娱乐等领域。它巧妙地解决了语音AI领域长期存在的技术碎片化难题。

亚马逊人工智能高级副总裁兼首席科学家Rohit Prasad在接受VentureBeat采访时指出，传统上，构建语音接口需要整合语音识别、语言处理和语音合成等多个独立模型，这导致交互生硬、开发成本高昂。

Nova Sonic的创新之处在于将这三种模型融合为一体，不仅理解“内容”，更能把握“表达方式”。它保留了音调、节奏和风格等声学语境，使对话更贴近自然的人际交流。

Nova Sonic支持实时双向对话，能够识别用户停顿、犹豫或打断等行为，并流畅地回应，同时保持上下文连贯性。这在客户服务等场景中尤为重要。

此外，Nova Sonic还能与其他系统无缝集成，自动生成语音输入的文本记录，触发API或与专有工具交互。企业可以利用它构建AI代理，完成预约、检索实时信息或解答复杂客户咨询等任务。

Nova Sonic在基准测试中表现出色，在Common Eval数据集上，其在美式英语单轮对话中，以男性语音击败Gemini Flash 2.0的胜率为69.7%，击败GPT-4o的胜率为51.0%。女性和英式英语语音也取得了类似的成绩。

Prasad强调，Nova Sonic在主要语言市场表现最佳，在对话自然度和准确性方面均超越了实时GPT-4o。在语音识别方面，Nova Sonic在多语言和真实环境下的表现同样优异。

目前，Nova Sonic支持多种富有表现力的语音，包括美式和英式英语的男声和女声。亚马逊表示，更多口音和语言支持正在开发中。

Nova Sonic还具有速度快、成本低的优势。第三方基准测试显示，其客户感知延迟为1.09秒，低于GPT-4o的1.18秒和Gemini Flash 2.0的1.41秒。价格方面，Nova Sonic比实时GPT-4o便宜近80%。

多家公司已开始使用或测试Nova Sonic，例如ASAPP、Education First (EF)和Stats Perform，分别将其应用于优化呼叫中心工作流程、支持语言学习者和增强AI聊天平台。

亚马逊注重负责任的AI开发，Nova系列模型内置安全机制，并提供AWS AI服务卡，明确使用案例、潜在限制和伦理准则。亚马逊致力于确保语音生成的可靠性和安全性，防止语音克隆或不必要的模仿。

Amazon Nova Sonic现已通过Amazon Bedrock正式发布。开发者和企业可访问https://aws.amazon.com/nova/了解更多信息。

“`

亚马逊Nova Sonic实时语音模型赋能企业