“`html
亚马逊Nova Sonic:革新实时语音交互的AI引擎
亚马逊,这家电商巨头,其Alexa语音助手近期凭借亚马逊Nova和对Anthropic的投资获得了显著的智能提升。而今,Alexa即将迎来一位强大的“兄弟”——Amazon Nova Sonic。
Nova Sonic是一款全新的基础模型,旨在帮助第三方应用开发者,通过亚马逊Bedrock平台,轻松构建逼真自然的实时语音交互体验。它现已通过双向流式API提供。
事实上,部分Nova Sonic技术——包括语音编码器和语音合成器——已被整合到最新的Alexa+模型中。亚马逊发言人表示,这种策略能够同时为不同应用场景带来语音技术的优势,并根据用户反馈和技术进步持续改进系统。
Nova Sonic的应用场景广泛,涵盖客户支持、引导、信息检索和娱乐等领域。它巧妙地解决了语音AI领域长期存在的技术碎片化难题。
亚马逊人工智能高级副总裁兼首席科学家Rohit Prasad在接受VentureBeat采访时指出,传统上,构建语音接口需要整合语音识别、语言处理和语音合成等多个独立模型,这导致交互生硬、开发成本高昂。
Nova Sonic的创新之处在于将这三种模型融合为一体,不仅理解“内容”,更能把握“表达方式”。它保留了音调、节奏和风格等声学语境,使对话更贴近自然的人际交流。
Nova Sonic支持实时双向对话,能够识别用户停顿、犹豫或打断等行为,并流畅地回应,同时保持上下文连贯性。这在客户服务等场景中尤为重要。
此外,Nova Sonic还能与其他系统无缝集成,自动生成语音输入的文本记录,触发API或与专有工具交互。企业可以利用它构建AI代理,完成预约、检索实时信息或解答复杂客户咨询等任务。
Nova Sonic在基准测试中表现出色,在Common Eval数据集上,其在美式英语单轮对话中,以男性语音击败Gemini Flash 2.0的胜率为69.7%,击败GPT-4o的胜率为51.0%。女性和英式英语语音也取得了类似的成绩。
Prasad强调,Nova Sonic在主要语言市场表现最佳,在对话自然度和准确性方面均超越了实时GPT-4o。在语音识别方面,Nova Sonic在多语言和真实环境下的表现同样优异。
目前,Nova Sonic支持多种富有表现力的语音,包括美式和英式英语的男声和女声。亚马逊表示,更多口音和语言支持正在开发中。
Nova Sonic还具有速度快、成本低的优势。第三方基准测试显示,其客户感知延迟为1.09秒,低于GPT-4o的1.18秒和Gemini Flash 2.0的1.41秒。价格方面,Nova Sonic比实时GPT-4o便宜近80%。
多家公司已开始使用或测试Nova Sonic,例如ASAPP、Education First (EF)和Stats Perform,分别将其应用于优化呼叫中心工作流程、支持语言学习者和增强AI聊天平台。
亚马逊注重负责任的AI开发,Nova系列模型内置安全机制,并提供AWS AI服务卡,明确使用案例、潜在限制和伦理准则。亚马逊致力于确保语音生成的可靠性和安全性,防止语音克隆或不必要的模仿。
Amazon Nova Sonic现已通过Amazon Bedrock正式发布。开发者和企业可访问https://aws.amazon.com/nova/了解更多信息。
“`
