赋予 AI 语音以情感:Hume AI 推出 Voice Control,让开发者轻松定制个性化语音
Hume AI,一家专注于情感智能语音界面的初创公司,近日推出了 Voice Control,这是一项实验性功能,它赋予开发者和用户通过精确调节语音特征来创建自定义 AI 语音的能力,无需任何编码、AI 提示工程或声音设计技能。
这一发布建立在该公司之前推出的 Empathic Voice Interface 2 (EVI 2) 的基础之上,EVI 2 引入了自然度、情感响应能力和定制方面的先进功能。
EVI 2 和 Voice Control 都避免了语音克隆的风险,Cowen 指出,语音克隆存在伦理和实践方面的挑战。
相反,Hume 专注于提供工具来创建与用户需求相一致的独特、富有表现力的语音,例如客户服务聊天机器人、数字助理、导师、指南或辅助功能。
Voice Control 为开发者提供了沿着 10 个不同维度调整语音的能力,包括:
- 男性化/女性化:性别的发声,介于更男性化和更女性化之间。
- 自信:声音的坚定程度,介于胆怯和大胆之间。
- 活力:声音的密度,介于低沉和活力之间。
- 自信:声音的自信程度,介于害羞和自信之间。
- 热情:声音中的兴奋程度,介于平静和热情之间。
- 鼻音:声音的开放程度,介于清晰和鼻音之间。
- 放松:声音中的压力,介于紧张和放松之间。
- 流畅:声音的纹理,介于流畅和断断续续之间。
- 平淡:声音背后的活力,介于平淡和充满活力之间。
- 紧绷:声音的收敛程度,介于紧绷和气息之间。
这个无需编码的工具允许用户通过虚拟屏幕上的滑块实时微调语音属性。它目前在 Hume 的虚拟游乐场中提供,需要免费用户注册才能访问。
这一发布解决了 AI 行业的一个关键痛点:对预设语音的依赖,这些语音往往无法满足品牌或应用程序的特定需求,或者与语音克隆相关的风险。
这种对定制的关注与 Hume 开发情感细致入微的语音 AI 的更广泛目标相一致。
该公司在 2024 年 9 月推出了 EVI 2,突出了其推进语音 AI 的努力,该公司将其描述为其前身的重大升级。
EVI 2 将延迟降低了 40%,将成本降低了 30%,并扩展了语音调制功能,为开发者提供了一种比语音克隆更安全的替代方案。
滑块 > 文本提示
Hume 的研究驱动方法在其产品开发中发挥着核心作用。该公司由前 Google DeepMinder Alan Cowen 共同创立,采用了一种基于跨文化语音录音与情感调查数据相结合的专有模型。
这种植根于情感科学的方法构成了 EVI 2 和新推出的 Voice Control 的基础。
Voice Control 通过解决人类感知语音的细微、往往难以言喻的方式扩展了这些原则。
该工具的基于滑块的界面反映了语音的常见感知特征,例如活力或自信,而没有试图通过基于文本的提示来过度简化这些属性。
Voice Control 现已进入测试阶段,并与 Hume 的 Empathic Voice Interface (EVI) 集成,使其可用于各种应用程序。
开发者可以选择一个基础语音,调整其特征,并实时预览结果。此过程确保了跨会话的可重复性和稳定性,这是客户服务机器人或虚拟助理等实时应用程序的关键特征。
EVI 2 的影响在 Voice Control 的功能中显而易见。早期的模型引入了诸如对话内提示和多语言功能等功能,这些功能扩展了语音 AI 应用程序的范围。
例如,EVI 2 支持亚秒级响应时间,从而实现自然而直接的对话。它还允许在交互过程中动态调整说话风格,使其成为企业的多功能工具。
Hume 对语音定制和情感智能的关注使其成为语音 AI 领域的强大竞争者,即使面对 OpenAI 的 Advanced Voice Mode 和 ElevenLabs 等资金雄厚的竞争对手,这两家公司都提供预设语音库。
Hume 继续在其创新的语音 AI 方法的基础上进行构建。扩展 Voice Control 的计划包括引入更多可修改的维度,在极端调整下改进语音质量,以及增加可用的基础语音范围。
随着 Voice Control 的推出,Hume 巩固了其在语音 AI 创新领域的领导地位,提供优先考虑定制、情感智能和实时适应性的工具。开发者现在可以通过 Hume 的平台访问 Voice Control,这标志着 AI 驱动的语音解决方案演进的又一步。