“`html
双人创业团队Nari Labs发布惊艳文本转语音模型Dia
Nari Labs,一个仅由两人组成的初创公司,近日推出了一款名为Dia的16亿参数文本转语音(TTS)模型。Dia能够直接根据文本提示生成逼真的自然对话,其创造者之一甚至声称其性能超越了ElevenLabs、谷歌的NotebookLM AI播客生成产品等竞争对手的专有产品。
Dia的出现也可能对OpenAI最近发布的gpt-4o-mini-tts造成冲击。 Nari Labs的联合创始人Toby Kim在X平台上发文表示:“Dia在质量上堪比NotebookLM的播客功能,甚至超越了ElevenLabs Studio和Sesame的开源模型。”
更令人惊叹的是,Dia的研发竟是在“零资金”的情况下完成的。Kim在另一篇帖子中补充道:“我们一开始并非AI专家。一切始于去年NotebookLM的播客功能发布,我们被深深吸引。我们想要更多——对声音的更多控制,对脚本的更多自由。我们尝试了市面上所有TTS API,但没有一个听起来像真正的自然对话。”
Kim还感谢谷歌提供了Tensor Processing Unit芯片(TPU)的使用权限,使他们能够通过谷歌的Research Cloud训练Dia。
现在,任何人都可以通过Hugging Face或Github下载Dia的代码和权重(内部模型连接集)并进行本地部署。用户还可以在Hugging Face Space上体验Dia的语音生成功能。
Dia支持细微的语音特征,例如情感语气、说话人标记和非语言音频提示——所有这些都只需通过简单的文本即可实现。用户可以使用[S1]和[S2]等标签标记说话人轮次,并添加(laughs)、(coughs)或(clears throat)等提示,以非语言行为丰富生成的对话。
据Nari Labs的示例页面显示,Dia能够正确解释这些标签,而其他现有模型则无法可靠地做到这一点。
目前,Dia仅支持英语,并且不与任何单一说话人的声音绑定,除非用户固定生成种子或提供音频提示,否则每次运行都会产生不同的声音。音频调节或语音克隆功能允许用户通过上传样本剪辑来引导语音音调和语音相似度。
Nari Labs在其Notion网站上提供了Dia生成的示例音频文件,并将其与其他领先的语音转文本竞争对手(特别是ElevenLabs Studio和Sesame CSM-1B)进行了比较。后者是Oculus VR头显的联合创始人Brendan Iribe今年早些时候在X平台上发布的一款文本转语音模型,曾一度爆红。
Nari Labs分享的并排示例显示,Dia在多个方面都超越了竞争对手:在标准对话场景中,Dia更好地处理了自然节奏和非语言表达;在包含情感变化的多轮对话中,Dia展现出更流畅的过渡和音调变化;Dia能够独特地处理仅包含非语言内容的脚本;即使是节奏复杂的饶舌歌词,Dia也能生成流畅的、具有表演风格的语音。
通过使用音频提示,Dia可以将说话人的语音风格扩展或延续到新的台词中。Nari Labs还指出,Sesame在其网站上展示的最佳演示很可能使用了内部的8B版本模型,而不是公开的1B检查点,导致宣传性能与实际性能之间存在差距。
开发者可以通过Nari Labs的GitHub仓库和Hugging Face模型页面访问Dia。该模型运行在PyTorch 2.0+和CUDA 12.6上,需要大约10GB的VRAM。在NVIDIA A4000等企业级GPU上,其推理速度约为每秒40个token。虽然当前版本仅支持GPU运行,但Nari计划提供CPU支持和量化版本以提高可访问性。
该初创公司还提供Python库和CLI工具来进一步简化部署。Dia的灵活性使其在内容创作、辅助技术和合成配音等领域具有广泛的应用前景。Nari Labs还在开发面向普通用户的Dia消费者版本,有兴趣的用户可以通过电子邮件注册候补名单以获取早期访问权限。该模型采用完全开源的Apache 2.0许可证分发,这意味着它可以用于商业用途。
Nari Labs明确禁止模仿个人、传播虚假信息或从事非法活动等用途。团队鼓励负责任的实验,并反对不道德的部署。Dia的开发得到了谷歌TPU Research Cloud、Hugging Face的ZeroGPU赠款计划以及之前在SoundStorm、Parakeet和Descript Audio Codec上的工作的支持。Nari Labs本身只有两名工程师——一名全职,一名兼职——但他们积极地通过其Discord服务器和GitHub邀请社区贡献。
凭借其对表达质量、可重复性和开放访问的明确关注,Dia为生成语音模型领域注入了独特的活力。
“`
