前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

开源TTS模型Dia挑战ElevenLabs等巨头

NEXTECH
Last updated: 2025年9月15日 上午6:51
By NEXTECH
Share
16 Min Read
SHARE

“`html

双人创业团队Nari Labs发布惊艳文本转语音模型Dia

Nari Labs,一个仅由两人组成的初创公司,近日推出了一款名为Dia的16亿参数文本转语音(TTS)模型。Dia能够直接根据文本提示生成逼真的自然对话,其创造者之一甚至声称其性能超越了ElevenLabs、谷歌的NotebookLM AI播客生成产品等竞争对手的专有产品。

Dia的出现也可能对OpenAI最近发布的gpt-4o-mini-tts造成冲击。 Nari Labs的联合创始人Toby Kim在X平台上发文表示:“Dia在质量上堪比NotebookLM的播客功能,甚至超越了ElevenLabs Studio和Sesame的开源模型。”

更令人惊叹的是,Dia的研发竟是在“零资金”的情况下完成的。Kim在另一篇帖子中补充道:“我们一开始并非AI专家。一切始于去年NotebookLM的播客功能发布,我们被深深吸引。我们想要更多——对声音的更多控制,对脚本的更多自由。我们尝试了市面上所有TTS API,但没有一个听起来像真正的自然对话。”

Kim还感谢谷歌提供了Tensor Processing Unit芯片(TPU)的使用权限,使他们能够通过谷歌的Research Cloud训练Dia。

现在,任何人都可以通过Hugging Face或Github下载Dia的代码和权重(内部模型连接集)并进行本地部署。用户还可以在Hugging Face Space上体验Dia的语音生成功能。

Dia支持细微的语音特征,例如情感语气、说话人标记和非语言音频提示——所有这些都只需通过简单的文本即可实现。用户可以使用[S1]和[S2]等标签标记说话人轮次,并添加(laughs)、(coughs)或(clears throat)等提示,以非语言行为丰富生成的对话。

据Nari Labs的示例页面显示,Dia能够正确解释这些标签,而其他现有模型则无法可靠地做到这一点。

目前,Dia仅支持英语,并且不与任何单一说话人的声音绑定,除非用户固定生成种子或提供音频提示,否则每次运行都会产生不同的声音。音频调节或语音克隆功能允许用户通过上传样本剪辑来引导语音音调和语音相似度。

Nari Labs在其Notion网站上提供了Dia生成的示例音频文件,并将其与其他领先的语音转文本竞争对手(特别是ElevenLabs Studio和Sesame CSM-1B)进行了比较。后者是Oculus VR头显的联合创始人Brendan Iribe今年早些时候在X平台上发布的一款文本转语音模型,曾一度爆红。

Nari Labs分享的并排示例显示,Dia在多个方面都超越了竞争对手:在标准对话场景中,Dia更好地处理了自然节奏和非语言表达;在包含情感变化的多轮对话中,Dia展现出更流畅的过渡和音调变化;Dia能够独特地处理仅包含非语言内容的脚本;即使是节奏复杂的饶舌歌词,Dia也能生成流畅的、具有表演风格的语音。

通过使用音频提示,Dia可以将说话人的语音风格扩展或延续到新的台词中。Nari Labs还指出,Sesame在其网站上展示的最佳演示很可能使用了内部的8B版本模型,而不是公开的1B检查点,导致宣传性能与实际性能之间存在差距。

开发者可以通过Nari Labs的GitHub仓库和Hugging Face模型页面访问Dia。该模型运行在PyTorch 2.0+和CUDA 12.6上,需要大约10GB的VRAM。在NVIDIA A4000等企业级GPU上,其推理速度约为每秒40个token。虽然当前版本仅支持GPU运行,但Nari计划提供CPU支持和量化版本以提高可访问性。

该初创公司还提供Python库和CLI工具来进一步简化部署。Dia的灵活性使其在内容创作、辅助技术和合成配音等领域具有广泛的应用前景。Nari Labs还在开发面向普通用户的Dia消费者版本,有兴趣的用户可以通过电子邮件注册候补名单以获取早期访问权限。该模型采用完全开源的Apache 2.0许可证分发,这意味着它可以用于商业用途。

Nari Labs明确禁止模仿个人、传播虚假信息或从事非法活动等用途。团队鼓励负责任的实验,并反对不道德的部署。Dia的开发得到了谷歌TPU Research Cloud、Hugging Face的ZeroGPU赠款计划以及之前在SoundStorm、Parakeet和Descript Audio Codec上的工作的支持。Nari Labs本身只有两名工程师——一名全职,一名兼职——但他们积极地通过其Discord服务器和GitHub邀请社区贡献。

凭借其对表达质量、可重复性和开放访问的明确关注,Dia为生成语音模型领域注入了独特的活力。

“`

Share This Article
Email Copy Link Print
Previous Article 世界银行警示:全球能源转型步履维艰,2025年报告揭示资金与公平困境
Next Article 解锁宜居星球的经济密码:全球环境挑战与可持续发展新路径
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251202135921634.jpg
英伟达20亿美元投资新思科技,AI芯片设计革命加速
科技
20251202130505639.jpg
乌克兰国家AI模型选定谷歌Gemma,打造主权人工智能
科技
20251202121525971.jpg
中国开源AI新突破:DeepSeek V3.2模型性能比肩GPT-5
科技
20251202112744609.jpg
马斯克预言:AI三年内解决美国债务危机,可信吗?
科技

相关内容

Agent生态未分类

从企业AI SaaS到个人设计助手:Agent实践经验揭示,普通人与大厂站在同一起跑线

2025年10月16日
an-open-book-with-binary-code-floating-o
AI

人工智能能自动写评论文章吗?

2024年12月19日
Anthropic研究团队解释LLM概念注入实验方法
AI 前沿技术

Anthropic最新研究:LLM展现初步自省能力,概念注入实验揭示AI内省迹象

2025年10月31日
AI

身份认证是关键,搞错则信任全无

2025年5月30日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up