前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

开源TTS模型Dia挑战ElevenLabs等巨头

洞察2025年9月14日· 5 分钟阅读5 阅读

“`html 双人创业团队Nari Labs发布惊艳文本转语音模型Dia Nari Labs,一个 […]

“`html

双人创业团队Nari Labs发布惊艳文本转语音模型Dia

Nari Labs,一个仅由两人组成的初创公司,近日推出了一款名为Dia的16亿参数文本转语音(TTS)模型。Dia能够直接根据文本提示生成逼真的自然对话,其创造者之一甚至声称其性能超越了ElevenLabs、谷歌的NotebookLM AI播客生成产品等竞争对手的专有产品。

Dia的出现也可能对OpenAI最近发布的gpt-4o-mini-tts造成冲击。 Nari Labs的联合创始人Toby Kim在X平台上发文表示:“Dia在质量上堪比NotebookLM的播客功能,甚至超越了ElevenLabs Studio和Sesame的开源模型。”

更令人惊叹的是,Dia的研发竟是在“零资金”的情况下完成的。Kim在另一篇帖子中补充道:“我们一开始并非AI专家。一切始于去年NotebookLM的播客功能发布,我们被深深吸引。我们想要更多——对声音的更多控制,对脚本的更多自由。我们尝试了市面上所有TTS API,但没有一个听起来像真正的自然对话。”

Kim还感谢谷歌提供了Tensor Processing Unit芯片(TPU)的使用权限,使他们能够通过谷歌的Research Cloud训练Dia。

现在,任何人都可以通过Hugging Face或Github下载Dia的代码和权重(内部模型连接集)并进行本地部署。用户还可以在Hugging Face Space上体验Dia的语音生成功能。

Dia支持细微的语音特征,例如情感语气、说话人标记和非语言音频提示——所有这些都只需通过简单的文本即可实现。用户可以使用[S1]和[S2]等标签标记说话人轮次,并添加(laughs)、(coughs)或(clears throat)等提示,以非语言行为丰富生成的对话。

据Nari Labs的示例页面显示,Dia能够正确解释这些标签,而其他现有模型则无法可靠地做到这一点。

目前,Dia仅支持英语,并且不与任何单一说话人的声音绑定,除非用户固定生成种子或提供音频提示,否则每次运行都会产生不同的声音。音频调节或语音克隆功能允许用户通过上传样本剪辑来引导语音音调和语音相似度。

Nari Labs在其Notion网站上提供了Dia生成的示例音频文件,并将其与其他领先的语音转文本竞争对手(特别是ElevenLabs Studio和Sesame CSM-1B)进行了比较。后者是Oculus VR头显的联合创始人Brendan Iribe今年早些时候在X平台上发布的一款文本转语音模型,曾一度爆红。

Nari Labs分享的并排示例显示,Dia在多个方面都超越了竞争对手:在标准对话场景中,Dia更好地处理了自然节奏和非语言表达;在包含情感变化的多轮对话中,Dia展现出更流畅的过渡和音调变化;Dia能够独特地处理仅包含非语言内容的脚本;即使是节奏复杂的饶舌歌词,Dia也能生成流畅的、具有表演风格的语音。

通过使用音频提示,Dia可以将说话人的语音风格扩展或延续到新的台词中。Nari Labs还指出,Sesame在其网站上展示的最佳演示很可能使用了内部的8B版本模型,而不是公开的1B检查点,导致宣传性能与实际性能之间存在差距。

开发者可以通过Nari Labs的GitHub仓库和Hugging Face模型页面访问Dia。该模型运行在PyTorch 2.0+和CUDA 12.6上,需要大约10GB的VRAM。在NVIDIA A4000等企业级GPU上,其推理速度约为每秒40个token。虽然当前版本仅支持GPU运行,但Nari计划提供CPU支持和量化版本以提高可访问性。

该初创公司还提供Python库和CLI工具来进一步简化部署。Dia的灵活性使其在内容创作、辅助技术和合成配音等领域具有广泛的应用前景。Nari Labs还在开发面向普通用户的Dia消费者版本,有兴趣的用户可以通过电子邮件注册候补名单以获取早期访问权限。该模型采用完全开源的Apache 2.0许可证分发,这意味着它可以用于商业用途。

Nari Labs明确禁止模仿个人、传播虚假信息或从事非法活动等用途。团队鼓励负责任的实验,并反对不道德的部署。Dia的开发得到了谷歌TPU Research Cloud、Hugging Face的ZeroGPU赠款计划以及之前在SoundStorm、Parakeet和Descript Audio Codec上的工作的支持。Nari Labs本身只有两名工程师——一名全职,一名兼职——但他们积极地通过其Discord服务器和GitHub邀请社区贡献。

凭借其对表达质量、可重复性和开放访问的明确关注,Dia为生成语音模型领域注入了独特的活力。

“`

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

宝可梦GO玩家数据被用于训练军用无人机
TOP1

宝可梦GO玩家数据被用于训练军用无人机

OpenAI与Oracle合作,云客户可用信用积分访问模型
TOP2

OpenAI与Oracle合作,云客户可用信用积分访问模型

3

天体物理学家用Codex模拟黑洞

10小时前
天体物理学家用Codex模拟黑洞
4

Anthropic首份AI公众态度调查出炉

2小时前
Anthropic首份AI公众态度调查出炉
5

AI写的代码没毛病,但系统却读不懂了

2小时前
AI写的代码没毛病,但系统却读不懂了
6

理性落幕,AI开启的新觉醒时代

2小时前
7

TCS与Anthropic合作,将Claude引入受监管行业

2小时前
TCS与Anthropic合作,将Claude引入受监管行业
8

AI梯子是钟:七级成熟度背后的真相

2小时前
AI梯子是钟:七级成熟度背后的真相
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款