Stability AI 推出 Stable Audio 3 系列模型,可生成最长6分20秒的专业级器乐和音效,是上一代的两倍多。该模型基于新型语义声学自编码器,支持可变长度生成和音频修补,并公开了部分模型权重。
Stability AI 发布了 Stable Audio 3 系列潜在扩散模型。该模型可生成长达 6 分 20 秒的专业级器乐和音效,是前代产品(Stable Audio 2.5,上限 3 分钟)的两倍多。研究论文于 5 月 18 日发表,公司同时公开了四个模型中两个的模型权重,以及完整的训练和推理代码。
本次发布包含四种不同规模和能力的模型变体。两个小型模型——一个针对音乐优化,一个针对音效优化——各拥有 4.59 亿参数,可生成最长 2 分钟的音频。1.4B 参数的中型模型和 2.7B 参数的大型模型均支持生成完整的 6 分 20 秒音频。根据论文,大型模型在 H200 GPU 上生成最大时长音轨仅需 1.8 秒。
其中三个模型——小型音乐、小型音效和中型——以开放权重形式发布,训练数据已获得许可,可在消费级硬件(包括 Apple MacBook Pro M4)上运行。大型模型权重未公开。
Stable Audio 3 相比前代有多项改进。模型基于一种新型语义声学自编码器,以 4096 倍降采样率压缩音频,同时在潜在空间中保留音频保真度和语义结构。系统还支持可变长度生成——这与早期扩散模型必须生成完整长度输出不同——以及用于定向音频编辑和音频延续的修补功能。
训练流程采用三阶段方法:流匹配预训练、蒸馏热身和对抗后训练(使用公司此前在 Stable Audio 2.5 中引入的 Adversarial Relativistic-Contrastive 方法)。这使得模型仅需少量推理步数即可生成高质量输出。
此次发布正值 AI 音乐生成领域竞争加剧。Suno(估值 24.5 亿美元)和 Udio(2025 年底与环球音乐集团解决了许可纠纷)已成为带人声歌曲生成的主要竞争者。Stability AI 似乎将 Stable Audio 3 定位为器乐和音效设计的首选方案,强调开放权重访问和通过许可训练数据获得的合法性。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断