Stability AI 发布 Stable Audio 3，可生成长达6分钟歌曲

Stability AI 发布了 Stable Audio 3 系列潜在扩散模型。该模型可生成长达 6 分 20 秒的专业级器乐和音效，是前代产品（Stable Audio 2.5，上限 3 分钟）的两倍多。研究论文于 5 月 18 日发表，公司同时公开了四个模型中两个的模型权重，以及完整的训练和推理代码。

四模型家族

本次发布包含四种不同规模和能力的模型变体。两个小型模型——一个针对音乐优化，一个针对音效优化——各拥有 4.59 亿参数，可生成最长 2 分钟的音频。1.4B 参数的中型模型和 2.7B 参数的大型模型均支持生成完整的 6 分 20 秒音频。根据论文，大型模型在 H200 GPU 上生成最大时长音轨仅需 1.8 秒。

其中三个模型——小型音乐、小型音效和中型——以开放权重形式发布，训练数据已获得许可，可在消费级硬件（包括 Apple MacBook Pro M4）上运行。大型模型权重未公开。

技术突破

Stable Audio 3 相比前代有多项改进。模型基于一种新型语义声学自编码器，以 4096 倍降采样率压缩音频，同时在潜在空间中保留音频保真度和语义结构。系统还支持可变长度生成——这与早期扩散模型必须生成完整长度输出不同——以及用于定向音频编辑和音频延续的修补功能。

训练流程采用三阶段方法：流匹配预训练、蒸馏热身和对抗后训练（使用公司此前在 Stable Audio 2.5 中引入的 Adversarial Relativistic-Contrastive 方法）。这使得模型仅需少量推理步数即可生成高质量输出。

行业背景

此次发布正值 AI 音乐生成领域竞争加剧。Suno（估值 24.5 亿美元）和 Udio（2025 年底与环球音乐集团解决了许可纠纷）已成为带人声歌曲生成的主要竞争者。Stability AI 似乎将 Stable Audio 3 定位为器乐和音效设计的首选方案，强调开放权重访问和通过许可训练数据获得的合法性。