稳定扩散 3.5:AI 图像生成的新纪元
稳定 AI 今天发布了其文本到图像生成 AI 技术的重大更新,推出了稳定扩散 3.5。此更新旨在提升稳定 AI 上次重大更新的水平,该公司承认上次更新没有达到其自身标准。
稳定扩散 3 于 2 月首次亮相,第一个开放模型版本于 6 月随着稳定扩散 3 中等版本的发布而正式推出。虽然稳定 AI 是文本到图像生成 AI 领域的早期先驱,但它正面临着来自众多竞争对手的激烈竞争,包括黑森林实验室的 Flux Pro、OpenAI 的 Dall-E、Ideogram 和 Midjourney。
凭借稳定扩散 3.5,稳定 AI 旨在重夺其领导地位。新模型高度可定制,可以生成各种不同的风格。此更新引入了多个模型变体,每个变体都旨在满足不同的用户需求。稳定扩散 3.5 大型模型是一个拥有 80 亿个参数的模型,在该系列中提供最高质量和提示遵循性。稳定扩散 3.5 大型 Turbo 是大型模型的精简版本,提供更快的图像生成速度。最后,稳定扩散 3.5 中等模型拥有 26 亿个参数,针对边缘计算部署进行了优化。
所有三个新的稳定扩散 3.5 模型都可以在稳定 AI 社区许可下使用,这是一个开放许可,允许免费的非商业用途,以及年收入低于 100 万美元的实体的免费商业用途。稳定 AI 为更大的部署提供企业许可。这些模型可以通过稳定 AI 的 API 以及 Hugging Face 获得。
6 月发布的稳定扩散 3 中等模型的原始版本,是一个不太理想的版本。从这次经历中吸取的教训有助于为新的稳定扩散 3.5 更新提供信息并改进它们。
“我们发现,我们为稳定扩散大型 8B 模型做出的几个模型和数据集选择,对于较小的中等模型来说并不理想,”稳定 AI 首席技术官 Hanno Basse 告诉 VentureBeat。“我们对这些瓶颈进行了彻底的分析,并在中等模型的架构和训练协议上进行了进一步的创新,以在模型大小和输出质量之间取得更好的平衡。”
稳定 AI 如何通过稳定扩散 3.5 改进文本到图像生成 AI
在构建稳定扩散 3.5 的过程中,稳定 AI 利用了许多新技术来提高质量和性能。
稳定扩散 3.5 中的一个显著新增功能是将查询键归一化集成到 Transformer 块中。这项技术通过使模型更稳定地进行训练和微调,使最终用户更容易进行微调和进一步开发模型。
“虽然我们过去曾尝试过 QK 归一化,但这是我们第一个使用这种归一化的模型发布,”Basse 解释道。“将它用于这个新模型是有意义的,因为我们优先考虑定制化。”
稳定 AI 还增强了其多模态扩散 Transformer MMDiT-X 架构,特别是针对中等模型。稳定 AI 在 4 月首次强调了 MMDiT 架构方法,当时稳定扩散 3 API 可用。MMDiT 值得注意的是,它将扩散模型技术与 Transformer 模型技术相结合。随着稳定扩散 3.5 中的更新,MMDiT-X 现在能够帮助提高图像质量,并增强多分辨率生成能力。
稳定 AI 报告称,稳定扩散 3.5 大型模型在提示遵循性方面优于市场上的其他模型。
更好的提示遵循性承诺,是关于模型准确解释和呈现用户提示的能力。
“这是通过多种方法实现的——更好的数据集整理、字幕以及训练协议的额外创新,”Basse 说。
展望未来,稳定 AI 计划为稳定扩散 3.5 发布 ControlNets 功能。
ControlNets 的承诺是为各种专业用例提供更多控制。稳定 AI 于 2023 年 7 月在其 SDXL 1.0 版本中首次推出了 ControlNet 技术。
“ControlNets 对不同的专业应用提供了空间控制,例如,用户可能希望在保持整体颜色不变的情况下对图像进行放大,或者创建遵循特定深度模式的图像,”Basse 说。