稳定扩散3.5发布，提升图像生成开源模型

稳定扩散 3.5：AI 图像生成的新纪元

稳定 AI 今天发布了其文本到图像生成 AI 技术的重大更新，推出了稳定扩散 3.5。此更新旨在提升稳定 AI 上次重大更新的水平，该公司承认上次更新没有达到其自身标准。

稳定扩散 3 于 2 月首次亮相，第一个开放模型版本于 6 月随着稳定扩散 3 中等版本的发布而正式推出。虽然稳定 AI 是文本到图像生成 AI 领域的早期先驱，但它正面临着来自众多竞争对手的激烈竞争，包括黑森林实验室的 Flux Pro、OpenAI 的 Dall-E、Ideogram 和 Midjourney。

凭借稳定扩散 3.5，稳定 AI 旨在重夺其领导地位。新模型高度可定制，可以生成各种不同的风格。此更新引入了多个模型变体，每个变体都旨在满足不同的用户需求。稳定扩散 3.5 大型模型是一个拥有 80 亿个参数的模型，在该系列中提供最高质量和提示遵循性。稳定扩散 3.5 大型 Turbo 是大型模型的精简版本，提供更快的图像生成速度。最后，稳定扩散 3.5 中等模型拥有 26 亿个参数，针对边缘计算部署进行了优化。

所有三个新的稳定扩散 3.5 模型都可以在稳定 AI 社区许可下使用，这是一个开放许可，允许免费的非商业用途，以及年收入低于 100 万美元的实体的免费商业用途。稳定 AI 为更大的部署提供企业许可。这些模型可以通过稳定 AI 的 API 以及 Hugging Face 获得。

6 月发布的稳定扩散 3 中等模型的原始版本，是一个不太理想的版本。从这次经历中吸取的教训有助于为新的稳定扩散 3.5 更新提供信息并改进它们。

“我们发现，我们为稳定扩散大型 8B 模型做出的几个模型和数据集选择，对于较小的中等模型来说并不理想，”稳定 AI 首席技术官 Hanno Basse 告诉 VentureBeat。“我们对这些瓶颈进行了彻底的分析，并在中等模型的架构和训练协议上进行了进一步的创新，以在模型大小和输出质量之间取得更好的平衡。”

稳定 AI 如何通过稳定扩散 3.5 改进文本到图像生成 AI

在构建稳定扩散 3.5 的过程中，稳定 AI 利用了许多新技术来提高质量和性能。

稳定扩散 3.5 中的一个显著新增功能是将查询键归一化集成到 Transformer 块中。这项技术通过使模型更稳定地进行训练和微调，使最终用户更容易进行微调和进一步开发模型。

“虽然我们过去曾尝试过 QK 归一化，但这是我们第一个使用这种归一化的模型发布，”Basse 解释道。“将它用于这个新模型是有意义的，因为我们优先考虑定制化。”

稳定 AI 还增强了其多模态扩散 Transformer MMDiT-X 架构，特别是针对中等模型。稳定 AI 在 4 月首次强调了 MMDiT 架构方法，当时稳定扩散 3 API 可用。MMDiT 值得注意的是，它将扩散模型技术与 Transformer 模型技术相结合。随着稳定扩散 3.5 中的更新，MMDiT-X 现在能够帮助提高图像质量，并增强多分辨率生成能力。

稳定 AI 报告称，稳定扩散 3.5 大型模型在提示遵循性方面优于市场上的其他模型。

更好的提示遵循性承诺，是关于模型准确解释和呈现用户提示的能力。

“这是通过多种方法实现的——更好的数据集整理、字幕以及训练协议的额外创新，”Basse 说。

展望未来，稳定 AI 计划为稳定扩散 3.5 发布 ControlNets 功能。

ControlNets 的承诺是为各种专业用例提供更多控制。稳定 AI 于 2023 年 7 月在其 SDXL 1.0 版本中首次推出了 ControlNet 技术。

“ControlNets 对不同的专业应用提供了空间控制，例如，用户可能希望在保持整体颜色不变的情况下对图像进行放大，或者创建遵循特定深度模式的图像，”Basse 说。

稳定扩散3.5发布，提升图像生成开源模型

稳定扩散 3.5：AI 图像生成的新纪元

稳定 AI 如何通过稳定扩散 3.5 改进文本到图像生成 AI

发表回复取消回复

最新内容

乘联会：2025年4月国内乘用车零售175.5万辆，同比增长14.5%

卡塔尔航空：2025财年利润21.5亿美元创纪录

中汽数研：2025年4月中大型轿车销量小米SU7登顶

威尔逊：2025年3月BBA车主置换首选特斯拉占比14%

相关内容

周一AI转型：模块化AI打造数字劳动力

佐治亚理工学院加入苹果新芯片工程计划

谷歌 Gemini 2.0 闪念模型挑战 OpenAI

AI代理的真实应用场景

分类

快速链接

稳定扩散 3.5：AI 图像生成的新纪元

稳定 AI 如何通过稳定扩散 3.5 改进文本到图像生成 AI

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复