订阅我们的每日和每周新闻通讯,获取有关行业领先人工智能报道的最新更新和独家内容。了解更多
OpenAI 的两位研究人员发表了一篇论文,描述了一种新型模型——具体来说,是一种新型的连续时间一致性模型 (sCM)——它将包括图像、视频和音频在内的多媒体的生成速度提高了 50 倍,与传统的扩散模型相比,在不到十分之一秒的时间内生成图像,而常规扩散模型则需要超过 5 秒。
通过引入 sCM,OpenAI 仅用两个采样步骤就实现了可比的样本质量,提供了一种在不影响质量的情况下加速生成过程的解决方案。
Cheng Lu 和 Yang Song 在 arXiv.org 上发表的预同行评审论文和今天发布的博客文章中描述了这一创新,它使这些模型能够在短短两个步骤内生成高质量样本——比以前需要数百个步骤的基于扩散的模型快得多。
Song 也是 2023 年 OpenAI 研究人员(包括前首席科学家 Ilya Sutskever)发表的一篇论文的主要作者,该论文提出了“一致性模型”的概念,即“同一轨迹上的点映射到相同的初始点”。
虽然扩散模型在生成逼真的图像、3D 模型、音频和视频方面取得了出色的成果,但它们在采样方面的低效率——通常需要数十到数百个顺序步骤——使其不太适合实时应用。
从理论上讲,这项技术可以为 OpenAI 提供一个近乎实时的 AI 图像生成模型的基础。正如 VentureBeat 的另一位记者 Sean Michael Kerner 在我们内部 Slack 频道中所言,“DALL-E 4 还会远吗?”
在传统的扩散模型中,需要大量的去噪步骤来创建样本,这导致了它们的速度缓慢。
相比之下,sCM 在一到两个步骤内直接将噪声转换为高质量样本,从而降低了计算成本和时间。
OpenAI 最大的 sCM 模型拥有 15 亿个参数,可以在单个 A100 GPU 上仅用 0.11 秒生成一个样本。
与扩散模型相比,这使得时钟时间加快了 50 倍,使实时生成式 AI 应用变得更加可行。
sCM 背后的团队在 ImageNet 512×512 上训练了一个连续时间一致性模型,扩展到 15 亿个参数。
即使在如此规模下,该模型仍然保持着与最佳扩散模型相媲美的样本质量,在 ImageNet 512×512 上实现了 1.88 的 Fréchet Inception Distance (FID) 分数。
这使得样本质量达到了扩散模型的 90%,而扩散模型需要大量的计算量才能获得类似的结果。
OpenAI 的新方法已经针对其他最先进的生成模型进行了广泛的基准测试。
通过使用 FID 分数衡量样本质量,并衡量有效采样计算,研究表明 sCM 在计算开销明显更低的情况下提供了顶级结果。
虽然以前快速采样方法在样本质量降低或训练设置复杂方面存在困难,但 sCM 成功地克服了这些挑战,既提供了速度又提供了高保真度。
sCM 的成功也归功于它能够与它从中提取知识的教师扩散模型成比例地扩展。
随着 sCM 和教师扩散模型的规模不断扩大,样本质量之间的差距进一步缩小,并且增加 sCM 中的采样步骤数量会进一步减少质量差异。
sCM 模型的快速采样和可扩展性为跨多个领域的实时生成式 AI 开辟了新的可能性。
从图像生成到音频和视频合成,sCM 为需要快速、高质量输出的应用提供了一种实用的解决方案。
此外,OpenAI 的研究暗示了进一步优化系统的潜力,这可以进一步提高性能,使这些模型能够适应各个行业的特定需求。