人工智能已经展现出创造前所未有的逼真猫、狗和人脸图像的能力。最近,研究人员一直在探索如何训练人工智能模型来创建更复杂的图像,这些图像可以包含以不同姿势和配置排列的许多不同物体。
挑战在于如何让 AI 模型(在本例中通常是称为生成对抗网络 (GAN) 的深度学习算法类别)根据特定条件生成更可控的图像,而不是简单地输出任何随机图像。北卡罗来纳州立大学的一个团队开发了一种方法,可以让 GAN 通过使用可重构图像布局作为起点来更可靠地创建这种条件图像。
“我们想要一个足够灵活的模型,这样当输入布局可重构时,我们就可以生成一个一致的图像,”北卡罗来纳州立大学拉利分校电气与计算机工程系助理教授吴天福说。
这种基于布局和风格的 GAN 架构(昵称“LostGANs”)源于吴天福和孙伟的研究,孙伟是北卡罗来纳州立大学电气与计算机工程系的前博士生,目前是 Facebook 的研究科学家。他们关于这项工作的论文于上个月发表在《IEEE 模式分析与机器智能汇刊》杂志上。
LostGANs 方法的起点是一个简单的可重构布局,其中包括矩形边界框,显示树木、道路、公共汽车、天空或人应该在整体图像中的位置。然而,以前的人工智能模型在尝试直接从这种布局中工作时,通常无法创建逼真且比例完美的图像。
这就是为什么吴天福和孙伟训练他们的 AI 模型使用布局中的边界框作为起点,首先创建看起来像每个物体轮廓的“物体蒙版”。这种中间的“层到蒙版”步骤允许模型进一步细化这种物体轮廓的总体形状,这有助于创建更逼真和最终的“蒙版到图像”结果,其中所有视觉细节都已填充。
该团队的方法还使研究人员能够让 AI 根据可重构的“风格代码”更改整体图像布局中特定物体的视觉外观。例如,AI 可以通过对滑雪者的服装甚至身体姿势进行特定的风格更改,生成相同一般冬季山区景观的不同版本,其中有滑雪者。
LostGANs 方法的结果仍然不完全逼真——这种 AI 生成的图像有时会让人联想到印象派绘画,比例和姿势奇怪地扭曲。但 LostGANs 可以合成高达 512 x 512 像素分辨率的图像,而之前的布局到图像 AI 模型通常会生成更低分辨率的图像。LostGANs 方法在使用 COCO-Stuff 数据集和视觉基因组数据集进行基准测试时,也表现出比竞争对手更好的性能。
LostGANs 的下一步可能包括更好地捕捉人与小物体之间相互作用的细节,例如一个人以某种方式握着网球拍。LostGANs 可能会改进的一种方法是使用表示构成物体的各种组件的“部分级蒙版”。
但同样重要的是,吴天福和孙伟展示了如何使用更少的标记条件更有效地训练 LostGANs,而无需牺牲最终图像的质量。这种半监督训练可以依赖于通常训练图像的 50% 来使 LostGANs 达到其通常的性能标准。LostGANs 的源代码和预训练模型可在 GitHub 上在线获取,供任何其他有兴趣尝试这种方法的研究人员使用。
拥有比学术实验室更深厚资金的技术公司和组织已经开始展示利用 AI 生成的图像的潜力。2019 年,英伟达展示了一个名为 GauGAN 的 AI 艺术应用程序,它可以将人类艺术家绘制的粗略草图转换为逼真的最终图像。2021 年初,OpenAI 展示了其 GPT-3 语言模型的 DALL·E 版本,它可以将“像鳄梨形状的扶手椅”这样的文本提示转换为逼真的最终图像。
尽管尚未实现如此精美的图像结果,但 LostGANs 研究仍有很多值得借鉴的地方。通过采用布局到蒙版到图像的方法,LostGANs 使研究人员能够更好地理解 AI 模型是如何生成图像中的各种物体的。LostGANs 提供的这种透明度代表了对许多 AI 模型的典型“黑盒”方法的改进,即使是专家也会对最终图像是如何生成的感到困惑。
“例如,如果你查看图像,发现人看起来不对劲,你可以追溯到源头,发现这是因为蒙版没有正确计算,”吴天福解释说。“蒙版有助于理解生成图像中发生了什么,也更容易控制图像生成。”
这项研究最终可以帮助机器人和 AI 代理更好地设想未来与周围环境中物体的交互结果。这种基于可重构布局的图像生成还可以潜在地帮助生成不同的视觉场景,这些场景可以帮助训练自动驾驶汽车。
在短期内,LostGANs 可以充当教育工具,邀请学生和其他好奇的学习者通过设置简单的图像布局与 AI 进行互动。在一次系里开放日活动中,早期版本的 LostGANs 以其仍然不完美的人工智能生成的图像吸引了当地高中生的注意。
“我认为这对那些学生来说会很有趣,”吴天福说。“然后他们可以粗略地理解‘哦,这是一个我可以通过这种简单的绘画与 AI 系统交互的东西。’”