前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

AI 图像生成的力量

NEXTECH
Last updated: 2024年9月24日 上午7:23
By NEXTECH
Share
15 Min Read
SHARE

image.jpg?width=1245&coordinates=62%2C0

人工智能已经展现出创造前所未有的逼真猫、狗和人脸图像的能力。最近,研究人员一直在探索如何训练人工智能模型来创建更复杂的图像,这些图像可以包含以不同姿势和配置排列的许多不同物体。

挑战在于如何让 AI 模型(在本例中通常是称为生成对抗网络 (GAN) 的深度学习算法类别)根据特定条件生成更可控的图像,而不是简单地输出任何随机图像。北卡罗来纳州立大学的一个团队开发了一种方法,可以让 GAN 通过使用可重构图像布局作为起点来更可靠地创建这种条件图像。

“我们想要一个足够灵活的模型,这样当输入布局可重构时,我们就可以生成一个一致的图像,”北卡罗来纳州立大学拉利分校电气与计算机工程系助理教授吴天福说。

这种基于布局和风格的 GAN 架构(昵称“LostGANs”)源于吴天福和孙伟的研究,孙伟是北卡罗来纳州立大学电气与计算机工程系的前博士生,目前是 Facebook 的研究科学家。他们关于这项工作的论文于上个月发表在《IEEE 模式分析与机器智能汇刊》杂志上。

LostGANs 方法的起点是一个简单的可重构布局,其中包括矩形边界框,显示树木、道路、公共汽车、天空或人应该在整体图像中的位置。然而,以前的人工智能模型在尝试直接从这种布局中工作时,通常无法创建逼真且比例完美的图像。

You Might Also Like

ChatGPT用户超越Chrome AI搜索成新趋势
H2O.ai预测模型提升AI代理精准度
突破5万用户,Lloyd实时AI视频分析应用开放开发者工具包
Gartner预测:2025年AI代理崛起

这就是为什么吴天福和孙伟训练他们的 AI 模型使用布局中的边界框作为起点,首先创建看起来像每个物体轮廓的“物体蒙版”。这种中间的“层到蒙版”步骤允许模型进一步细化这种物体轮廓的总体形状,这有助于创建更逼真和最终的“蒙版到图像”结果,其中所有视觉细节都已填充。

该团队的方法还使研究人员能够让 AI 根据可重构的“风格代码”更改整体图像布局中特定物体的视觉外观。例如,AI 可以通过对滑雪者的服装甚至身体姿势进行特定的风格更改,生成相同一般冬季山区景观的不同版本,其中有滑雪者。

LostGANs 方法的结果仍然不完全逼真——这种 AI 生成的图像有时会让人联想到印象派绘画,比例和姿势奇怪地扭曲。但 LostGANs 可以合成高达 512 x 512 像素分辨率的图像,而之前的布局到图像 AI 模型通常会生成更低分辨率的图像。LostGANs 方法在使用 COCO-Stuff 数据集和视觉基因组数据集进行基准测试时,也表现出比竞争对手更好的性能。

LostGANs 的下一步可能包括更好地捕捉人与小物体之间相互作用的细节,例如一个人以某种方式握着网球拍。LostGANs 可能会改进的一种方法是使用表示构成物体的各种组件的“部分级蒙版”。

但同样重要的是,吴天福和孙伟展示了如何使用更少的标记条件更有效地训练 LostGANs,而无需牺牲最终图像的质量。这种半监督训练可以依赖于通常训练图像的 50% 来使 LostGANs 达到其通常的性能标准。LostGANs 的源代码和预训练模型可在 GitHub 上在线获取,供任何其他有兴趣尝试这种方法的研究人员使用。

拥有比学术实验室更深厚资金的技术公司和组织已经开始展示利用 AI 生成的图像的潜力。2019 年,英伟达展示了一个名为 GauGAN 的 AI 艺术应用程序,它可以将人类艺术家绘制的粗略草图转换为逼真的最终图像。2021 年初,OpenAI 展示了其 GPT-3 语言模型的 DALL·E 版本,它可以将“像鳄梨形状的扶手椅”这样的文本提示转换为逼真的最终图像。

尽管尚未实现如此精美的图像结果,但 LostGANs 研究仍有很多值得借鉴的地方。通过采用布局到蒙版到图像的方法,LostGANs 使研究人员能够更好地理解 AI 模型是如何生成图像中的各种物体的。LostGANs 提供的这种透明度代表了对许多 AI 模型的典型“黑盒”方法的改进,即使是专家也会对最终图像是如何生成的感到困惑。

“例如,如果你查看图像,发现人看起来不对劲,你可以追溯到源头,发现这是因为蒙版没有正确计算,”吴天福解释说。“蒙版有助于理解生成图像中发生了什么,也更容易控制图像生成。”

这项研究最终可以帮助机器人和 AI 代理更好地设想未来与周围环境中物体的交互结果。这种基于可重构布局的图像生成还可以潜在地帮助生成不同的视觉场景,这些场景可以帮助训练自动驾驶汽车。

在短期内,LostGANs 可以充当教育工具,邀请学生和其他好奇的学习者通过设置简单的图像布局与 AI 进行互动。在一次系里开放日活动中,早期版本的 LostGANs 以其仍然不完美的人工智能生成的图像吸引了当地高中生的注意。

“我认为这对那些学生来说会很有趣,”吴天福说。“然后他们可以粗略地理解‘哦,这是一个我可以通过这种简单的绘画与 AI 系统交互的东西。’”

Share This Article
Email Copy Link Print
Previous Article 科技无形化之前,我们该如何思考?
Next Article AI 技术让配音完美无瑕
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
图片描述
TechInsights:2025年Q1全球智能手机出货量2.968亿部,同比增长0.5%
报告
东北大学:智能手机使用影响儿童大脑发育
报告
20250509055444678.png
AMD财报:2025年Q1营收同比增长36% 但对华出口限制预计减少15亿美元收入
报告
20250509055244802.png
英国汽车制造商和贸易商协会:2025年4月特斯拉英国新车注册量同比降62%
报告

相关内容

Meta 公司正在利用超过 10 万颗英伟达 H100 AI GPU 庞大集群,训练新一代 Llama 4 模型。
AI

扎克伯格与马斯克:10万颗GPU的AI大战

2024年11月15日
AI

开源小模型媲美大型AI

2024年9月26日
sora-otter-clip.png?resize=1200,600
AI

OpenAI Sora 视频生成工具使用指南

2024年12月19日
AI

如果不先了解大脑,我们就永远不会拥有真正的人工智能

2024年9月24日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?