订阅我们的每日和每周新闻通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
随着亚马逊推出其新的 Nova 系列基础模型,迈向 AI 领域的重要一步,谷歌正在加倍投入其多模态 AI 能力。这家科技巨头的云计算部门宣布,其最新的视频和图像生成模型 Veo 和 Imagen 3 现已在 Vertex AI 上可用。
此举使团队能够将尖端的视频和图像生成功能集成到其 AI 工作流程中,从而解锁各种用例,尤其是在营销和广告领域。这也使 Google Cloud 成为首个向其客户提供视频模型的超大规模云服务提供商。
虽然 Veo 模型目前处于私人预览阶段,但 Imagen 3 将从下周开始对所有 Vertex AI 用户普遍可用。值得注意的是,Imagen 3 还包括编辑功能,使用户能够根据特定的创意需求细化生成的图像。
Veo 首次在 Google 的 I/O 开发者大会上亮相,是 Google DeepMind 对 Runway 的 Gen-3 和 OpenAI 的 Sora 等竞争对手的回应,提供了一种复杂的视频生成体验。该模型将文本或图像提示转换为各种视觉风格的电影级高清视频,生成超过 60 秒的剪辑。其与众不同之处在于帧级一致性,确保主体在镜头内平滑移动。
同样来自 DeepMind 的 Imagen 3 承担了文本到图像生成的重任,以各种风格生成逼真的视觉效果。谷歌声称它在细节、光线准确性和减少伪影方面超越了其前身。
除了生成之外,Google 允许名单上的用户还可以使用 Imagen 3 访问高级自定义选项。这些选项包括图像放大、修复、扩展和背景替换,所有这些都由文本提示引导。此外,用户可以提供参考图像,使 Imagen 3 能够创建与特定品牌美学、徽标或产品功能一致的内容。
Vertex AI 长期以来一直是 Google Cloud 用于简化 AI 应用程序开发和部署的旗舰平台。通过集成 Veo 和 Imagen 3,该平台为组织提供了更全面的工具套件,以在营销、销售等领域进行创新。
例如,Imagen 3 简化了高质量资产(如产品图像和社交媒体内容)的创建,而 Veo 通过为团队提供将这些视觉效果转换为精致视频的选项来扩展此功能。这加快了生产速度,降低了成本,并加速了原型设计,使团队能够快速迭代其创意策略。
“像 Agoda 这样的客户正在利用 Veo、Gemini 和 Imagen 等 AI 模型的力量来简化他们的视频广告制作,从而显着减少制作时间,”Google 产品管理高级总监 Warren Barkley 在一篇博文中说。他还强调,这两个模型都包含安全功能,如数字水印和内容审核护栏,以减轻与生成式 AI 相关的风险。
其他早期采用者包括拥有奥利奥、吉百利和美露等品牌的亿滋国际以及全球营销和传播服务公司 WPP。随着 Google 的基础模型扩展其影响范围,各行各业的企业都有一个强大的机会重新构想他们创建和交付视觉内容的方式。
虽然所有主要的云提供商,包括 Google Cloud、Amazon Web Services 和 Microsoft Azure,都在其各自的 AI 编排平台上提供图像生成模型,但视频生成迄今为止一直非常罕见。Google 今天推出 Veo 进行私人预览,改变了这一现状。
有趣的是,在 Veo 宣布后不久,AWS 在 re:Invent 上宣布了 Nova Reel,这是一个基础模型,可以从文本和图像提示生成 6 秒长的工作室级视频。
该模型以及 Nova 系列中的其他模型将通过 Amazon Bedrock 提供,Amazon Bedrock 是该公司旨在简化生成式 AI 应用程序创建和部署的全托管服务。
微软目前似乎在这个类别中落后。其 AI Foundry 不包括用于视频生成的模型。但是,我们预计这种情况会在 OpenAI 的 Sora 上市后发生改变。