2024 年 12 月 9 日,OpenAI 终于发布了其 AI 视频生成模型 Sora。早在 2 月份,Sora 就已初露端倪,成为当年最受期待的视频生成器。毕竟,OpenAI 的 ChatGPT 是全球最受欢迎的 AI 聊天机器人,而 Dall-E 则是最优秀的图像生成器之一。如果说谁能够树立新的标杆,那一定是 OpenAI。
然而,Sora 的发布却未能达到预期。
“我们对 Sora 寄予厚望,但它发布后,我们都觉得‘嗯……不太确定’。其他工具已经赶上来了,”Aigency Amsterdam 的联合创始人 Chrissie Cremers 说。她希望这款工具能够不负 OpenAI 经常更新模型的声誉。但就目前而言,Sora 的表现令人沮丧地不稳定。
Sora 不稳定性的原因与大多数生成式 AI 系统面临的更广泛问题有关。视频生成器与图像生成器一样,通常使用扩散模型进行训练,从随机噪声中生成图像。但视频生成器面临着额外的挑战,即生成一系列图像并按顺序呈现。这需要对世界运作方式有更深入的了解。
Sora 的视频质量乍一看还不错,但运动起来却很少有意义。OpenAI
以棒球比赛为例。投手是将球投向本垒板,还是击球手将球投向投手丘?虽然对于任何熟悉这项运动的人来说,这是一个简单的问题,但回答它也需要对线性时间和现实世界物理学有直观的理解,而这正是视频生成器难以做到的。因此,当 AI 制作棒球比赛的视频时,也许是捕手投出了球,也许是球在投手移动之前就被投出去了。或者,也许球以超乎寻常的速度向随机方向飞去。
虽然 Sora 未能达到预期,但 OpenAI 的竞争对手在 2024 年并没有坐以待毙,许多公司发布了新的基础模型和新功能。这些功能包括提供更高分辨率输出的模型、虚拟角色的唇形同步以及有趣的视觉效果。以下列出了五款您可以立即开始尝试的生成器。
Runway
Runway 的 Act One 可以根据演员的表演创建 AI 生成的视频。
Runway.ai
Runway 在 2023 年发布了其第一个基础视频生成模型,并立即成为创意人士的首选。它的优势在于其在短镜头和慢动作中的生成视觉质量。与 Sora 一样,它在处理快速运动时可能会遇到困难,但在生成静态或缓慢移动物体的慢速、电影化镜头时表现更好。
该公司还拥有一个名为 Act One 的令人印象深刻的视频到视频工具。该工具专为“富有表现力的角色表演”而设计,它将演员在现实世界中的表演视频转换为 AI 动画角色。创意 AI 公司 ZenRobot 的联合创始人 Ross Symons 表示,Runway 在唇形同步方面“非常出色”,这对获得令人信服的结果至关重要。
Kling
Kling 是一款 AI 视频生成模型,具有(相对)一致且逼真的运动。
快手科技
Kling.ai 是快手科技的 AI 视频生成模型,这是一家中国公司,以其短视频社交媒体应用快手而闻名,该应用拥有超过 2 亿用户。该公司现在正在利用其自己的基础视频生成模型 Kling 在 AI 领域取得进展。
Symons 赞扬了 Kling 在更具挑战性的提示中生成令人信服的运动的能力。“我发现它能够创建更自然的运动,无论是人类的运动还是动物的运动,”他说。快手于 2024 年 12 月 19 日发布了其最新模型 Kling 1.6。虽然该模型可以直接从该公司的网站 Kling.ai 获得,但也可以通过一些第三方合作伙伴(如 Krea)访问。
Luma Dream Machine
Luma 的 Dream Machine 是一款基础视频模型,配有一个时尚且功能丰富的用户界面。
Luma AI
Luma AI 是一家位于旧金山的初创公司,专门训练基础模型。其视频生成模型 Dream Machine 已成为挑剔的创意人士的首选工具。它的人气并非完全基于其视频模型的质量(尽管它仍然具有竞争力),更多的是基于其丰富的功能列表,其中包括 AI 故事板、图像和视频修改以及更一致结果的参考样式。
然而,2024 年发布的最引人注目的功能是关键帧。该功能允许用户使用起始帧和结束帧提示模型,从而提供更多创意控制。Symons 拥有动画背景,他说这种工作流程感觉很自然,并且允许“帧之间进行微妙的过渡”。然而,Luma 在这方面的优势可能不会持续太久,因为竞争对手也开始添加此功能。
Hailuo
Hailuo 是一款用于快速动作场景的顶级 AI 视频生成模型。
Minimax
Hailuo 是 Minimax 的基础视频生成模型,Minimax 是一家总部位于上海的公司,获得了阿里巴巴和米哈游等巨头的支持。Hailuo 因其高质量的结果和令人信服的动作而受到赞誉。“它有一些不错的动作,比如打斗,这对电影制作人来说很有趣,”Cremers 说。
这也突出了美国和中国公司在视频生成方法上的差异。
OpenAI 的 Sora 有时可能会生成关于打斗、动作场景或知名流行文化人物的视频,但这些提示往往会导致内容政策违规。在其他情况下,生成的视频似乎有意地对提示表现出天真(例如,要求 Sora 生成布拉德·皮特的视频,结果显示没有明显的相似之处)。Hailuo 似乎不太挑剔,尽管它仍然会拒绝特别露骨和暴力的提示。
Pika
Pika 的病毒式 Pikaffects 在社交媒体上获得了数百万次观看。
Pika
到目前为止,我们讨论的所有视频生成模型都有一个共同点:它们倾向于采用光滑、专业、详细的风格。这通常是可取的,但如果你想要一些更随意的东西呢?这就是 Pika 的用武之地。
“我喜欢 Pika 的社交优先策略,”Cremers 说。“它是社交媒体的模型,这是一个非常明智的举动。”Pika 在 2024 年 10 月凭借 Pikaffects 引起轰动,Pikaffects 是一款工具,可以创建围绕特殊效果(如挤压、融化或膨胀照片中的物体)的简短、可分享的剪辑。Pika 最受欢迎的病毒式视频(一个普通的马桶突然做了一些非常奇怪的事情)在 TikTok 上获得了超过 1900 万次观看,还有几个视频获得了数百万次观看。
值得一提
Cremers 和 Symons 都提到了另一个 AI 视频生成的重要工具:Midjourney。
不,你没有错过任何东西。Midjourney 的视频生成工具虽然据说正在开发中,但尚未发布。然而,Midjourney 是许多 AI 创意人士的首选图像生成工具,而 Midjourney 生成的图像可以用于图像到视频或关键帧提示。
Topaz Labs 的 Video AI 也是值得一提的工具。它不生成视频,而是使用 AI 对视频进行放大。这对专业工作很有价值,因为 AI 视频生成器往往会以较低的分辨率(介于 360p 和 1080p 之间)输出视频。
Midjourney 和 Topaz Labs 的 Video AI 的重要性突出了视频生成器在 2025 年可能追求的功能。虽然更好的运动、一致性和逼真的物理学是 AI 视频可以改进的明显领域,但它们还有空间与更好的故事板、更高的输出分辨率和更好的相机运动控制竞争。