开源视频生成模型Mochi 1横空出世,AI视频创作新纪元开启
Genmo,一家专注于视频生成的AI公司,近日发布了Mochi 1的科研预览版,这款突破性的开源模型能够根据文本提示生成高质量视频,其性能据称可与甚至超越Runway的Gen-3 Alpha、Luma AI的Dream Machine、快手的Kling、Minimax的Hailuo等领先的闭源/专有竞争对手相媲美。
Mochi 1采用宽松的Apache 2.0许可证,用户可以免费使用其尖端的视频生成功能,而其他模型则通常提供有限的免费层级,最高每月收费高达94.99美元(Hailuo无限层级)。
除了发布模型,Genmo还提供了一个托管的游乐场,让用户可以亲身体验Mochi 1的功能。
目前,480p版本的模型已可使用,更高分辨率的版本Mochi 1 HD预计将在今年晚些时候发布。
Mochi 1在视频生成领域带来了多项重大进步,包括高保真运动和强大的提示遵循能力。
据Genmo介绍,Mochi 1擅长遵循详细的用户指令,可以对生成视频中的角色、场景和动作进行精确控制。
Genmo将Mochi 1定位为缩小开放式和封闭式视频生成模型之间差距的解决方案。
“我们距离生成式视频的未来还有1%的距离。真正的挑战在于创建长篇、高质量、流畅的视频。我们正在大力投入提高运动质量,”Genmo首席执行官兼联合创始人Paras Jain在接受VentureBeat采访时表示。
Jain和他的联合创始人创办Genmo的初衷是让每个人都能使用AI技术。“当谈到视频,也就是生成式AI的下一个前沿领域时,我们认为将它交到真正的人手中至关重要,”Jain强调说。他补充道:“我们坚信,将这项技术民主化,让尽可能多的人使用它非常重要。这也是我们开源它的原因之一。”
Genmo声称,在内部测试中,Mochi 1在提示遵循和运动质量方面超越了大多数其他视频AI模型,包括专有竞争对手Runway和Luna。
与Mochi 1预览版同步,Genmo还宣布完成2840万美元的A轮融资,由NEA领投,The House Fund、Gold House Ventures、WndrCo、Eastlink Capital Partners和Essence VC参投。多位天使投资人,包括Typespace首席执行官Abhay Parasnis和Replit首席执行官Amjad Masad,也支持该公司对先进视频生成的愿景。
Jain对视频在AI中的作用的看法超越了娱乐或内容创作。“视频是终极的沟通形式——我们大脑皮层有30%到50%致力于视觉信号处理。这是人类运作的方式,”他说。
Genmo的长期愿景是构建能够推动机器人技术和自主系统未来的工具。“长期愿景是,如果我们能够攻克视频生成,我们将构建世界上最好的模拟器,这将有助于解决具身AI、机器人技术和自动驾驶问题,”Jain解释说。
Mochi 1基于Genmo新颖的非对称扩散Transformer(AsymmDiT)架构。
它拥有100亿个参数,是迄今为止发布的最大的开源视频生成模型。该架构侧重于视觉推理,用于处理视频数据的参数是文本数据的四倍。
效率是模型设计的一个关键方面。Mochi 1利用视频VAE(变分自动编码器)将视频数据压缩到原始大小的一小部分,从而减少了最终用户设备的内存需求。这使得它更容易被开发者社区使用,他们可以从HuggingFace下载模型权重或通过API集成它。
Jain认为,Mochi 1的开源性质是推动创新的关键。“开源模型就像原油。它们需要被提炼和微调。这就是我们希望为社区提供的——让他们能够在此基础上构建令人难以置信的新事物,”他说。
然而,当被问及模型的训练数据集时——这是AI创意工具中最具争议的方面之一,因为有证据表明许多工具在未经明确许可或补偿的情况下,从网上大量的人类创意作品中进行训练,其中一些是受版权保护的作品——Jain的态度很含糊。
“一般来说,我们使用公开可用的数据,有时也会与各种数据合作伙伴合作,”他告诉VentureBeat,并拒绝透露更多细节,理由是竞争原因。“拥有多元化的数据非常重要,这对我们来说至关重要。”
作为预览版,Mochi 1仍然存在一些局限性。当前版本仅支持480p分辨率,在涉及复杂运动的边缘情况下可能会出现轻微的视觉失真。此外,虽然该模型擅长写实风格,但它在动画内容方面表现不佳。
然而,Genmo计划在今年晚些时候发布Mochi 1 HD,它将支持720p分辨率,并提供更高的运动保真度。
“唯一无趣的视频是不动的视频——运动是视频的核心。这就是为什么我们与其他模型相比,在运动质量方面投入了大量资金,”Jain说。
展望未来,Genmo正在开发图像到视频的合成功能,并计划提高模型的可控性,让用户能够更精确地控制视频输出。
Mochi 1的发布为各个行业打开了新的可能性。研究人员可以推动视频生成技术的边界,而开发人员和产品团队可能会在娱乐、广告和教育领域找到新的应用。
Mochi 1还可以用于生成合成数据,用于训练机器人技术和自主系统中的AI模型。
谈到将这项技术民主化的潜在影响,Jain说:“五年后,我希望看到一个世界,孟买的一个贫困孩子可以拿出手机,有一个好主意,然后赢得奥斯卡奖——这就是我们追求的民主化。”
Genmo邀请用户通过其托管的游乐场genmo.ai/play试用Mochi 1的预览版,用户可以在那里使用个性化的提示测试该模型——不过在本文发布时,该URL无法加载VentureBeat的正确页面。
Genmo正在积极招聘研究人员和工程师加入其团队,继续推动开源AI的边界。“我们是一个研究实验室,致力于构建用于视频生成的尖端模型。这是一个令人难以置信的激动人心的领域——AI的下一阶段——释放人工智能的右脑,”Jain说。该公司致力于推进视频生成技术,并进一步发展其对通用人工智能未来的愿景。