开源视频AI新星Genmo推出Mochi 1

开源视频生成模型Mochi 1横空出世，AI视频创作新纪元开启

Genmo，一家专注于视频生成的AI公司，近日发布了Mochi 1的科研预览版，这款突破性的开源模型能够根据文本提示生成高质量视频，其性能据称可与甚至超越Runway的Gen-3 Alpha、Luma AI的Dream Machine、快手的Kling、Minimax的Hailuo等领先的闭源/专有竞争对手相媲美。

Mochi 1采用宽松的Apache 2.0许可证，用户可以免费使用其尖端的视频生成功能，而其他模型则通常提供有限的免费层级，最高每月收费高达94.99美元（Hailuo无限层级）。

除了发布模型，Genmo还提供了一个托管的游乐场，让用户可以亲身体验Mochi 1的功能。

目前，480p版本的模型已可使用，更高分辨率的版本Mochi 1 HD预计将在今年晚些时候发布。

Mochi 1在视频生成领域带来了多项重大进步，包括高保真运动和强大的提示遵循能力。

据Genmo介绍，Mochi 1擅长遵循详细的用户指令，可以对生成视频中的角色、场景和动作进行精确控制。

Genmo将Mochi 1定位为缩小开放式和封闭式视频生成模型之间差距的解决方案。

“我们距离生成式视频的未来还有1%的距离。真正的挑战在于创建长篇、高质量、流畅的视频。我们正在大力投入提高运动质量，”Genmo首席执行官兼联合创始人Paras Jain在接受VentureBeat采访时表示。

Jain和他的联合创始人创办Genmo的初衷是让每个人都能使用AI技术。“当谈到视频，也就是生成式AI的下一个前沿领域时，我们认为将它交到真正的人手中至关重要，”Jain强调说。他补充道：“我们坚信，将这项技术民主化，让尽可能多的人使用它非常重要。这也是我们开源它的原因之一。”

Genmo声称，在内部测试中，Mochi 1在提示遵循和运动质量方面超越了大多数其他视频AI模型，包括专有竞争对手Runway和Luna。

与Mochi 1预览版同步，Genmo还宣布完成2840万美元的A轮融资，由NEA领投，The House Fund、Gold House Ventures、WndrCo、Eastlink Capital Partners和Essence VC参投。多位天使投资人，包括Typespace首席执行官Abhay Parasnis和Replit首席执行官Amjad Masad，也支持该公司对先进视频生成的愿景。

Jain对视频在AI中的作用的看法超越了娱乐或内容创作。“视频是终极的沟通形式——我们大脑皮层有30%到50%致力于视觉信号处理。这是人类运作的方式，”他说。

Genmo的长期愿景是构建能够推动机器人技术和自主系统未来的工具。“长期愿景是，如果我们能够攻克视频生成，我们将构建世界上最好的模拟器，这将有助于解决具身AI、机器人技术和自动驾驶问题，”Jain解释说。

Mochi 1基于Genmo新颖的非对称扩散Transformer（AsymmDiT）架构。

它拥有100亿个参数，是迄今为止发布的最大的开源视频生成模型。该架构侧重于视觉推理，用于处理视频数据的参数是文本数据的四倍。

效率是模型设计的一个关键方面。Mochi 1利用视频VAE（变分自动编码器）将视频数据压缩到原始大小的一小部分，从而减少了最终用户设备的内存需求。这使得它更容易被开发者社区使用，他们可以从HuggingFace下载模型权重或通过API集成它。

Jain认为，Mochi 1的开源性质是推动创新的关键。“开源模型就像原油。它们需要被提炼和微调。这就是我们希望为社区提供的——让他们能够在此基础上构建令人难以置信的新事物，”他说。

然而，当被问及模型的训练数据集时——这是AI创意工具中最具争议的方面之一，因为有证据表明许多工具在未经明确许可或补偿的情况下，从网上大量的人类创意作品中进行训练，其中一些是受版权保护的作品——Jain的态度很含糊。

“一般来说，我们使用公开可用的数据，有时也会与各种数据合作伙伴合作，”他告诉VentureBeat，并拒绝透露更多细节，理由是竞争原因。“拥有多元化的数据非常重要，这对我们来说至关重要。”

作为预览版，Mochi 1仍然存在一些局限性。当前版本仅支持480p分辨率，在涉及复杂运动的边缘情况下可能会出现轻微的视觉失真。此外，虽然该模型擅长写实风格，但它在动画内容方面表现不佳。

然而，Genmo计划在今年晚些时候发布Mochi 1 HD，它将支持720p分辨率，并提供更高的运动保真度。

“唯一无趣的视频是不动的视频——运动是视频的核心。这就是为什么我们与其他模型相比，在运动质量方面投入了大量资金，”Jain说。

展望未来，Genmo正在开发图像到视频的合成功能，并计划提高模型的可控性，让用户能够更精确地控制视频输出。

Mochi 1的发布为各个行业打开了新的可能性。研究人员可以推动视频生成技术的边界，而开发人员和产品团队可能会在娱乐、广告和教育领域找到新的应用。

Mochi 1还可以用于生成合成数据，用于训练机器人技术和自主系统中的AI模型。

谈到将这项技术民主化的潜在影响，Jain说：“五年后，我希望看到一个世界，孟买的一个贫困孩子可以拿出手机，有一个好主意，然后赢得奥斯卡奖——这就是我们追求的民主化。”

Genmo邀请用户通过其托管的游乐场genmo.ai/play试用Mochi 1的预览版，用户可以在那里使用个性化的提示测试该模型——不过在本文发布时，该URL无法加载VentureBeat的正确页面。

Genmo正在积极招聘研究人员和工程师加入其团队，继续推动开源AI的边界。“我们是一个研究实验室，致力于构建用于视频生成的尖端模型。这是一个令人难以置信的激动人心的领域——AI的下一阶段——释放人工智能的右脑，”Jain说。该公司致力于推进视频生成技术，并进一步发展其对通用人工智能未来的愿景。

开源视频AI新星Genmo推出Mochi 1

开源视频生成模型Mochi 1横空出世，AI视频创作新纪元开启

发表回复取消回复

最新内容

《亚洲水发展展望2025》深度解读：亚太水安全喜忧参半，未来挑战何在？

谷歌支付6800万美元和解语音助手监听诉讼，你的隐私可能被“误触发”录音

甲骨文豪掷500亿美元押注AI基建，美国数据中心版图加速扩张

OpenAI总裁豪掷2500万美元支持特朗普，科技巨头与政坛的深度捆绑引关注

相关内容

微软研究人员提出数据增强LLM应用框架

69页AI Agent圣经报告：智能体发展前景、未来趋势与生态全解析

2025 年自主智能：自动化、自治和问责制

黄仁勋再为马斯克送货上门：英伟达AI个人超算DGX Spark终亮相，开启桌面AI新时代

分类

快速链接

开源视频生成模型Mochi 1横空出世，AI视频创作新纪元开启

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复