前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

开源视频AI新星Genmo推出Mochi 1

NEXTECH
Last updated: 2024年11月14日 下午5:59
By NEXTECH
Share
20 Min Read
SHARE

开源视频生成模型Mochi 1横空出世,AI视频创作新纪元开启

Genmo,一家专注于视频生成的AI公司,近日发布了Mochi 1的科研预览版,这款突破性的开源模型能够根据文本提示生成高质量视频,其性能据称可与甚至超越Runway的Gen-3 Alpha、Luma AI的Dream Machine、快手的Kling、Minimax的Hailuo等领先的闭源/专有竞争对手相媲美。

Mochi 1采用宽松的Apache 2.0许可证,用户可以免费使用其尖端的视频生成功能,而其他模型则通常提供有限的免费层级,最高每月收费高达94.99美元(Hailuo无限层级)。

除了发布模型,Genmo还提供了一个托管的游乐场,让用户可以亲身体验Mochi 1的功能。

目前,480p版本的模型已可使用,更高分辨率的版本Mochi 1 HD预计将在今年晚些时候发布。

Mochi 1在视频生成领域带来了多项重大进步,包括高保真运动和强大的提示遵循能力。

据Genmo介绍,Mochi 1擅长遵循详细的用户指令,可以对生成视频中的角色、场景和动作进行精确控制。

Genmo将Mochi 1定位为缩小开放式和封闭式视频生成模型之间差距的解决方案。

“我们距离生成式视频的未来还有1%的距离。真正的挑战在于创建长篇、高质量、流畅的视频。我们正在大力投入提高运动质量,”Genmo首席执行官兼联合创始人Paras Jain在接受VentureBeat采访时表示。

Jain和他的联合创始人创办Genmo的初衷是让每个人都能使用AI技术。“当谈到视频,也就是生成式AI的下一个前沿领域时,我们认为将它交到真正的人手中至关重要,”Jain强调说。他补充道:“我们坚信,将这项技术民主化,让尽可能多的人使用它非常重要。这也是我们开源它的原因之一。”

Genmo声称,在内部测试中,Mochi 1在提示遵循和运动质量方面超越了大多数其他视频AI模型,包括专有竞争对手Runway和Luna。


与Mochi 1预览版同步,Genmo还宣布完成2840万美元的A轮融资,由NEA领投,The House Fund、Gold House Ventures、WndrCo、Eastlink Capital Partners和Essence VC参投。多位天使投资人,包括Typespace首席执行官Abhay Parasnis和Replit首席执行官Amjad Masad,也支持该公司对先进视频生成的愿景。

Jain对视频在AI中的作用的看法超越了娱乐或内容创作。“视频是终极的沟通形式——我们大脑皮层有30%到50%致力于视觉信号处理。这是人类运作的方式,”他说。

Genmo的长期愿景是构建能够推动机器人技术和自主系统未来的工具。“长期愿景是,如果我们能够攻克视频生成,我们将构建世界上最好的模拟器,这将有助于解决具身AI、机器人技术和自动驾驶问题,”Jain解释说。

Mochi 1基于Genmo新颖的非对称扩散Transformer(AsymmDiT)架构。

它拥有100亿个参数,是迄今为止发布的最大的开源视频生成模型。该架构侧重于视觉推理,用于处理视频数据的参数是文本数据的四倍。

效率是模型设计的一个关键方面。Mochi 1利用视频VAE(变分自动编码器)将视频数据压缩到原始大小的一小部分,从而减少了最终用户设备的内存需求。这使得它更容易被开发者社区使用,他们可以从HuggingFace下载模型权重或通过API集成它。

Jain认为,Mochi 1的开源性质是推动创新的关键。“开源模型就像原油。它们需要被提炼和微调。这就是我们希望为社区提供的——让他们能够在此基础上构建令人难以置信的新事物,”他说。

然而,当被问及模型的训练数据集时——这是AI创意工具中最具争议的方面之一,因为有证据表明许多工具在未经明确许可或补偿的情况下,从网上大量的人类创意作品中进行训练,其中一些是受版权保护的作品——Jain的态度很含糊。

“一般来说,我们使用公开可用的数据,有时也会与各种数据合作伙伴合作,”他告诉VentureBeat,并拒绝透露更多细节,理由是竞争原因。“拥有多元化的数据非常重要,这对我们来说至关重要。”

作为预览版,Mochi 1仍然存在一些局限性。当前版本仅支持480p分辨率,在涉及复杂运动的边缘情况下可能会出现轻微的视觉失真。此外,虽然该模型擅长写实风格,但它在动画内容方面表现不佳。

然而,Genmo计划在今年晚些时候发布Mochi 1 HD,它将支持720p分辨率,并提供更高的运动保真度。

“唯一无趣的视频是不动的视频——运动是视频的核心。这就是为什么我们与其他模型相比,在运动质量方面投入了大量资金,”Jain说。

展望未来,Genmo正在开发图像到视频的合成功能,并计划提高模型的可控性,让用户能够更精确地控制视频输出。

Mochi 1的发布为各个行业打开了新的可能性。研究人员可以推动视频生成技术的边界,而开发人员和产品团队可能会在娱乐、广告和教育领域找到新的应用。

Mochi 1还可以用于生成合成数据,用于训练机器人技术和自主系统中的AI模型。

谈到将这项技术民主化的潜在影响,Jain说:“五年后,我希望看到一个世界,孟买的一个贫困孩子可以拿出手机,有一个好主意,然后赢得奥斯卡奖——这就是我们追求的民主化。”

Genmo邀请用户通过其托管的游乐场genmo.ai/play试用Mochi 1的预览版,用户可以在那里使用个性化的提示测试该模型——不过在本文发布时,该URL无法加载VentureBeat的正确页面。

Genmo正在积极招聘研究人员和工程师加入其团队,继续推动开源AI的边界。“我们是一个研究实验室,致力于构建用于视频生成的尖端模型。这是一个令人难以置信的激动人心的领域——AI的下一阶段——释放人工智能的右脑,”Jain说。该公司致力于推进视频生成技术,并进一步发展其对通用人工智能未来的愿景。

Share This Article
Email Copy Link Print
Previous Article IBM量子数据中心助力欧洲战略布局
Next Article Asana AI Studio 现推出工作流程管理 AI 代理创建功能
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20250610054810485.png
抖音:2025非遗数据报告
报告
人脸识别支付公司PopID完成融资 PayPal、Visa参投
未分类
20250610054408449.png
IDC:2024年中国SASE产品服务市场规模约为11.4亿元 同比增长37.8%
报告
中汽协会:2025年4月我国汽车整车出口情况简析
报告

相关内容

AI

AI驱动电商变革:别让平台拖后腿

2025年6月4日
AI

AI 工厂:克服工业挑战,实现 AI 商品化

2025年3月28日
ChatGPT Mac OS 应用与 Xcode 和 Terminal 集成的截图。
AI

OpenAI ChatGPT 桌面集成,挑战Copilot

2024年11月17日
DeepMind SCoRe inference-time scaling
AI

DeepMind 模型展现 LLM 自我纠错能力

2024年10月3日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?