以色列公司 Lightricks 推出开源 AI 视频生成模型 LTXV,挑战科技巨头
Lightricks,这家以爆款照片编辑应用 Facetune 知名的以色列公司,正雄心勃勃地进军生成式 AI 领域,意图颠覆现有格局。该公司今日宣布推出 LTX Video(LTXV),一款能够在短短四秒内生成五秒高质量视频的开源 AI 模型。通过将视频模型免费开放,Lightricks 直指 OpenAI、Adobe 和 Google 等科技巨头主导的专有 AI 系统。
Lightricks 联合创始人兼 CEO Zeev Farbman 在接受 VentureBeat 独家采访时表示:“我们认为基础模型将成为一种商品,你无法围绕基础模型建立真正的业务。如果初创公司想要真正有机会竞争,技术需要开放,你需要确保世界顶尖大学能够访问你的模型,并在其基础上添加功能。”
LTXV 具备实时处理、长视频可扩展性和紧凑的架构,即使在消费级硬件上也能高效运行,有望将专业级的生成式视频技术普及到更广泛的受众,这将有可能颠覆行业的现状。
我们使用 LTXV 生成了一段时尚场景。该模型在四秒内生成了这段电影般的画面,展现了一位都市女性,画面中光线一致,表面反光,具有专业级的电影质感。(图片来源:Lightricks/VentureBeat)
Lightricks 将 LTXV 开源是一个经过深思熟虑的策略,旨在在一个日益拥挤的生成式 AI 市场中脱颖而出。该模型拥有 20 亿个参数,旨在高效运行在广泛使用的 GPU 上,例如 NVIDIA RTX 4090,同时保持高视觉保真度和运动一致性。
此举正值 OpenAI 的 DALL-E 和 Google 的 Imagen 等许多领先的 AI 模型被锁定在 API 后面,开发者需要付费才能访问。相比之下,Lightricks 押注于开放性将促进创新和采用。
Farbman 将 LTXV 的发布比作 Meta 发布其开源 Llama 语言模型,该模型在 AI 社区迅速获得关注,帮助 Meta 在 OpenAI 的 ChatGPT 主导的领域站稳脚跟。“商业逻辑是,如果社区采用它,如果学术界采用它,我们作为一家公司将从中受益匪浅,”Farbman 说。
与 Meta 控制其模型运行的基础设施不同,Lightricks 仅专注于模型本身,与 Hugging Face 等平台合作使其可访问。“目前我们不会从这个模型中赚钱,”Farbman 强调说。“有些人会在自己的硬件上本地部署它,比如游戏 PC。关键在于普及。”
我们使用 Lightricks 的新 LTXV 视频模型测试了一个关于老式 IBM PC 的简单提示。这是 AI 在短短四秒内生成的画面。(图片来源:Lightricks / VentureBeat)
LTXV 最突出的特点是速度。该模型可以在 NVIDIA 的 H100 GPU 上仅用四秒生成五秒的视频,即 768×512 分辨率下的 121 帧。即使在消费级硬件上,例如 RTX 4090,LTXV 也能提供近乎实时的性能,使其成为同类模型中最快的之一。
这种速度的实现并没有牺牲质量。该模型的 Diffusion Transformer 架构确保了帧与帧之间平滑的运动和结构一致性,解决了早期视频生成模型的关键局限性。对于小型工作室、独立创作者和研究人员来说,能够快速迭代并在经济实惠的硬件上生成高质量结果是一个游戏规则的改变者。
“当你需要等待几分钟才能得到结果时,用户体验非常糟糕,”Farbman 说。“但一旦你能够快速获得反馈,你就可以更快地进行实验和迭代。你就会对系统能做什么有一个心理模型,这将释放创造力。”
Lightricks 还设计了 LTXV 来支持长视频制作,为创作者提供更大的灵活性和控制力。这种可扩展性,加上其快速的处理速度,为从游戏到电子商务等各个行业打开了新的可能性。
例如,在游戏中,LTXV 可以用来提升旧游戏的画面,将它们转变为视觉上令人惊叹的体验。在电子商务中,该模型的速度和效率可以使企业为目标受众创建数千个广告变体,进行 A/B 测试。
“想象一下,你可以为演员(真实或虚拟)进行选角,并实时调整视觉效果,找到最适合特定受众的创意,”Farbman 说。
凭借 LTXV,Lightricks 正将自己定位为一个颠覆者,在一个日益被少数科技巨头主导的行业中。对于一家起初是移动应用制造商,以 Facetune(一款风靡全球的消费者照片编辑应用)而闻名的公司来说,这是一个大胆的举动。
Lightricks 已经扩展了其产品,收购了芝加哥的网红营销平台 Popular Pays,并推出了 LTX Studio,一个面向专业创作者的 AI 驱动型故事创作平台。预计 LTXV 将整合到 LTX Studio 中,增强该平台的功能,使用户能够以更快的速度和更高的精度生成更长、更动态的视频。
但 Lightricks 面临着巨大的挑战。与 Adobe 和 Autodesk 等拥有更深厚资金和成熟用户群的行业巨头竞争并非易事。例如,Adobe 已经在其 Creative Cloud 套件中集成了生成式 AI,使其在专业用户中具有天然优势。
Farbman 承认风险,但他认为开源创新是小型玩家唯一可行的前进道路。“如果你想在与巨头的竞争中有一线生机,你需要确保技术是开放的,并被学术界和更广泛的社区所采用,”他说。
LTXV 的发布也突出了 AI 行业中开源和专有方法之间日益加剧的紧张局势。虽然封闭模型为公司提供了更严格的控制和盈利机会,但它们也可能疏远了无法访问尖端工具的开发者和研究人员。
“目前正在发生的事情的一部分是,扩散模型正在成为计算机图形学中经典方法的替代范式,”Farbman 解释说。“但如果你真的想构建替代方案,API 绝对不够。你需要让人们——学术界、行业、爱好者——拥有模型来进行修补,并创造出令人惊叹的新想法。”
Lightricks 计划在 GitHub 和 Hugging Face 上发布 LTXV,首先进行“社区预览”阶段,以进行测试和反馈。该模型最终将根据 OpenRAIL 许可证发布,确保衍生作品可以用于学术和商业用途。
对于 Lightricks 来说,赌注很高。该公司不仅押注于 LTXV 的成功,还押注于开放式 AI 模型在日益被封闭生态系统主导的领域中的广泛采用。
“开放式模型的未来一片光明,”Farbman 满怀信心地说。
这种愿景是否能够实现还有待观察。但通过免费提供其最先进的技术,Lightricks 发出了一个明确的信息:在定义 AI 视频未来的竞赛中,开放性和协作可能是最终的竞争优势。