Google Veo 3.1 发布: 全解析
Google 深度学习模型Veo 3.1 近期正式发布。与Sora类似,Veo 3.1生成的视频也自带同步音频。该模型能够生成8秒长的720p和1080p高清视频。在内容质量、物理效果、真实感以及对提示词的遵循方面,均展现出卓越性能。音频与视频内容结合紧密,生成内容充满创意。
此外,本次升级还引入了三项创新功能:
- 视频扩展:允许用户基于现有视频继续生成后续内容。
- 首尾帧补间:用户提供起始帧和结束帧,模型将自动补全中间的过渡动画。
- 图片引导:支持上传最多三张参考图片,以确保生成视频中的角色或风格保持一致性。
这些功能均可通过Gemini API直接调用,用户也可通过Google AI Studio进行体验。
但在此之前,用户需先设置一个付费账户。
https://console.cloud.google.com/billing/create
三大新功能:实用性突出
视频扩展
例如,之前生成了一段8秒的滑翔伞起飞视频,现在可以直接指令模型继续生成:“让滑翔伞缓慢下降”。

模型将以上一段视频的最后1秒(24帧)为起点,继续生成后续内容。

首尾帧补间
用户提供两张图片,例如第一张为:一只姜黄色猫咪驾驶红色敞篷车,驰骋在法国里维埃拉海岸。

第二张为:车辆从悬崖上腾空而起。

模型将自动填充并生成两帧之间的过渡动画。

图片引导
用户最多可上传三张参考图片,用于:
- 展现角色的不同角度
- 提供产品的多个细节
- 作为风格的参考样本
模型将根据这些参考图,在生成的视频中保持相关元素的外观一致性。
例如,若首先上传一张深海安康鱼的图片,随后上传一套粉色公主裙的图片,并输入提示词:「制作一个搞笑卡通版的鱼,穿着服装游泳并挥舞魔杖」,
最终将生成一只身着公主裙的卡通安康鱼动画。

Google Veo 3.1 的当前限制
API独占:目前Veo 3.1仅支持通过API接口或Google AI Studio进行访问。
生成速度:最快可在11秒内完成生成,但在高峰期,生成时间可能延长至6分钟。
视频保留时限:生成的视频仅在服务器上保存两天,建议用户及时下载。
内容安全机制:所有生成视频均会经过安全过滤,违规提示词将被直接拦截,生成的视频将自动带有Google的AI内容标识SynthID水印。
音频生成问题:有时安全过滤机制可能会阻止视频生成,但此情况下不会产生费用。
总结与展望
Veo 3.1 本次集成了原生音频、视频扩展和帧控制等核心功能,并对生成速率进行了优化。值得关注的是,OpenAI接下来将如何应对并推出其新一代视频生成技术。
