
为应对谷歌在人工智能领域的强劲攻势,OpenAI于本周二正式发布了GPT Image 1.5。这一重大升级显著提升了其图像生成能力,新模型生成速度最高可达前代的四倍,指令遵循能力增强,并具备精确的编辑功能,能够在修改过程中保持视觉一致性。
此次发布标志着OpenAI对首席执行官萨姆·奥尔特曼近期所称的“红色警报”状况的最新回应。在上个月的一份内部备忘录中,奥尔特曼向员工发出警告,指出在谷歌成功推出Gemini 3及其广受欢迎的Nano Banana Pro图像生成器后,公司正面临“暂时的经济逆风”。据悉,谷歌Gemini产品在十月份已凭借这些创新推动月活用户数达到6.5亿。
缩小功能差距
ChatGPT Images现已包含一个专用的侧边栏标签页,提供预设滤镜和热门提示词,将界面转变为一个“更像创意工作室”的平台,正如OpenAI应用部门首席执行官菲吉·西莫所描述的那样。该模型在图像中改进了文本渲染能力——这是AI生成器长期面临的挑战——并在用户请求特定编辑时,能更好地保持面部特征、光线和构图。
西莫在周二的博客文章中写道:“对许多人而言,初次接触ChatGPT的体验就是将文本提示词转化为图像。最初的聊天界面并非为此目的设计。创作和修改图像代表着一类独特的任务,理应拥有一个为视觉内容量身定制的空间。”
此次发布紧随OpenAI于12月13日推出的GPT-5.2,据报道,后者的发布因竞争压力而加速。公司原计划于一月初推出此图像模型。此外,OpenAI上周还宣布与迪士尼达成一项价值10亿美元的合作协议,允许用户从2026年初开始,生成包含超过200个迪士尼、漫威、皮克斯和星球大战角色的图像和视频。
图像生成领域的高风险博弈
这一发布时机反映了AI图像生成领域日益激烈的竞争。谷歌的Nano Banana Pro因其媲美工作室品质的输出效果和自然的文本渲染而广受赞誉。该技术也已集成到Adobe Firefly中,使其既成为传统创意软件的竞争者,也构成了潜在威胁。
ChatGPT目前仍保持显著领先优势,拥有8亿周活跃用户,而Gemini的月活跃用户为6.5亿。然而,谷歌近期的强劲势头以及在LMArena基准测试上的主导地位,促使OpenAI加快了产品发布节奏。GPT Image 1.5现已面向全球所有ChatGPT用户及通过API开放使用。
