DeepSeek 再下一城:Janus-Pro-7B 多模态模型超越 DALL-E 3 和 Stable Diffusion
DeepSeek 正在迅速成为人工智能领域的领头羊。继其备受瞩目的 R1 模型之后,这家中国人工智能初创公司又发布了另一款开源人工智能模型:Janus-Pro-7B。这款多模态模型能够生成图像,在 GenEval 和 DPG-Bench 基准测试中超越了 OpenAI 的 DALL-E 3 和 Stable Diffusion,这无疑是人工智能领域的一项重大突破。
DeepSeek 将 Janus-Pro 描述为一个创新的自回归框架,它集成了多模态理解和生成能力。与之前的模型相比,Janus-Pro 通过将视觉编码分离成不同的路径来克服了它们的局限性,但仍然依赖于单个统一的 Transformer 架构进行处理。
“Janus-Pro 是一款统一的理解和生成 MLLM,它将视觉编码解耦,用于多模态理解和生成。Janus-Pro 基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建。” DeepSeek 在其发布页面上写道。
这种解耦方法不仅解决了视觉编码器在理解和生成方面的角色冲突,而且还提高了模型的灵活性。Janus-Pro 的性能超越了之前的统一模型,甚至与特定任务模型相媲美,甚至在某些方面还超越了它们。凭借其简洁性、灵活性以及有效性,Janus-Pro 成为下一代多模态模型的领先竞争者。
Janus-Pro 基于 DeepSeek 的 LLM 架构(DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base)构建,是一个统一的多模态学习模型 (MLLM),它将视觉编码分离用于理解和生成。对于多模态理解,它利用 SigLIP-L 视觉编码器,能够处理 384 x 384 像素的图像输入。对于图像生成,Janus-Pro 使用一个专门的标记器,其降采样率为 16。
Janus-Pro 采用 MIT 许可证授权,其使用受 DeepSeek 模型许可证的约束。
就在上周,DeepSeek 推出了 DeepSeek-R1,这款推理模型被定位为 OpenAI 的 o1 模型的强劲替代品。这款开源选项因其价格实惠以及在关键基准测试中的出色表现而受到开发人员的青睐。