DeepSeek Janus-Pro-7B 模型超越 DALL-E 3 和 Stable Diffusion

DeepSeek 再下一城：Janus-Pro-7B 多模态模型超越 DALL-E 3 和 Stable Diffusion

DeepSeek 正在迅速成为人工智能领域的领头羊。继其备受瞩目的 R1 模型之后，这家中国人工智能初创公司又发布了另一款开源人工智能模型：Janus-Pro-7B。这款多模态模型能够生成图像，在 GenEval 和 DPG-Bench 基准测试中超越了 OpenAI 的 DALL-E 3 和 Stable Diffusion，这无疑是人工智能领域的一项重大突破。

DeepSeek 将 Janus-Pro 描述为一个创新的自回归框架，它集成了多模态理解和生成能力。与之前的模型相比，Janus-Pro 通过将视觉编码分离成不同的路径来克服了它们的局限性，但仍然依赖于单个统一的 Transformer 架构进行处理。

“Janus-Pro 是一款统一的理解和生成 MLLM，它将视觉编码解耦，用于多模态理解和生成。Janus-Pro 基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建。” DeepSeek 在其发布页面上写道。

这种解耦方法不仅解决了视觉编码器在理解和生成方面的角色冲突，而且还提高了模型的灵活性。Janus-Pro 的性能超越了之前的统一模型，甚至与特定任务模型相媲美，甚至在某些方面还超越了它们。凭借其简洁性、灵活性以及有效性，Janus-Pro 成为下一代多模态模型的领先竞争者。

Janus-Pro 基于 DeepSeek 的 LLM 架构（DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base）构建，是一个统一的多模态学习模型 (MLLM)，它将视觉编码分离用于理解和生成。对于多模态理解，它利用 SigLIP-L 视觉编码器，能够处理 384 x 384 像素的图像输入。对于图像生成，Janus-Pro 使用一个专门的标记器，其降采样率为 16。

Janus-Pro 采用 MIT 许可证授权，其使用受 DeepSeek 模型许可证的约束。

就在上周，DeepSeek 推出了 DeepSeek-R1，这款推理模型被定位为 OpenAI 的 o1 模型的强劲替代品。这款开源选项因其价格实惠以及在关键基准测试中的出色表现而受到开发人员的青睐。

DeepSeek Janus-Pro-7B 模型超越 DALL-E 3 和 Stable Diffusion

发表回复取消回复

最新内容

《亚洲水发展展望2025》深度解读：亚太水安全喜忧参半，未来挑战何在？

谷歌支付6800万美元和解语音助手监听诉讼，你的隐私可能被“误触发”录音

甲骨文豪掷500亿美元押注AI基建，美国数据中心版图加速扩张

OpenAI总裁豪掷2500万美元支持特朗普，科技巨头与政坛的深度捆绑引关注

相关内容

意大利储能初创公司Reefilla获450万欧元融资，启动股权众筹

Floki 宣布与 OG Esports 合作推出 Valhalla Metaverse 游戏

Kwenta 和 Perennial 以 190 万 ARB 启动 Arbitrum 扩展

世界人工智能大会召开马上消费与全球专家分享金融AI治理经验

分类

快速链接

You Might Also Like

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复