前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

DeepSeek Janus-Pro-7B 模型超越 DALL-E 3 和 Stable Diffusion

初创2025年3月15日· 5 分钟阅读9 阅读

DeepSeek 再下一城:Janus-Pro-7B 多模态模型超越 DALL-E 3 和 Stable Di […]

DeepSeek 再下一城:Janus-Pro-7B 多模态模型超越 DALL-E 3 和 Stable Diffusion

DeepSeek 正在迅速成为人工智能领域的领头羊。继其备受瞩目的 R1 模型之后,这家中国人工智能初创公司又发布了另一款开源人工智能模型:Janus-Pro-7B。这款多模态模型能够生成图像,在 GenEval 和 DPG-Bench 基准测试中超越了 OpenAI 的 DALL-E 3 和 Stable Diffusion,这无疑是人工智能领域的一项重大突破。

DeepSeek 将 Janus-Pro 描述为一个创新的自回归框架,它集成了多模态理解和生成能力。与之前的模型相比,Janus-Pro 通过将视觉编码分离成不同的路径来克服了它们的局限性,但仍然依赖于单个统一的 Transformer 架构进行处理。

“Janus-Pro 是一款统一的理解和生成 MLLM,它将视觉编码解耦,用于多模态理解和生成。Janus-Pro 基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建。” DeepSeek 在其发布页面上写道。

这种解耦方法不仅解决了视觉编码器在理解和生成方面的角色冲突,而且还提高了模型的灵活性。Janus-Pro 的性能超越了之前的统一模型,甚至与特定任务模型相媲美,甚至在某些方面还超越了它们。凭借其简洁性、灵活性以及有效性,Janus-Pro 成为下一代多模态模型的领先竞争者。

Janus-Pro 基于 DeepSeek 的 LLM 架构(DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base)构建,是一个统一的多模态学习模型 (MLLM),它将视觉编码分离用于理解和生成。对于多模态理解,它利用 SigLIP-L 视觉编码器,能够处理 384 x 384 像素的图像输入。对于图像生成,Janus-Pro 使用一个专门的标记器,其降采样率为 16。

Janus-Pro 采用 MIT 许可证授权,其使用受 DeepSeek 模型许可证的约束。

就在上周,DeepSeek 推出了 DeepSeek-R1,这款推理模型被定位为 OpenAI 的 o1 模型的强劲替代品。这款开源选项因其价格实惠以及在关键基准测试中的出色表现而受到开发人员的青睐。

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

AI 交互的范式转变:从"回合制"到"实时协作"
TOP1

AI 交互的范式转变:从"回合制"到"实时协作"

回敬 Codex,Claude Code 推出 /goal 功能,不干完不睡觉
TOP2

回敬 Codex,Claude Code 推出 /goal 功能,不干完不睡觉

3

Claude Opus 4.7刚刚曝光!Claude Code一夜重构,7x24小时替你打工

11小时前
Claude Opus 4.7刚刚曝光!Claude Code一夜重构,7x24小时替你打工
4

XGBoost预测急诊量:数据驱动的排班决策

10小时前
XGBoost预测急诊量:数据驱动的排班决策
5

RAG又进化了!微软整了个企业级AgenticRAG

11小时前
RAG又进化了!微软整了个企业级AgenticRAG
6

对话OpenClacky李亚飞:把Harness做透,Token账单就不是问题了

11小时前
对话OpenClacky李亚飞:把Harness做透,Token账单就不是问题了
7

再也不用盯着几十个终端窗口!Claude Code推出Agent视图,一屏管所有

11小时前
再也不用盯着几十个终端窗口!Claude Code推出Agent视图,一屏管所有
8

到底是谁会相信RAG已死啊?

11小时前
到底是谁会相信RAG已死啊?
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款