前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI 前沿技术

蚂蚁金服Ming-UniVision模型:告别繁琐,一体化实现图像理解、生成与编辑

NEXTECH
Last updated: 2025年10月4日 下午12:58
By NEXTECH
Share
7 Min Read
SHARE

在传统的视觉模型中,图像理解与生成、编辑功能往往分离,例如在Qwen模型中,用户可能需要切换不同的模型来完成多项任务,显得较为繁琐。现在,蚂蚁金服开源的Ming-UniVision模型提供了一体化解决方案,将所有功能整合到一个模型中。这款Ming-UniVision-16B-A3B模型,拥有16B参数规模和3B激活,预计将提供快速的运行体验。

Contents
技术亮点开源信息

Ming-UniVision模型首次在连续统一表示空间中实现了图像理解与生成的原生融合,并同步开源了配套的统一连续视觉标记器MingTok。这意味着该模型不仅支持看图说话、文生图、图修图等基础功能,还能进行更深入的图像推理。

Ming-UniVision模型案例

图像生成示例

Ming-UniVision图像生成示例

在可视化推理过程中,例如将人物变为笑脸,模型会首先推理并定位到需要编辑的嘴部区域,然后对相应部位进行编辑。

Ming-UniVision可视化推理过程示例

You Might Also Like

腾讯优图开源Youtu-Embedding语义模型,加速企业级RAG落地与风险降低
构建AI原生应用:从大模型到知识中台,数据与规则逻辑,探究模型、知识、价值原生及与AI赋能的差异
RAG知识库数据“喂”对了吗?Dify分段策略深度解析,告别无效召回
DeepSeek开源OCR模型:视觉Token压缩文本,重塑AI长文本处理效率与成本

其图像编辑功能能够在保持图像整体一致性的同时,对特定部位进行精准编辑。

Ming-UniVision图像编辑功能示例1Ming-UniVision图像编辑功能示例2

技术亮点

1. 统一空间:加速训练效率

Ming-UniVision通过减轻视觉与绘画之间的“表征竞争”,显著提升了文本到图像任务的收敛速度,实现了超过3.5倍的加速。这意味着在相同的性能下,模型所需计算资源更少。

Ming-UniVision统一空间训练速度对比图

2. 多轮互动:实现无缝视觉对话

传统的视觉模型在每次编辑时,常陷入耗时的“潜在空间→像素空间→特征空间”循环。而Ming-UniVision则实现了直接的“特征空间→特征空间”循环。这一突破带来了无缝且有状态的视觉对话体验,用户可以在高保真环境中进行生成、编辑、再生成的连贯操作。

Ming-UniVision多轮互动工作流程图

开源信息

欢迎开发者探索代码,尝试模型,并积极参与社区共建!

GitHub:

https://github.com/inclusionAI/Ming-UniVision

HuggingFace:

  • MingTok Tokenizer:

https://huggingface.co/inclusionAI/MingTok

  • VisionMing-UniVision:

https://huggingface.co/inclusionAI/Ming-UniVision-16B-A3B

TAGGED:AI前沿技术图像生成图像编辑多模态模型开源大模型
Share This Article
Email Copy Link Print
Previous Article 吴泳铭在云栖大会上发表主旨演讲 阿里云ASI战略深度解读:在AGI不确定中,探析其通用人工智能与云计算布局
Next Article Andrej Karpathy 强调上下文工程重要性的推文 Anthropic发布AI Agent上下文工程指南:重要性及与提示词工程的区别
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251202135921634.jpg
英伟达20亿美元投资新思科技,AI芯片设计革命加速
科技
20251202130505639.jpg
乌克兰国家AI模型选定谷歌Gemma,打造主权人工智能
科技
20251202121525971.jpg
中国开源AI新突破:DeepSeek V3.2模型性能比肩GPT-5
科技
20251202112744609.jpg
马斯克预言:AI三年内解决美国债务危机,可信吗?
科技

相关内容

零一万物CEO李开复博士在GOTC峰会发表演讲
AI 前沿技术

零一万物联合开源中国推出OAK平台:构建Agent世界的基础设施

2025年11月2日
ChatGPT 营销应用图示
AI 前沿技术

OpenAI 营销提示词第二弹:AI驱动营销活动策略与内容工具指南

2025年10月8日
RAKG创新点示意图
AI 前沿技术

文档级知识图谱:RAKG与GraphRAG深度对比,揭秘性能突破与创新框架

2025年10月20日
SEAL框架通过片段生成完整文章并评估示例
AI 前沿技术

ChatGPT6:揭秘大模型自主进化机制与SEAL框架的突破

2025年10月17日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up