AI 前沿技术

蚂蚁金服Ming-UniVision模型：告别繁琐，一体化实现图像理解、生成与编辑

Last updated: 2025年10月4日下午12:58

By NEXTECH

7 Min Read

在传统的视觉模型中，图像理解与生成、编辑功能往往分离，例如在Qwen模型中，用户可能需要切换不同的模型来完成多项任务，显得较为繁琐。现在，蚂蚁金服开源的Ming-UniVision模型提供了一体化解决方案，将所有功能整合到一个模型中。这款Ming-UniVision-16B-A3B模型，拥有16B参数规模和3B激活，预计将提供快速的运行体验。

Contents

技术亮点开源信息

Ming-UniVision模型首次在连续统一表示空间中实现了图像理解与生成的原生融合，并同步开源了配套的统一连续视觉标记器MingTok。这意味着该模型不仅支持看图说话、文生图、图修图等基础功能，还能进行更深入的图像推理。

Ming-UniVision模型案例

图像生成示例

Ming-UniVision图像生成示例

在可视化推理过程中，例如将人物变为笑脸，模型会首先推理并定位到需要编辑的嘴部区域，然后对相应部位进行编辑。

Ming-UniVision可视化推理过程示例

其图像编辑功能能够在保持图像整体一致性的同时，对特定部位进行精准编辑。

Ming-UniVision图像编辑功能示例1 Ming-UniVision图像编辑功能示例2

技术亮点

1. 统一空间：加速训练效率

Ming-UniVision通过减轻视觉与绘画之间的“表征竞争”，显著提升了文本到图像任务的收敛速度，实现了超过3.5倍的加速。这意味着在相同的性能下，模型所需计算资源更少。

Ming-UniVision统一空间训练速度对比图

2. 多轮互动：实现无缝视觉对话

传统的视觉模型在每次编辑时，常陷入耗时的“潜在空间→像素空间→特征空间”循环。而Ming-UniVision则实现了直接的“特征空间→特征空间”循环。这一突破带来了无缝且有状态的视觉对话体验，用户可以在高保真环境中进行生成、编辑、再生成的连贯操作。

Ming-UniVision多轮互动工作流程图

开源信息

欢迎开发者探索代码，尝试模型，并积极参与社区共建！

GitHub：

https://github.com/inclusionAI/Ming-UniVision

HuggingFace：

MingTok Tokenizer：

https://huggingface.co/inclusionAI/MingTok

VisionMing-UniVision:

https://huggingface.co/inclusionAI/Ming-UniVision-16B-A3B

TAGGED:AI前沿技术图像生成图像编辑多模态模型开源大模型

Share This Article

Previous Article

吴泳铭在云栖大会上发表主旨演讲

阿里云ASI战略深度解读：在AGI不确定中，探析其通用人工智能与云计算布局

Andrej Karpathy 强调上下文工程重要性的推文

Anthropic发布AI Agent上下文工程指南：重要性及与提示词工程的区别

Leave a Comment

发表回复取消回复