前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI 前沿技术

蚂蚁金服Ming-UniVision模型:告别繁琐,一体化实现图像理解、生成与编辑

NEXTECH
Last updated: 2025年10月4日 下午12:58
By NEXTECH
Share
7 Min Read
SHARE

在传统的视觉模型中,图像理解与生成、编辑功能往往分离,例如在Qwen模型中,用户可能需要切换不同的模型来完成多项任务,显得较为繁琐。现在,蚂蚁金服开源的Ming-UniVision模型提供了一体化解决方案,将所有功能整合到一个模型中。这款Ming-UniVision-16B-A3B模型,拥有16B参数规模和3B激活,预计将提供快速的运行体验。

Contents
技术亮点开源信息

Ming-UniVision模型首次在连续统一表示空间中实现了图像理解与生成的原生融合,并同步开源了配套的统一连续视觉标记器MingTok。这意味着该模型不仅支持看图说话、文生图、图修图等基础功能,还能进行更深入的图像推理。

Ming-UniVision模型案例

图像生成示例

Ming-UniVision图像生成示例

在可视化推理过程中,例如将人物变为笑脸,模型会首先推理并定位到需要编辑的嘴部区域,然后对相应部位进行编辑。

Ming-UniVision可视化推理过程示例

You Might Also Like

OpenAI ChatGPT群聊功能曝光:剑指Slack,获取企业对话数据
Claude Skills功能深度解析:Agent Skills开发指南与工作原理
OCR王者争霸:MinerU、PaddleOCR、DeepSeek-OCR 实测对比与多模态PDF解析系统集成
OpenAI DevDay 2025:重塑AI开发生态的技术盛宴,多项重磅产品及工具发布

其图像编辑功能能够在保持图像整体一致性的同时,对特定部位进行精准编辑。

Ming-UniVision图像编辑功能示例1Ming-UniVision图像编辑功能示例2

技术亮点

1. 统一空间:加速训练效率

Ming-UniVision通过减轻视觉与绘画之间的“表征竞争”,显著提升了文本到图像任务的收敛速度,实现了超过3.5倍的加速。这意味着在相同的性能下,模型所需计算资源更少。

Ming-UniVision统一空间训练速度对比图

2. 多轮互动:实现无缝视觉对话

传统的视觉模型在每次编辑时,常陷入耗时的“潜在空间→像素空间→特征空间”循环。而Ming-UniVision则实现了直接的“特征空间→特征空间”循环。这一突破带来了无缝且有状态的视觉对话体验,用户可以在高保真环境中进行生成、编辑、再生成的连贯操作。

Ming-UniVision多轮互动工作流程图

开源信息

欢迎开发者探索代码,尝试模型,并积极参与社区共建!

GitHub:

https://github.com/inclusionAI/Ming-UniVision

HuggingFace:

  • MingTok Tokenizer:

https://huggingface.co/inclusionAI/MingTok

  • VisionMing-UniVision:

https://huggingface.co/inclusionAI/Ming-UniVision-16B-A3B

TAGGED:AI前沿技术图像生成图像编辑多模态模型开源大模型
Share This Article
Email Copy Link Print
Previous Article 吴泳铭在云栖大会上发表主旨演讲 阿里云ASI战略深度解读:在AGI不确定中,探析其通用人工智能与云计算布局
Next Article Andrej Karpathy 强调上下文工程重要性的推文 Anthropic发布AI Agent上下文工程指南:重要性及与提示词工程的区别
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
Installer 第108期封面
传奇游戏重磅回归:科技与流媒体时代的经典复兴
科技
2026年AI模型必备:四大顶尖网页抓取API深度评测与选型指南
大模型与工程化
星链设备在弗吉尼亚州乡村的户外场景
星链让我在任何地方都能“居家办公”——如今,我渴望改变
科技
谷歌眼镜产品图
谷歌眼镜的功与过:一场超前13年的科技预言与争议
科技

相关内容

奔跑人物定位输入图
AI 前沿技术

Qwen3-VL 30B-A3B 多模态大模型开源实测:轻量化与性能深度解析

2025年10月4日
CodeBuddy Code多模型集成界面
AI 前沿技术

腾讯版CodeBuddy实测:微信登录,畅用GPT5、Claude4、Gemini 2.5 Pro,构建本地AI画廊界面

2025年10月8日
上下文工程四大支柱示意图
AI 前沿技术

上下文工程深度解析:赋能AI Agent与大模型智能决策的关键

2025年10月8日
Google Chrome 开发者体验负责人 Addy Osmani
AI 前沿技术

谷歌Chrome负责人:揭秘Vibe Coding幻觉,AI仅能完成70%代码!未来开发者培养转向“三人编程”与AI辅助工程深度解析

2025年11月15日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up