前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI 前沿技术

蚂蚁金服Ming-UniVision模型:告别繁琐,一体化实现图像理解、生成与编辑

NEXTECH
Last updated: 2025年10月4日 下午12:58
By NEXTECH
Share
7 Min Read
SHARE

在传统的视觉模型中,图像理解与生成、编辑功能往往分离,例如在Qwen模型中,用户可能需要切换不同的模型来完成多项任务,显得较为繁琐。现在,蚂蚁金服开源的Ming-UniVision模型提供了一体化解决方案,将所有功能整合到一个模型中。这款Ming-UniVision-16B-A3B模型,拥有16B参数规模和3B激活,预计将提供快速的运行体验。

Contents
技术亮点开源信息

Ming-UniVision模型首次在连续统一表示空间中实现了图像理解与生成的原生融合,并同步开源了配套的统一连续视觉标记器MingTok。这意味着该模型不仅支持看图说话、文生图、图修图等基础功能,还能进行更深入的图像推理。

Ming-UniVision模型案例

图像生成示例

Ming-UniVision图像生成示例

在可视化推理过程中,例如将人物变为笑脸,模型会首先推理并定位到需要编辑的嘴部区域,然后对相应部位进行编辑。

Ming-UniVision可视化推理过程示例

You Might Also Like

OpenAI DevDay 2025:重塑AI开发生态的技术盛宴,多项重磅产品及工具发布
OpenAI DevDay 2025重磅发布:ChatGPT Apps、AgentKit与新一代大模型API详解
火山引擎AICC机密计算重磅升级:开源Trusted MCP,实现全链路安全
Zero-RAG:告别冗余知识,提升大模型效率与效果的创新技术解析

其图像编辑功能能够在保持图像整体一致性的同时,对特定部位进行精准编辑。

Ming-UniVision图像编辑功能示例1Ming-UniVision图像编辑功能示例2

技术亮点

1. 统一空间:加速训练效率

Ming-UniVision通过减轻视觉与绘画之间的“表征竞争”,显著提升了文本到图像任务的收敛速度,实现了超过3.5倍的加速。这意味着在相同的性能下,模型所需计算资源更少。

Ming-UniVision统一空间训练速度对比图

2. 多轮互动:实现无缝视觉对话

传统的视觉模型在每次编辑时,常陷入耗时的“潜在空间→像素空间→特征空间”循环。而Ming-UniVision则实现了直接的“特征空间→特征空间”循环。这一突破带来了无缝且有状态的视觉对话体验,用户可以在高保真环境中进行生成、编辑、再生成的连贯操作。

Ming-UniVision多轮互动工作流程图

开源信息

欢迎开发者探索代码,尝试模型,并积极参与社区共建!

GitHub:

https://github.com/inclusionAI/Ming-UniVision

HuggingFace:

  • MingTok Tokenizer:

https://huggingface.co/inclusionAI/MingTok

  • VisionMing-UniVision:

https://huggingface.co/inclusionAI/Ming-UniVision-16B-A3B

TAGGED:AI前沿技术图像生成图像编辑多模态模型开源大模型
Share This Article
Email Copy Link Print
Previous Article 吴泳铭在云栖大会上发表主旨演讲 阿里云ASI战略深度解读:在AGI不确定中,探析其通用人工智能与云计算布局
Next Article Andrej Karpathy 强调上下文工程重要性的推文 Anthropic发布AI Agent上下文工程指南:重要性及与提示词工程的区别
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
Installer 第108期封面
传奇游戏重磅回归:科技与流媒体时代的经典复兴
科技
2026年AI模型必备:四大顶尖网页抓取API深度评测与选型指南
大模型与工程化
星链设备在弗吉尼亚州乡村的户外场景
星链让我在任何地方都能“居家办公”——如今,我渴望改变
科技
谷歌眼镜产品图
谷歌眼镜的功与过:一场超前13年的科技预言与争议
科技

相关内容

Embedding空间示意图
AI 前沿技术

什么是 Embedding?万物皆可Embedding:定义、作用与核心应用场景解析

2025年10月4日
ChatGPT调用Zillow搜索公寓示例
AI 前沿技术

Apps inside ChatGPT:OpenAI从模型卖家到平台帝国的跃迁与影响

2025年10月8日
有效提示词工程的重要性示意图
AI 前沿技术

AI效率提升10倍的秘密:掌握提示词工程“提问公式”,让AI成为你的高效同事

2025年10月13日
ChatPPT MCP 2.0本地Stdio模式
AI 前沿技术

ChatPPT与魔搭社区合作,MCP 2.0重磅升级:全链路智能体服务及多模式开源

2025年11月7日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up