蚂蚁集团开源多模态AI模型，性能超越Gemini 2.5

技术2026年2月12日· 3 分钟阅读3 阅读

蚂蚁集团发布开源多模态大模型Ming-Flash-Omni 2.0，号称首个统一音频生成系统，能在单音轨中同时生成语音、音效和音乐。该模型在多项基准测试中优于谷歌Gemini 2.5 Pro，成为开源多模态模型的新标杆，现已开放权重和代码。

蚂蚁集团周二发布了Ming-Flash-Omni 2.0，这是一款开源多模态大模型，该公司称其为首个统一的音频生成系统，能够在单个音轨中同时生成语音、环境音效和音乐。

这家中国金融科技巨头表示，该模型在视觉语言理解、语音控制生成以及图像生成和编辑能力等多项基准测试指标上优于谷歌的Gemini 2.5 Pro，使其成为开源多模态模型中的新性能标杆。

蚂蚁开源多模态大模型Ming-Flash-Omni 2.0

统一音频生成

Ming-Flash-Omni 2.0引入了蚂蚁集团称之为业界首创的统一音频生成功能，允许用户通过自然语言指令控制音色、语速、语调、音量、情感和方言等语音参数。该模型实现了3.1Hz的推理帧率，能够实时生成分钟级的高保真音频，同时保持成本效益。

该系统还支持零样本语音克隆和定制功能，满足了个性化音频内容创作日益增长的需求。

架构与性能

该模型基于灵-2.0架构构建，采用混合专家（Mixture-of-Experts）设计，拥有1000亿总参数量和每个token 61亿活跃参数，围绕三个目标进行优化：改进视觉识别、更精确的音频处理以及更稳定的生成能力。稀疏MoE结构使开发者能够在单一框架内访问视觉、语音和生成能力，降低了传统多模型方法的工程复杂度。

蚂蚁集团百灵模型团队负责人周骏表示，多模态技术的关键在于通过统一架构实现深度融合。“开源后，开发者可以基于同一框架复用视觉、语音和生成能力，大幅降低多模型集成的复杂度和成本，”周骏说道。