蚂蚁集团开源多模态AI模型,性能超越Gemini 2.5
技术· 3 分钟阅读3 阅读
蚂蚁集团发布开源多模态大模型Ming-Flash-Omni 2.0,号称首个统一音频生成系统,能在单音轨中同时生成语音、音效和音乐。该模型在多项基准测试中优于谷歌Gemini 2.5 Pro,成为开源多模态模型的新标杆,现已开放权重和代码。
蚂蚁集团周二发布了Ming-Flash-Omni 2.0,这是一款开源多模态大模型,该公司称其为首个统一的音频生成系统,能够在单个音轨中同时生成语音、环境音效和音乐。
这家中国金融科技巨头表示,该模型在视觉语言理解、语音控制生成以及图像生成和编辑能力等多项基准测试指标上优于谷歌的Gemini 2.5 Pro,使其成为开源多模态模型中的新性能标杆。

统一音频生成
Ming-Flash-Omni 2.0引入了蚂蚁集团称之为业界首创的统一音频生成功能,允许用户通过自然语言指令控制音色、语速、语调、音量、情感和方言等语音参数。该模型实现了3.1Hz的推理帧率,能够实时生成分钟级的高保真音频,同时保持成本效益。
该系统还支持零样本语音克隆和定制功能,满足了个性化音频内容创作日益增长的需求。
架构与性能
该模型基于灵-2.0架构构建,采用混合专家(Mixture-of-Experts)设计,拥有1000亿总参数量和每个token 61亿活跃参数,围绕三个目标进行优化:改进视觉识别、更精确的音频处理以及更稳定的生成能力。稀疏MoE结构使开发者能够在单一框架内访问视觉、语音和生成能力,降低了传统多模型方法的工程复杂度。
蚂蚁集团百灵模型团队负责人周骏表示,多模态技术的关键在于通过统一架构实现深度融合。“开源后,开发者可以基于同一框架复用视觉、语音和生成能力,大幅降低多模型集成的复杂度和成本,”周骏说道。
可用性与背景
模型权重和推理代码现已在Hugging Face和蚂蚁的灵积(Ling Studio)平台上发布。此次发布标志着蚂蚁集团Ming-Omni系列的第三次重大迭代,该系列是蚂蚁集团多年来在通用人工智能(AGI)领域布局的一部分。
想了解 AI 如何助力您的企业?
免费获取企业 AI 成熟度诊断报告,发现转型机会
//
24小时热榜
免费获取 AI 落地指南
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断

