前途科技前途科技
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 洞察
    • 政策
    • 初创
  • 研究资源
    • 案例研究
    • 报告
    • 工具推荐
    • 术语词典
  • 服务
  • 关于
联系我们

蚂蚁集团开源多模态AI模型,性能超越Gemini 2.5

技术2026年2月12日· 3 分钟阅读3 阅读

蚂蚁集团发布开源多模态大模型Ming-Flash-Omni 2.0,号称首个统一音频生成系统,能在单音轨中同时生成语音、音效和音乐。该模型在多项基准测试中优于谷歌Gemini 2.5 Pro,成为开源多模态模型的新标杆,现已开放权重和代码。

蚂蚁集团周二发布了Ming-Flash-Omni 2.0,这是一款开源多模态大模型,该公司称其为首个统一的音频生成系统,能够在单个音轨中同时生成语音、环境音效和音乐。

这家中国金融科技巨头表示,该模型在视觉语言理解、语音控制生成以及图像生成和编辑能力等多项基准测试指标上优于谷歌的Gemini 2.5 Pro,使其成为开源多模态模型中的新性能标杆。

蚂蚁开源多模态大模型Ming-Flash-Omni 2.0

统一音频生成

Ming-Flash-Omni 2.0引入了蚂蚁集团称之为业界首创的统一音频生成功能,允许用户通过自然语言指令控制音色、语速、语调、音量、情感和方言等语音参数。该模型实现了3.1Hz的推理帧率,能够实时生成分钟级的高保真音频,同时保持成本效益。

该系统还支持零样本语音克隆和定制功能,满足了个性化音频内容创作日益增长的需求。

架构与性能

该模型基于灵-2.0架构构建,采用混合专家(Mixture-of-Experts)设计,拥有1000亿总参数量和每个token 61亿活跃参数,围绕三个目标进行优化:改进视觉识别、更精确的音频处理以及更稳定的生成能力。稀疏MoE结构使开发者能够在单一框架内访问视觉、语音和生成能力,降低了传统多模型方法的工程复杂度。

蚂蚁集团百灵模型团队负责人周骏表示,多模态技术的关键在于通过统一架构实现深度融合。“开源后,开发者可以基于同一框架复用视觉、语音和生成能力,大幅降低多模型集成的复杂度和成本,”周骏说道。

可用性与背景

模型权重和推理代码现已在Hugging Face和蚂蚁的灵积(Ling Studio)平台上发布。此次发布标志着蚂蚁集团Ming-Omni系列的第三次重大迭代,该系列是蚂蚁集团多年来在通用人工智能(AGI)领域布局的一部分。

标签:蚂蚁集团多模态AI开源模型Gemini 2.5

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

Waymo与特斯拉出席参议院听证会,自动驾驶安全成焦点
TOP1

Waymo与特斯拉出席参议院听证会,自动驾驶安全成焦点

英伟达H200对华销售陷僵局,中美审批双重卡壳
TOP2

英伟达H200对华销售陷僵局,中美审批双重卡壳

3

阿联酋联手Colossal打造基因“诺亚方舟”

21小时前
阿联酋联手Colossal打造基因“诺亚方舟”
4

马斯克 xAI 招聘加密货币专家,拓展 AI 金融能力

22小时前
马斯克 xAI 招聘加密货币专家,拓展 AI 金融能力
5

微软推出AI内容授权市场,为出版商与开发者搭建桥梁

22小时前
微软推出AI内容授权市场,为出版商与开发者搭建桥梁
6

Adobe股价跌至52周新低,AI颠覆担忧加剧

3小时前
Adobe股价跌至52周新低,AI颠覆担忧加剧
7

美国联邦政府及35州上诉谷歌反垄断裁决,寻求更严厉处罚

10小时前
美国联邦政府及35州上诉谷歌反垄断裁决,寻求更严厉处罚
8

Anthropic 报告:Claude Opus 4.6 在测试中协助武器研究

22小时前
Anthropic 报告:Claude Opus 4.6 在测试中协助武器研究
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号