随着 MM1 的悄然推出,Apple 进军人工智能领域迈出了重大一步,MM1 是一系列开创性的多模式大语言模型 (LLM)。在最近的一篇论文中,苹果的研究团队介绍了 MM1,展示了其在融合视觉和语言理解方面的实力,从而为尖端功能铺平了道路。
就在 MM1 模型首次亮相几天前,有报道称苹果悄悄收购了加拿大人工智能初创公司 DarwinAI 以深化其人工智能发展。迄今为止,这一举措一直处于保密状态,突显了苹果公司对推进人工智能技术的承诺,特别是在它准备在今年晚些时候发布 iOS 18 的情况下。
什么是MM1?
MM1 模型被称为“Multi-Modal 1”,与 GPT-4V 和 Gemini 等其他语言模型有相似之处。 MM1 基于大型语言模型 (LLM) 架构,使用包含图像文本对、交错图像文本文档和纯文本数据(分布为 45% 图像文本对、45% 交错文本数据)的多样化数据集进行了训练。图像文本文档和 10% 纯文本数据)。
MM1 的与众不同之处在于其同时处理图像识别和自然语言处理的独特能力,使其成为能够巧妙地掌握各种任务的多功能动力源。这种多功能性使其能够处理无数的任务,例如生成图像标题、回答基于图像的查询以及辨别不同图片之间的联系。
尽管苹果公司对即将推出的任何产品守口如瓶,但这项研究的意义表明 MM1 可以无缝集成到未来的设备中。这可能会彻底改变 Siri 的功能,或增强 iPhone 和 iPad 上的照片功能。
MM1 模型在图像标题、图像文本合并和纯文本数据集的精心组合上经过了细致的训练。
特别值得注意的是最大 30B 参数模型的性能,该模型在从最小示例中学习和跨多个图像推断见解方面表现出非凡的能力。
值得注意的是,该研究强调了扩展模型的图像处理能力在提高其整体性能方面的关键作用。
在基准测试方面,MM1 与 GPT-4V 和 Gemini Pro 等最先进的多模式模型并驾齐驱。苹果公司打破了围绕该型号发布的惯常保密面纱,标志着一个重大转变,预示着开源社区的胜利。随着强大的模型正式发布,问题随之而来:Siri 终于到了加强其竞争的时候了吗?