Ai2开源模型Molmo超越GPT-4o和Claude

2024 年 9 月 25 日下午 2:48

一位男子站在弯曲的星球表面，背景是紫色和橙色的代码，他正在笔记本电脑上打字的剪影

图片来源：VentureBeat 使用 Midjourney 生成

订阅我们的每日和每周新闻通讯，获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多

艾伦人工智能研究所 (Ai2) 今天发布了 Molmo，这是一个开源的多模态 AI 模型家族，在多个第三方基准测试中超越了 OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 和 Google 的 Gemini 1.5 等顶级专有竞争对手。

因此，这些模型可以接受和分析用户上传的图像，类似于领先的专有基础模型。

然而，Ai2 在 X 上的一篇帖子中也指出，Molmo 使用的“数据量比专有竞争对手少 1000 倍”——这得益于一些巧妙的新训练技术，这些技术将在下面和保罗·艾伦创立、阿里·法尔哈迪领导的公司发布的技术报告论文中详细介绍。

Ai2 表示，此次发布突出了其对开放研究的承诺，它向更广泛的社区提供高性能模型，包括开放权重和数据——当然，也包括那些寻求完全拥有、控制和定制解决方案的公司。

这紧随 Ai2 两周前发布的另一个开放模型 OLMoE，它是一个“专家混合”或更小的模型组合，旨在提高成本效益。

Molmo 包含四个主要模型，它们具有不同的参数大小和功能：

Molmo-72B（720 亿个参数或设置——旗舰模型，基于阿里云的 Qwen2-72B 开源模型）
Molmo-7B-D（“演示模型”，基于阿里的 Qwen2-7B 模型）
Molmo-7B-O（基于 Ai2 的 OLMo-7B 模型）
MolmoE-1B（基于 OLMoE-1B-7B 专家混合 LLM，Ai2 表示“在学术基准测试和用户偏好方面几乎与 GPT-4V 的性能相匹配。”）

这些模型在各种第三方基准测试中取得了高性能，超过了许多专有替代方案。它们都可以在宽松的 Apache 2.0 许可下使用，允许几乎任何类型的研究和商业化用途（例如企业级）。

值得注意的是，Molmo-72B 在学术评估中处于领先地位，在 11 个关键基准测试中取得了最高得分，在用户偏好方面排名第二，紧随 GPT-4o。

AI 代码库公司 Hugging Face 的机器学习开发者倡导工程师 Vaibhav Srivastav 在 X 上评论了此次发布，强调 Molmo 为封闭系统提供了一种强大的替代方案，为开放的多模态 AI 设置了新的标准。

Molmo by @allen_ai – 开源 SoTA 多模态（视觉）语言模型，击败 Claude 3.5 Sonnet、GPT4V，与 GPT4o 相当？他们发布了四个模型检查点：1. MolmoE-1B，一个具有 1B（活动）7B（总计）的专家混合模型 2. Molmo-7B-O，最开放的 7B 模型

3.… pic.twitter.com/9hpARh0GYT

— Vaibhav (VB) Srivastav (@reach_vb) 2024 年 9 月 25 日

此外，谷歌 DeepMind 机器人研究员 Ted Xiao 在 X 上赞扬了 Molmo 中包含的指向数据，他认为这将改变机器人视觉接地的游戏规则。

Molmo 是一个非常令人兴奋的多模态基础模型发布，特别是对于机器人来说。对指向数据的强调使其成为第一个针对视觉接地优化的开放 VLM——你可以清楚地看到它在 RealworldQA 或 OOD 机器人感知方面的出色表现！https://t.co/F2xRCzogcg pic.twitter.com/VHtu9hT2r9

— Ted Xiao (@xiao_ted) 2024 年 9 月 25 日

这种能力使 Molmo 能够提供视觉解释并更有效地与物理环境交互，这是大多数其他多模态模型目前缺乏的功能。

这些模型不仅性能高，而且完全开放，允许研究人员和开发人员访问和构建最先进的技术。

Molmo 的架构旨在最大限度地提高效率和性能。所有模型都使用 OpenAI 的 ViT-L/14 336px CLIP 模型作为视觉编码器，它将多尺度、多裁剪图像处理成视觉标记。

然后，这些标记通过多层感知器 (MLP) 连接器投影到语言模型的输入空间，并进行池化以降低维度。

语言模型组件是一个仅解码器 Transformer，其选项范围从 OLMo 系列到 Qwen2 和 Mistral 系列，每个系列都提供不同的容量和开放程度。

Molmo 的训练策略涉及两个关键阶段：

多模态预训练：在此阶段，模型经过训练，使用人类注释者提供的新收集的详细图像描述来生成标题。这个高质量的数据集名为 PixMo，是 Molmo 强大性能的关键因素。
监督微调：然后，模型在各种数据集混合上进行微调，包括标准学术基准测试和新创建的数据集，这些数据集使模型能够处理复杂的现实世界任务，例如文档阅读、视觉推理，甚至指向。

与许多当代模型不同，Molmo 不依赖于来自人类反馈的强化学习 (RLHF)，而是专注于精心调整的训练管道，该管道根据模型的预训练状态更新所有模型参数。

Molmo 模型在多个基准测试中显示出令人印象深刻的结果，尤其是在与专有模型相比时。

例如，Molmo-72B 在 DocVQA 上得分 96.3，在 TextVQA 上得分 85.5，在这些类别中都超过了 Gemini 1.5 Pro 和 Claude 3.5 Sonnet。它在 AI2D（Ai2 自己的基准测试，简称“一张图胜过千言万语”，一个包含 5000 多个小学科学图表和 150,000 多个丰富注释的数据集）上也超过了 GPT-4o。