人工智能领域的非营利研究机构艾伦人工智能研究所(Ai2)发布了一系列名为Molmo的开源多模态语言模型,据称其性能与来自OpenAI、谷歌和Anthropic等公司的顶级专有模型不相上下。
该机构声称,其最大的Molmo模型拥有720亿个参数,在理解图像、图表和文档等方面的测试中,其性能超越了拥有超过万亿个参数的OpenAI GPT-4o。
与此同时,Ai2表示,一个较小的Molmo模型,拥有70亿个参数,其性能接近OpenAI最先进的模型,这一成就归功于其更高效的数据收集和训练方法。
Ai2首席执行官Ali Farhadi表示,Molmo表明,开源人工智能开发现在已经与封闭的专有模型齐平。开源模型具有显著优势,因为其开放性意味着其他人可以在其基础上构建应用程序。Molmo演示版可在此处获取,开发者可以在Hugging Face网站上进行试用。(最强大的Molmo模型的某些元素仍然处于保密状态。)
其他大型多模态语言模型是在包含数十亿张图像和文本样本的庞大数据集上训练的,这些数据是从互联网上收集的,可能包含数万亿个参数。Ai2研究高级总监Ani Kembhavi表示,这种过程会在训练数据中引入大量噪声,从而导致幻觉。相比之下,Ai2的Molmo模型是在一个明显更小、经过精心策划的数据集上训练的,该数据集仅包含60万张图像,参数数量在10亿到720亿之间。Kembhavi表示,这种对高质量数据的关注,而不是无差别地抓取数据,使得在资源少得多的情况下取得了良好的性能。
Ai2通过让人工标注员在多页文本中对模型训练数据集中的图像进行极其详细的描述来实现这一点。他们要求标注员说出他们所看到的内容,而不是输入文字。然后,他们使用人工智能技术将他们的语音转换为数据,这使得训练过程快得多,同时减少了所需的计算能力。
Hugging Face机器学习与社会负责人Yacine Jernite表示,如果我们想要有意义地管理用于人工智能开发的数据,这些技术将非常有用。Jernite没有参与这项研究。
斯坦福基础模型研究中心主任Percy Liang表示:“总的来说,在更高质量的数据上进行训练可以降低计算成本。” Liang也没有参与这项研究。
另一个令人印象深刻的功能是该模型可以“指向”事物,这意味着它可以通过识别回答查询的像素来分析图像的元素。
在与《麻省理工科技评论》分享的演示中,Ai2研究人员拍摄了他们办公室外西雅图当地码头的照片,并要求模型识别图像中的各种元素,例如躺椅。该模型成功地描述了图像中包含的内容,计算了躺椅的数量,并在研究人员要求时准确地指向了图像中的其他事物。然而,它并不完美。例如,它无法定位特定的停车场。
Farhadi表示,其他先进的人工智能模型擅长描述场景和图像。但当你想要构建更复杂的网络代理时,这还不够,这些代理可以与世界互动,例如预订航班。他表示,指向功能允许人们与用户界面进行交互。
Jernite表示,Ai2的开放程度比我们从其他人工智能公司看到的要高。他表示,虽然Molmo是一个良好的开端,但其真正意义在于开发者在其基础上构建的应用程序以及人们改进它的方式。
Farhadi对此表示赞同。在过去几年中,人工智能公司吸引了巨额的、数万亿美元的投资。但最近几个月,投资者对这些投资是否会带来回报表示怀疑。他认为,大型、昂贵的专有模型无法做到这一点,但开源模型可以。他表示,这项工作表明,开源人工智能也可以以一种高效利用资金和时间的方式构建。
“我们很高兴能够帮助其他人,并看看其他人会用它来构建什么,”Farhadi说。