打破语言壁垒:Cohere 发布 Aya Expanse 多语言模型
在人工智能领域,语言模型的突破性进展主要集中在英语上,而其他语言的应用却相对落后。为了弥合这一差距,Cohere 今天发布了其 Aya 项目中的两个全新开源模型:Aya Expanse 8B 和 35B,旨在扩展基础模型在 23 种语言上的性能。
这两个模型现已在 Hugging Face 平台上公开发布。Cohere 在其博客文章中指出,8B 参数模型“让全球研究人员更容易获得突破性进展”,而 32B 参数模型则提供了最先进的多语言能力。
Aya 项目旨在为更多全球语言提供基础模型,打破英语主导的现状。Cohere 的研究部门 Cohere for AI 于去年启动了 Aya 计划。今年 2 月,他们发布了 Aya 101 大型语言模型 (LLM),这是一个包含 130 亿个参数的模型,涵盖 101 种语言。Cohere for AI 还发布了 Aya 数据集,以帮助扩展其他语言的模型训练资源。
Aya Expanse 沿用了构建 Aya 101 的许多方法。Cohere 表示:“Aya Expanse 的改进源于我们持续关注如何通过重新思考机器学习突破的核心构建模块,来扩展人工智能在全球语言中的服务范围。过去几年,我们的研究议程一直致力于弥合语言差距,并取得了一些关键突破,包括数据套利、通用性能和安全性的偏好训练,以及最终的模型合并。”
Cohere 声称,这两个 Aya Expanse 模型在性能上始终优于来自 Google、Mistral 和 Meta 的同等规模的 AI 模型。
Aya Expanse 32B 在多语言基准测试中表现优于 Gemma 2 27B、Mistral 8x22B,甚至比更大的 Llama 3.1 70B 还要出色。较小的 8B 模型也比 Gemma 2 9B、Llama 3.1 8B 和 Ministral 8B 表现更好。
Cohere 使用一种名为“数据套利”的数据采样方法来开发 Aya 模型,以避免模型依赖合成数据时产生的胡言乱语。许多模型使用从“教师”模型中创建的合成数据进行训练。然而,由于难以找到其他语言的优秀教师模型,特别是对于资源匮乏的语言而言,这种方法存在局限性。
Cohere 还专注于引导模型朝着“全球偏好”发展,并考虑不同的文化和语言视角。他们表示,他们找到了一种方法,即使在引导模型的偏好时也能提高性能和安全性。
Cohere 解释道:“我们将其视为训练 AI 模型的‘最后一道光彩’。然而,偏好训练和安全措施往往过度适应西方中心数据集中的危害。问题在于,这些安全协议通常无法扩展到多语言环境。我们的工作是首批将偏好训练扩展到多语言环境的项目之一,并考虑了不同的文化和语言视角。”
Aya 计划致力于确保围绕 LLM 的研究,使其在英语以外的语言中也能表现出色。
许多 LLM 最终会以其他语言提供,特别是对于使用广泛的语言而言,但找到数据来训练不同语言的模型却很困难。毕竟,英语往往是政府、金融、互联网对话和商业的官方语言,因此更容易找到英语数据。
由于翻译质量的差异,准确评估不同语言模型的性能也可能很困难。
其他开发者也发布了自己的语言数据集,以促进对非英语 LLM 的研究。例如,OpenAI 上个月在 Hugging Face 上发布了其多语言大型多任务语言理解数据集。该数据集旨在帮助更好地测试 LLM 在 14 种语言上的性能,包括阿拉伯语、德语、斯瓦希里语和孟加拉语。
Cohere 在过去几周一直非常忙碌。本周,该公司在其用于检索增强生成 (RAG) 系统的企业嵌入产品 Embed 3 中添加了图像搜索功能。本月,他们还增强了其 Command R 08-2024 模型的微调功能。