人工智能的全球化:从阿布扎比到世界
几年前,我面临着一个人生重大抉择:继续在墨尔本大学担任教授,还是前往世界另一端,参与建设一所专注于人工智能的全新大学。
近年来,人工智能的飞速发展让我意识到,以包容的方式培养下一代人工智能创新者,并将科技的益处分享给全球,比维持现状更为重要。因此,我收拾行囊,前往位于阿布扎比的穆罕默德·本·扎耶德人工智能大学 (MBZUAI)。
打破“计算北极”的藩篱
如今,人工智能的红利主要集中在少数几个国家,牛津互联网研究所将其称为“计算北极”。这些国家,如美国、英国、法国、加拿大和中国,在人工智能研究和开发方面占据主导地位,并建立了能够训练基础模型的先进人工智能基础设施。这并不令人意外,因为这些国家拥有世界上许多顶尖大学和大型科技公司。
然而,这种创新集中化也给生活在这些主导国家之外的数十亿人带来了代价,他们拥有不同的文化背景。
大型语言模型 (LLM) 就是这种差异的典型例子。研究人员发现,许多最流行的多语言 LLM 在处理英语、中文以及少数其他(主要是)欧洲语言以外的语言时表现不佳。然而,如今世界上大约有 6000 种语言,其中许多语言在非洲、亚洲和南美洲的社区中使用。仅阿拉伯语就有近 4 亿人使用,而印地语在全球拥有 5.75 亿使用者。
例如,根据 LM-Evaluation-Harness 框架的衡量结果,LLaMA 2 在英语上的表现比阿拉伯语高出 50%。与此同时,由 MBZUAI 共同开发的 LLM Jais 在阿拉伯语方面超越了 LLaMA 2,并且在英语方面与 Meta 的模型相当(见下表)。
图表显示,开发适用于所有人的 AI 应用的唯一途径是,在“计算北极”之外创建新的机构,持续且有意识地投资于为全球数千种语言社区设计的工具。
创新生态的构建
设计新机构的一种方法是研究历史,了解当今人工智能研究中心是如何在几十年前出现的。在硅谷赢得全球科技创新中心声誉之前,它被称为圣克拉拉谷,以种植李子而闻名。然而,斯坦福大学是主要的催化剂,它已成为世界上学习电子工程的最佳场所之一。多年来,通过政府资助的投资和重点研究的结合,该大学孕育了无数推动计算进步的发明,并创造了创业文化。结果不言而喻:斯坦福大学的校友创办了 Alphabet、NVIDIA、Netflix 和 PayPal 等公司,仅举几例。
如今,与 MBZUAI 在圣克拉拉谷的前身一样,我们有机会建立一个以大学为中心的全新科技中心。
这就是我选择加入 MBZUAI 的原因,它是世界上第一所专注于人工智能的研究型大学。MBZUAI 位于东西方地理交汇点,我们的目标是吸引来自世界各地的顶尖人才,并为他们提供必要的工具,以推动人工智能研究和开发的边界。
包容性人工智能的社区
MBZUAI 的学生来自全球 50 多个国家。它吸引了来自微软的 Monojit Choudhury、谷歌的 Elizabeth Churchill、剑桥大学的 Ted Briscoe、慕尼黑工业大学的 Sami Haddadin 和东京大学的 Yoshihiko Nakamura 等顶尖研究人员,仅举几例。
这些科学家可能来自不同的地方,但他们在 MBZUAI 找到了共同的目标,我们的跨学科性质、对将人工智能打造为全球进步力量的不懈追求,以及对机器人、自然语言处理、机器学习和计算机视觉等学科之间合作的重视。
除了传统的人工智能学科外,MBZUAI 还建立了兄弟领域部门,这些部门既可以为人工智能做出贡献,也可以从人工智能中受益,包括人机交互、统计和数据科学以及计算生物学。
阿布扎比对 MBZUAI 的承诺是其更广泛的人工智能愿景的一部分,该愿景超越了学术界。MBZUAI 的科学家与阿布扎比科技公司 G42 合作开发了 Jais,这是一种以阿拉伯语为中心的 LLM,是性能最高的开源阿拉伯语 LLM;以及 NANDA,一种先进的印地语 LLM。MBZUAI 的基础模型研究所创建了 LLM360,这是一项旨在通过发布与来自北美或中国科技公司的闭源或开源模型相媲美的完全开源模型和数据集来平衡大型模型研究和开发的举措。
MBZUAI 还正在开发专门针对突厥语系的语言模型,这些语言在自然语言处理中传统上被忽视,但有数百万人口使用。
另一个最近的项目汇集了来自 28 个不同国家/地区的 26 种语言的母语人士,共同编制了一个基准数据集,用于评估视觉语言模型的性能及其理解图像中文化细微差别的能力。
如果我们希望维护世界文化的多样性,并为每个人提供对他们有用的 AI 工具,那么必须进行这种将 AI 功能扩展到更广泛社区的努力。在 MBZUAI,我们创造了学生和教师的独特组合,以推动面向全球的包容性 AI 创新。通过建立一个广泛的科学家、企业家和思想家社区,该大学正日益成为人工智能创新的驱动力,其影响力远远超出阿布扎比,其目标是开发适用于世界各种语言和文化的包容性技术。
本内容由穆罕默德·本·扎耶德人工智能大学制作。它不是由麻省理工科技评论的编辑人员撰写。