订阅我们的每日和每周通讯,获取有关行业领先人工智能报道的最新更新和独家内容。了解更多
在快速发展的生成式人工智能领域,Nous Research 团队正在做一些独特的事情(至少据我所知):Nous 正在使用分布在互联网和世界各地的机器预训练一个新的 150 亿参数大型语言模型 (LLM),避免了将模型开发集中在传统上昂贵、耗能的人工智能数据中心和“超级集群”中,例如最近由埃隆·马斯克的 xAI 在田纳西州孟菲斯完成的超级集群。
此外,Nous 正在其专门的网站 distro.nousresearch.com 上直播预训练过程,展示其在评估基准上的表现以及训练硬件的简单地图,包括美国和欧洲的多个地点。
截至本文发表时,预训练运行还剩大约 57 个小时(2.3 天),超过 75% 的过程已完成。
预训练是训练 LLM 的两个方面中第一个也是最基础的方面,因为它涉及在大量文本数据上训练模型,以学习语言的统计特性和结构。模型处理大量的文本数据集,捕捉模式、语法和单词之间的上下文关系。此阶段使模型能够广泛理解语言,使其能够生成连贯的文本并执行各种与语言相关的任务。
在预训练之后,模型会在针对特定任务或领域的更具体的数据集上进行微调。
如果成功,Nous 将证明有可能在没有昂贵的超级集群或低延迟传输的情况下训练前沿级的 LLM,使用一种新颖的开源训练方法。它可能会开启分布式人工智能训练的新时代,成为新的 AI 模型的主要来源,甚至占主导地位,并将生成式 AI 的权力平衡从资金雄厚的科技巨头转移到更小的群体和非企业行为者。
Nous 今年早些时候因发布其宽松且存在性冲突的 Meta Llama 3.1 变体 Hermes 3 以及其将人工智能开发个性化和不受限制的总体使命而登上头条新闻,它正在使用其名为 Nous DisTrO(分布式互联网训练)的开源分布式训练技术,Nous 最初在 2024 年 8 月的一篇研究论文中发布了该技术。
根据 Nous Research 最近的出版物,DisTrO 在预训练期间将 GPU 间通信带宽需求降低了高达 10,000 倍。这项创新使模型能够在更慢、更实惠的互联网连接上进行训练——潜在的下载速度低至 100Mbps,上传速度低至 10Mbps——同时保持竞争性的收敛速度和损失曲线。
DisTrO 的核心突破在于它能够有效地压缩 GPU 之间交换的数据,而不会牺牲模型性能。
正如 2024 年 8 月 VentureBeat 文章中所述,该方法在使用 Llama 2 架构进行测试时,将通信需求从 74.4 千兆字节减少到仅 86.8 兆字节,效率提高了近 857 倍。这一显著改进为分散式、协作式人工智能研究的新时代铺平了道路。
DisTrO 建立在早期关于解耦动量优化 (DeMo) 的工作基础上,该算法旨在将 GPU 间通信减少几个数量级,同时保持与传统方法相当的训练性能。
DeMo 算法和 DisTrO 堆栈都是 Nous Research 持续致力于将人工智能能力分散化并将先进的人工智能开发带给更广泛受众的一部分。
该团队还在 GitHub 上以开源代码的形式提供了 DeMo 算法,邀请世界各地的研究人员和开发人员对其发现进行实验和构建。
Nous Research 的 150 亿参数语言模型的预训练得到了几个知名合作伙伴的贡献,包括 Oracle、Lambda Labs、Northern Data Group、Crusoe Cloud 和 Andromeda Cluster。
他们共同提供了在真实世界分布式环境中测试 DisTrO 功能所需的异构硬件。
DisTrO 的影响超越了技术创新。通过减少对集中式数据中心和专用基础设施的依赖,DisTrO 为更具包容性和协作性的人工智能研究生态系统提供了一条途径。
规模较小的机构、独立研究人员,甚至拥有消费级互联网和 GPU 的业余爱好者,都可能训练大型模型——这在以前是只有拥有大量资金和专业知识的公司才能做到的事情。
Adam 优化器共同作者、研究论文合著者 Diederik P. Kingma 加入 Nous Research,作为 DeMo 和 DisTrO 开发的合作者。Kingma 的贡献,以及 Nous Research 联合创始人 Bowen Peng 和 Jeffrey Quesnelle 的贡献,为该项目增添了可信度,并表明了其对更广泛的人工智能社区的潜在影响。
Nous Research 为人工智能开发不再由少数公司主导的未来打开了大门。他们对 DisTrO 的工作表明,通过正确的优化,可以以分散的方式有效地训练大规模人工智能模型。
虽然当前的演示使用了 Nvidia H100 等尖端 GPU,但 DisTrO 对不太专业硬件的可扩展性仍然是进一步探索的领域。
随着 Nous Research 继续改进其方法,这项技术的潜在应用——从分散式联邦学习到训练用于图像生成的扩散模型——可能会重新定义人工智能创新的边界。