加入我们的每日和每周新闻通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
训练大型语言模型 (LLM) 是企业最昂贵且耗时的任务之一。ServiceNow 今天发布了一个新的开源模型,它有望将训练速度提高 20%,从而为企业节省时间和金钱。
Fast-LLM 技术已经在公司内部开发,帮助 ServiceNow 加速其自身的 LLM 训练工作。Fast-LLM 帮助训练了 ServiceNow 的 StarCoder 2 LLM,该公司在今年早些时候发布了该模型。StarCoder 本身也是一项开源工作,得益于 Hugging Face、Nvidia 等的贡献。ServiceNow 还将 Fast-LLM 用于从现有模型进行大型、万亿级标记的连续预训练,以及微调作业。
由于它是一种开源技术,任何人都可以使用 Fast-LLM 来帮助加速 AI 训练,包括微调操作。其目的是使其成为现有 AI 训练管道的直接替代品,只需进行最少的配置更改。这个新的开源项目旨在通过一系列针对数据并行和内存管理的创新,与常用的 AI 训练框架(包括开源 PyTorch)进行区分。
“当你处理的计算集群价值数亿美元,训练运行成本数百万美元时,20% 的节省在美元、时间和整体 CO2 排放方面都意义重大,”ServiceNow 研究副总裁 Nicolas Chapados 告诉 VentureBeat。
AI 行业充分认识到更高效地训练 AI 的挑战。VentureBeat Transform 2024 举办了一个小组讨论,讨论了这个问题,详细介绍了扩展基础设施的选项。
Fast-LLM 方法不是关于扩展基础设施,而是关于优化现有训练资源的效率。
“我们仔细研究了训练大型语言模型,尤其是基于 Transformer 的大型语言模型所需的所有操作,”Chapados 解释道。“我们仔细优化了计算在 GPU 内的单个核心上的分配方式,以及模型本身使用内存的方式。”
Fast-LLM 的竞争优势源于两种主要创新,帮助它脱颖而出。第一个是 Fast-LLM 对计算排序的方法,它定义了 AI 训练运行中计算发生的顺序。Chapados 解释说,Fast-LLM 使用了一种 ServiceNow 称为“广度优先管道并行”的新技术。
“这是围绕计算调度方式的基本科学创新,无论是在单个 GPU 内部还是跨多个 GPU,”Chapados 说。
第二个主要创新解决了内存管理问题。在大型训练操作中,内存会随着时间的推移而碎片化。这意味着随着训练的进行,内存会随着时间的推移而被分成碎片。碎片化会导致内存效率低下,阻止训练集群正确使用所有可用内存。
“我们在设计 Fast LLM 时非常小心,几乎完全消除了训练这些大型语言模型时内存碎片化的问题,”Chapados 说。
Fast-LLM 框架旨在保持易用性,同时保持企业级功能。它可以作为 PyTorch 环境的直接替代品,并与现有的分布式训练设置集成。
“对于任何模型开发人员或研究人员来说,这只是一个简单的配置文件,可以让你指定所有重要的架构细节,”Chapados 说。
更快地运行训练操作具有多重优势,可以使企业进行更多实验。
“它降低了大型训练运行的风险,”Chapados 说。“它为用户、研究人员和模型构建者提供了更大的雄心壮志来训练更大的运行,因为他们不再害怕它会花费太多。”
展望未来,人们期望 Fast-LLM 作为一个开源项目,能够更快地扩展,并从外部贡献中受益。ServiceNow 在 StarCoder 上已经取得了成功。
“我们的目标是真正做到非常透明,并对社区在使用该框架方面的贡献做出快速响应,”Chapados 说。“我们仍在收集有关人们喜欢什么、他们能够用它做什么的早期反馈,我们的目标是真正扩展它。”