订阅我们的每日和每周新闻简报,获取有关行业领先人工智能报道的最新更新和独家内容。了解更多
模型合并是人工智能领域一项基础性的流程,它使企业能够重用和组合现有的训练模型,以实现特定的目标。
如今,企业可以通过多种方式使用模型合并,但许多方法都非常复杂。一种名为可微自适应合并 (DAM) 的新方法可能是答案,它为当前模型合并的挑战提供了解决方案。DAM 为组合人工智能模型提供了一种创新解决方案,同时有可能降低计算成本。
Arcee AI 是一家专注于高效、专业的小型语言模型的公司,在 DAM 研究方面处于领先地位。该公司于 2024 年 5 月获得了融资,已从提供模型训练工具发展成为一个成熟的模型交付平台,提供开源和商业产品。
合并可以帮助公司将专门针对不同领域的模型组合起来,创建一个在两个领域都具备能力的新模型。
合并数据的基本概念在结构化数据和数据库中得到了很好的理解。然而,合并模型比合并结构化数据更抽象,因为模型的内部表示并不那么容易解释。
Arcee AI 的研究工程师、DAM 研究论文的作者之一托马斯·高蒂埃-卡隆向 VentureBeat 解释说,传统的模型合并通常依赖于进化算法。这种方法可能很慢且不可预测。DAM 采用了一种不同的方法,利用成熟的机器学习 (ML) 优化技术。
高蒂埃-卡隆解释说,DAM 的目标是解决模型合并过程中的复杂性问题。该公司的现有库 MergeKit 对于合并不同的模型非常有用,但由于涉及多种方法和参数,因此非常复杂。
“我们想知道,我们能否让这个过程变得更容易,能否让机器为我们优化这个过程,而不是让我们陷入困境,调整所有这些参数?”高蒂埃-卡隆说。
DAM 不会直接混合模型,而是根据每个模型的贡献程度进行调整。DAM 对模型权重矩阵中的每一列使用缩放系数。它通过测试组合模型的性能来自动学习这些系数的最佳设置,将输出与原始模型进行比较,然后调整系数以获得更好的结果。
根据研究,DAM 的性能与现有的方法(如进化合并、DARE-TIES 和模型汤)相当或更好。高蒂埃-卡隆表示,这项技术代表了现有方法的重大突破。他将进化合并描述为一个缓慢的过程,在该过程中,事先并不完全清楚结果会多么好,或者合并过程应该运行多长时间。
数据科学家以多种不同的方式组合模型。在越来越流行的方法中,有一种是专家混合 (MoE)。
高蒂埃-卡隆强调,使用 DAM 进行模型合并与 MoE 非常不同。他解释说,MoE 是一种特定的架构,可用于训练语言模型。
模型合并背后的基本概念是,它从企业已经拥有训练模型的阶段开始。训练这些模型通常需要花费大量的资金,因此工程师的目标是重用现有的训练模型。
DAM 的主要优势之一是它能够有效地组合专业模型。
高蒂埃-卡隆提供了一个例子,如果一家企业想要将日语模型与数学模型组合起来。这种组合的目标是创建一个擅长日语数学的模型,而无需重新训练。这是 DAM 可能表现出色的一个领域。
这项技术对于企业采用生成式人工智能尤其重要,因为效率和成本考虑至关重要。帮助以更低的成本创建更有效率的操作方式是 Arcee 的主要目标。这就是为什么 DAM 研究对公司及其最终用户都至关重要的原因。
“企业采用生成式人工智能归结为效率、可用性、可扩展性和成本,”Arcee AI 的联合创始人兼首席执行官马克·麦克夸德告诉 VentureBeat。