企业级SLM加速：可微自适应融合

订阅我们的每日和每周新闻简报，获取有关行业领先人工智能报道的最新更新和独家内容。了解更多

模型合并是人工智能领域一项基础性的流程，它使企业能够重用和组合现有的训练模型，以实现特定的目标。

如今，企业可以通过多种方式使用模型合并，但许多方法都非常复杂。一种名为可微自适应合并 (DAM) 的新方法可能是答案，它为当前模型合并的挑战提供了解决方案。DAM 为组合人工智能模型提供了一种创新解决方案，同时有可能降低计算成本。

Arcee AI 是一家专注于高效、专业的小型语言模型的公司，在 DAM 研究方面处于领先地位。该公司于 2024 年 5 月获得了融资，已从提供模型训练工具发展成为一个成熟的模型交付平台，提供开源和商业产品。

合并可以帮助公司将专门针对不同领域的模型组合起来，创建一个在两个领域都具备能力的新模型。

合并数据的基本概念在结构化数据和数据库中得到了很好的理解。然而，合并模型比合并结构化数据更抽象，因为模型的内部表示并不那么容易解释。

Arcee AI 的研究工程师、DAM 研究论文的作者之一托马斯·高蒂埃-卡隆向 VentureBeat 解释说，传统的模型合并通常依赖于进化算法。这种方法可能很慢且不可预测。DAM 采用了一种不同的方法，利用成熟的机器学习 (ML) 优化技术。

高蒂埃-卡隆解释说，DAM 的目标是解决模型合并过程中的复杂性问题。该公司的现有库 MergeKit 对于合并不同的模型非常有用，但由于涉及多种方法和参数，因此非常复杂。

“我们想知道，我们能否让这个过程变得更容易，能否让机器为我们优化这个过程，而不是让我们陷入困境，调整所有这些参数？”高蒂埃-卡隆说。

DAM 不会直接混合模型，而是根据每个模型的贡献程度进行调整。DAM 对模型权重矩阵中的每一列使用缩放系数。它通过测试组合模型的性能来自动学习这些系数的最佳设置，将输出与原始模型进行比较，然后调整系数以获得更好的结果。

根据研究，DAM 的性能与现有的方法（如进化合并、DARE-TIES 和模型汤）相当或更好。高蒂埃-卡隆表示，这项技术代表了现有方法的重大突破。他将进化合并描述为一个缓慢的过程，在该过程中，事先并不完全清楚结果会多么好，或者合并过程应该运行多长时间。

数据科学家以多种不同的方式组合模型。在越来越流行的方法中，有一种是专家混合 (MoE)。

高蒂埃-卡隆强调，使用 DAM 进行模型合并与 MoE 非常不同。他解释说，MoE 是一种特定的架构，可用于训练语言模型。

模型合并背后的基本概念是，它从企业已经拥有训练模型的阶段开始。训练这些模型通常需要花费大量的资金，因此工程师的目标是重用现有的训练模型。

DAM 的主要优势之一是它能够有效地组合专业模型。

高蒂埃-卡隆提供了一个例子，如果一家企业想要将日语模型与数学模型组合起来。这种组合的目标是创建一个擅长日语数学的模型，而无需重新训练。这是 DAM 可能表现出色的一个领域。

这项技术对于企业采用生成式人工智能尤其重要，因为效率和成本考虑至关重要。帮助以更低的成本创建更有效率的操作方式是 Arcee 的主要目标。这就是为什么 DAM 研究对公司及其最终用户都至关重要的原因。

“企业采用生成式人工智能归结为效率、可用性、可扩展性和成本，”Arcee AI 的联合创始人兼首席执行官马克·麦克夸德告诉 VentureBeat。

相关内容