液态AI新STAR模型架构效率超越Transformer

订阅我们的每日和每周新闻简报，获取有关行业领先人工智能报道的最新更新和独家内容。了解更多

随着关于顶级人工智能公司在开发更新、更强大的大型语言模型 (LLM) 方面所面临的困难的传言和报道不断涌现，人们越来越关注“Transformer”的替代架构——这种技术是当前生成式人工智能热潮背后的支柱，由 Google 研究人员在 2017 年的开创性论文“Attention Is All You Need”中提出。

正如该论文及其后所述，Transformer 是一种深度学习神经网络架构，用于处理顺序数据，例如文本或时间序列信息。

现在，由麻省理工学院孵化的初创公司 Liquid AI 推出了 STAR (Synthesis of Tailored Architectures)，这是一个旨在自动生成和优化人工智能模型架构的创新框架。

STAR 框架利用进化算法和数值编码系统来应对深度学习模型中平衡质量和效率的复杂挑战。

Liquid AI 的研究团队（包括 Armin W. Thomas、Rom Parnichkun、Alexander Amini、Stefano Massaroli 和 Michael Poli）表示，STAR 的方法代表着对传统架构设计方法的转变。

STAR 不依赖于手动调整或预定义模板，而是使用一种称为“STAR 基因组”的分层编码技术来探索潜在架构的广阔设计空间。

这些基因组支持迭代优化过程，例如重组和突变，使 STAR 能够合成和优化针对特定指标和硬件要求量身定制的架构。

Liquid AI 对 STAR 的最初关注点是自回归语言建模，这是一个传统 Transformer 架构长期占据主导地位的领域。

在他们研究期间进行的测试中，Liquid AI 研究团队证明了 STAR 能够生成始终优于高度优化的 Transformer++ 和混合模型的架构。

例如，在优化质量和缓存大小方面，与混合模型相比，STAR 进化出的架构实现了高达 37% 的缓存大小缩减，与 Transformer 相比则缩减了 90%。尽管效率有所提高，但 STAR 生成的模型仍然保持或超过了其对应模型的预测性能。

同样，在优化模型质量和大小方面，STAR 将参数数量减少了高达 13%，同时在标准基准测试中仍然提高了性能。

该研究还强调了 STAR 扩展其设计的能力。一个从 1.25 亿个参数扩展到 10 亿个参数的 STAR 进化模型，在提供与现有 Transformer++ 和混合模型相当或更好的结果的同时，显著降低了推理缓存需求。

Liquid AI 表示，STAR 植根于一个设计理论，该理论融合了动力系统、信号处理和数值线性代数的原理。

这种基础方法使团队能够为计算单元开发一个通用的搜索空间，涵盖注意力机制、递归和卷积等组件。

STAR 的一个显著特点是其模块化，允许该框架在多个层次结构级别对架构进行编码和优化。这种能力提供了对重复设计主题的见解，并使研究人员能够识别架构组件的有效组合。

STAR 能够合成高效、高性能的架构，其应用潜力远远超出了语言建模。Liquid AI 预计该框架将用于解决各种领域中的挑战，在这些领域中，质量和计算效率之间的权衡至关重要。

虽然 Liquid AI 尚未披露有关商业部署或定价的具体计划，但研究结果表明，在自动架构设计领域取得了重大进展。对于希望优化人工智能系统的研究人员和开发人员来说，STAR 可能是一个强大的工具，可以推动模型性能和效率的界限。

Liquid AI 采用开放式研究方法，在同行评审的论文中发布了 STAR 的全部细节，鼓励合作和进一步创新。随着人工智能领域的不断发展，像 STAR 这样的框架将在塑造下一代智能系统方面发挥关键作用。STAR 甚至可能预示着后 Transformer 架构热潮的到来——对于机器学习和人工智能研究界来说，这是一个受欢迎的冬季假期礼物。