2024 年 9 月 30 日 下午 2:16
订阅我们的每日和每周新闻简报,获取有关行业领先 AI 报道的最新更新和独家内容。了解更多
Liquid AI 是一家由麻省理工学院 (MIT) 计算机科学与人工智能实验室 (CSAIL) 的前研究人员共同创办的初创公司,该公司宣布推出其首批多模态 AI 模型。
与当前生成式 AI 浪潮中的大多数其他模型不同,这些模型并非基于 2017 年具有里程碑意义的论文“注意力就是你所需要的一切”中概述的 Transformer 架构。
相反,Liquid 表示其目标是“探索构建超越生成式预训练 Transformer (GPT) 的基础模型的方法”,并通过新的 LFM,特别是从“第一原理……工程师构建引擎、汽车和飞机的方式”开始。
他们似乎做到了这一点——因为新的 LFM 模型已经比其他同等规模的基于 Transformer 的模型(例如 Meta 的 Llama 3.1-8B 和微软的 Phi-3.5 3.8B)表现出更优越的性能。
这些模型被称为“Liquid 基础模型 (LFM)”,目前有三种不同的大小和变体:
- LFM 1.3B(最小)
- LFM 3B
- LFM 40B MoE(最大,类似于 Mistral 的 Mixtral 的“专家混合”模型)
它们名称中的“B”代表十亿,指的是模型信息处理、分析和输出生成所遵循的参数数量——或设置。通常,参数数量较多的模型在更广泛的任务中更强大。
Liquid AI 表示,LFM 1.3B 版本在许多领先的第三方基准测试中(包括流行的大规模多任务语言理解 (MMLU),该基准测试包含科学、技术、工程和数学 (STEM) 领域的 57 个问题)已经超越了 Meta 的新 Llama 3.2-1.2B 和微软的 Phi-1.5,“这是非 GPT 架构首次在性能上显著超过基于 Transformer 的模型”。
所有这三种模型都旨在提供最先进的性能,同时优化内存效率,Liquid 的 LFM-3B 只需要 16 GB 的内存,而 Meta 的 Llama-3.2-3B 模型则需要超过 48 GB 的内存(如上图所示)。
Liquid AI 的后训练主管 Maxime Labonne 在 X 上的账户中表示,LFM 是“我职业生涯中最自豪的发布 :)”,并澄清了 LFM 的核心优势:它们能够在使用明显更少内存的情况下超越基于 Transformer 的模型。
这是我职业生涯中最自豪的发布 🙂
在 @LiquidAI_,我们正在发布三个基于自定义架构的 LLM(1B、3B、40B MoE),它们具有 SOTA 性能。
最小的内存占用和高效的推理首次将长上下文任务带到了边缘设备!
— Maxime Labonne (@maximelabonne) 2024 年 9 月 30 日
这些模型的工程设计不仅在原始性能基准测试方面具有竞争力,而且在运营效率方面也具有竞争力,这使得它们非常适合各种用例,从企业级应用程序(特别是在金融服务、生物技术和消费电子领域)到边缘设备上的部署。
然而,对于潜在用户和客户来说,重要的是,这些模型不是开源的。相反,用户需要通过 Liquid 的推理游乐场 Lambda Chat 或 Perplexity AI 访问它们。
在这种情况下,Liquid 表示它使用了“深深植根于动力系统理论、信号处理和数值线性代数的计算单元”的混合,并且结果是“可以用于对任何类型的顺序数据进行建模的通用 AI 模型,包括视频、音频、文本、时间序列和信号”,用于训练其新的 LFM。
去年,VentureBeat 报道了更多关于 Liquid 训练后 Transformer AI 模型的方法,当时指出它正在使用 Liquid 神经网络 (LNN),这是一种由 CSAIL 开发的架构,旨在使用于转换数据的“神经元”或节点更有效率和适应性更强。
与需要数千个神经元来执行复杂任务的传统深度学习模型不同,LNN 证明了更少的神经元——结合创新的数学公式——可以实现相同的结果。
Liquid AI 的新模型保留了这种适应性的核心优势,允许在推理过程中进行实时调整,而无需与传统模型相关的计算开销,高效地处理高达 100 万个令牌,同时将内存使用量降至最低。
Liquid 博客中的图表显示,例如,LFM-3B 模型在推理内存占用方面优于 Google 的 Gemma-2、微软的 Phi-3 和 Meta 的 Llama-3.2,尤其是在令牌长度扩展时。
虽然其他模型在长上下文处理中经历了内存使用量的急剧增加,但 LFM-3B 保持了明显更小的占用空间,这使得它非常适合需要大量顺序数据处理的应用程序,例如文档分析或聊天机器人。
Liquid AI 已构建其基础模型,使其在多种数据模式(包括音频、视频和文本)中通用。
凭借这种多模态能力,Liquid 旨在解决从金融服务到生物技术和消费电子等广泛的行业特定挑战。
Liquid AI 表示,它正在优化其模型,以便在 NVIDIA、AMD、Apple、Qualcomm 和 Cerebras 的硬件上部署。
虽然这些模型仍处于预览阶段,但 Liquid AI 邀请早期采用者和开发人员测试这些模型并提供反馈。
Labonne 指出,虽然事情“并不完美”,但在此阶段收到的反馈将帮助团队改进其产品,为 2024 年 10 月 23 日在马萨诸塞州剑桥市 MIT 的 Kresge 礼堂举行的正式发布活动做好准备。该公司正在接受该活动现场参加者的 RSVP,请点击此处。
作为其对透明度和科学进步的承诺的一部分,Liquid 表示将在产品发布活动之前发布一系列技术博客文章。
该公司还计划参与红队行动,鼓励用户测试其模型的极限,以改进未来的迭代。
随着 Liquid 基础模型的推出,Liquid AI 正将自己定位为基础模型领域的关键参与者。通过将最先进的性能与前所未有的内存效率相结合,LFM 为传统的基于 Transformer 的模型提供了一个引人注目的替代方案。