“`html

AI轻量化革命:让智能触手可及
大型语言模型(LLM)的强大毋庸置疑,但其庞大的计算资源需求却限制了其应用场景。通常,它们只能运行在数据中心的高端GPU集群上。然而,西班牙初创公司Multiverse Computing却另辟蹊径,开发出与鸡、蝇大脑规模相当的LLM模型。这意味着,强大的LLM能够运行在普通家用电器、智能手机甚至汽车上。
这家位于西班牙多诺斯蒂亚的Multiverse公司,正致力于人工智能和量子计算这两个科技前沿领域的交叉融合。其核心产品Singularity是一个软件平台,旨在帮助非专业人士轻松使用量子算法。同时,他们还开发了CompactifAI压缩技术,用于大幅缩减神经网络的规模。
CompactifAI的核心是张量网络——一种最初用于在经典硬件上模拟量子系统的数学工具。其强大的压缩能力使其成为压缩大型AI模型的理想选择。通过将复杂的多维系统提炼成更紧凑、更易处理的形式,张量网络有效地解决了LLM的资源瓶颈。
“纳米模型”:AI的极致轻量化
Multiverse利用CompactifAI创建了一系列名为“Model Zoo”的“纳米模型”,每个模型都以其理论上拥有相当计算能力的动物命名。目前已发布的两个模型分别是:ChickenBrain,一个压缩版的Meta Llama 3.1模型,可在树莓派上运行,赋予其推理能力;以及SuperFly,一个可在智能手机上运行的SmolLM2 135M开源模型的压缩版本。
Multiverse首席技术官Sam Mugel表示:“SuperFly只有9400万参数,非常小巧,是目前最小的LLM之一。任何能够安装树莓派的设备,理论上都能运行SuperFly。”这意味着,诸如洗衣机、冰箱等家用电器,未来都可能拥有AI能力。
这项技术将AI能力扩展到各种设备,特别是通过自然语言控制设备。Mugel指出,本地运行LLM相比云端运行,具有显著的优势,例如延迟更低,以及由于数据在设备上处理而带来的更高的安全性和隐私性保障。在网络连接不可靠的场景下,这项技术尤其实用。例如,SuperFly足够小巧,可以嵌入汽车仪表盘,即使在隧道或网络覆盖差的地区也能实现不间断的自然语言控制。
随着人们日益关注大型模型的能源消耗和硬件需求,模型压缩已成为一种标准实践。Mugel解释说,神经网络的学习效率出奇地低,包含大量冗余信息,因此存在巨大的优化空间。Multiverse的量子启发式张量网络方法,能够超越传统的量化和剪枝技术,并能与量化技术结合,实现更极致的压缩。
该过程首先扫描模型,找出最适合压缩的层。然后,将这些层重新组织成张量网络,保留层权重中最重要模式,同时丢弃对整体性能贡献不大的冗余信息。最后,压缩后的模型会经过一个“修复”步骤,在目标任务上进行短暂的再训练。
Mugel解释道:“我们对神经网络进行了一些重组,这可能会使其偏离训练的最佳点。修复过程类似于人们在严重事故后需要进行康复治疗。这并不意味着从头开始重新学习任务,而只是重新熟悉它。”
智能手机时代的轻量级AI
SuperFly模型正是通过此过程创建的,其大小比原始模型缩小了约30%。它只有9400万个参数,与两只果蝇的大脑(约5000万个神经连接)大小相当。在iPhone 14 Pro上,它仅占用191 MB的磁盘空间,每秒可处理115个token。
ChickenBrain则要大得多,拥有32亿个参数,虽然与其他小型语言模型大小相似,但这仍然是其原始模型(80亿参数的Llama模型)大小的60%。更重要的是,团队还在显著减小模型规模的同时,为其添加了推理能力,尽管Multiverse并未透露具体方法。
在MMLU-Pro、Math-500、GSM8K和GPQA-Diamond等基准测试中,ChickenBrain在类似硬件上的表现甚至优于其原始模型。
Mugel总结道:“我们证明了可以修改Llama 3.1 8B,使其在规模更小的情况下功能更强大。这是让AI更精简、更高效的重要一步,也为边缘AI开辟了新的领域。”
复旦大学人工智能创新与孵化研究院教授徐增林认为,张量网络是很有前景的压缩工具,通常比试图简化神经网络层的类似技术效果更好。然而,目前尚不清楚以这种方式压缩的模型在处理更复杂的推理任务时的表现如何。“特别是对于推理链更长的难题,其性能可能不如其他技术,”徐教授补充道。
尽管目前取得了显著的压缩成果,Mugel承认,要将当今最先进的模型压缩到边缘设备上,还有很长的路要走。但他表示,Multiverse的压缩技术还有很大的改进空间,同时更高效的架构也正在将尖端能力带到越来越小的模型中。
“我们还能从30亿个参数中压缩出多少?”他问道,“这很难说,但我相信在不久的将来,我们将看到更好的性能。”
“`
