订阅我们的每日和每周新闻通讯,获取有关行业领先人工智能报道的最新更新和独家内容。了解更多
Hugging Face 刚刚发布了 SmolVLM,这是一个紧凑的视觉语言人工智能模型,它可能会改变企业在其运营中使用人工智能的方式。这个新模型以非凡的效率处理图像和文本,同时只需要其竞争对手所需计算能力的一小部分。
时机再好不过了。随着企业努力应对实施大型语言模型的飞涨成本以及视觉人工智能系统的计算需求,SmolVLM 提供了一种务实的解决方案,它不会为了可访问性而牺牲性能。
“SmolVLM 是一种紧凑的开放式多模态模型,它接受任意图像和文本输入序列以生成文本输出,”Hugging Face 的研究团队在模型卡上解释道。
这个模型的显著之处在于其前所未有的效率:它只需要 5.02 GB 的 GPU 内存,而像 Qwen-VL 2B 和 InternVL2 2B 这样的竞争模型分别需要 13.70 GB 和 10.52 GB。
这种效率代表着人工智能开发的根本转变。Hugging Face 并没有遵循行业中“越大越好”的方法,而是证明了精心设计的架构和创新的压缩技术可以在轻量级软件包中提供企业级性能。这可能会极大地降低希望实施人工智能视觉系统的企业的入门门槛。
SmolVLM 背后的技术成就令人瞩目。该模型引入了一种激进的图像压缩系统,比其类别中的任何先前模型都更有效地处理视觉信息。“SmolVLM 使用 81 个视觉标记来编码大小为 384×384 的图像块,”研究人员解释说,这种方法使模型能够处理复杂的视觉任务,同时保持最小的计算开销。
这种创新方法超越了静止图像。在测试中,SmolVLM 在视频分析中表现出意想不到的能力,在 CinePile 基准测试中获得了 27.14% 的分数。这使其在竞争中处于更大的、资源密集型模型之间,表明高效的人工智能架构可能比以前认为的更强大。
SmolVLM 的商业意义深远。通过使计算资源有限的企业能够使用先进的视觉语言功能,Hugging Face 本质上使这项曾经只为科技巨头和资金雄厚的初创公司保留的技术民主化。
该模型有三个变体,旨在满足不同的企业需求。企业可以部署基本版本进行自定义开发,使用合成版本来提高性能,或者实施指令版本以立即部署在面向客户的应用程序中。
SmolVLM 在 Apache 2.0 许可下发布,它建立在形状优化的 SigLIP 图像编码器和 SmolLM2 文本处理的基础上。来自 The Cauldron 和 Docmatix 数据集的训练数据确保了在广泛的业务用例中具有强大的性能。
“我们期待看到社区将用 SmolVLM 创建什么,”研究团队表示。这种对社区开发的开放性,加上全面的文档和集成支持,表明 SmolVLM 在未来几年可能会成为企业人工智能战略的基石。
对人工智能行业的影响是巨大的。随着企业面临着在管理成本和环境影响的同时实施人工智能解决方案的越来越大的压力,SmolVLM 的高效设计为资源密集型模型提供了一个引人注目的替代方案。这可能标志着企业人工智能新时代的开始,在这个时代,性能和可访问性不再是相互排斥的。
该模型可通过 Hugging Face 的平台立即获得,并有可能重塑企业在 2024 年及以后如何进行视觉人工智能实施。