订阅我们的每日和每周新闻通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
在当今快节奏的数字环境中,依赖 AI 的企业面临着新的挑战:运行 AI 模型的延迟、内存使用和计算能力成本。随着 AI 的快速发展,为这些创新提供动力的模型变得越来越复杂,也越来越需要资源。虽然这些大型模型在各种任务中取得了非凡的性能,但它们通常伴随着巨大的计算和内存需求。
对于威胁检测、欺诈检测、生物识别飞机登机等实时 AI 应用,提供快速、准确的结果至关重要。企业加速 AI 实施的真正动力不仅来自节省基础设施和计算成本,还来自实现更高的运营效率、更快的响应时间和无缝的用户体验,这些都转化为切实的业务成果,例如提高客户满意度和减少等待时间。
两种解决方案立即浮现在脑海,但它们并非没有缺点。一种解决方案是训练更小的模型,以牺牲准确性和性能来换取速度。另一种解决方案是投资更好的硬件,例如 GPU,它可以以低延迟运行复杂的、高性能的 AI 模型。然而,由于 GPU 的需求远远超过供应,这种解决方案将迅速推高成本。它也不能解决 AI 模型需要在智能手机等边缘设备上运行的用例。
模型压缩技术应运而生:一套旨在减小 AI 模型的大小和计算需求,同时保持其性能的方法。在本文中,我们将探讨一些模型压缩策略,这些策略将帮助开发人员即使在资源最受限制的环境中也能部署 AI 模型。
机器学习 (ML) 模型应该被压缩的原因有很多。首先,更大的模型通常提供更好的准确性,但需要大量的计算资源来运行预测。许多最先进的模型,例如大型语言模型 (LLM) 和深度神经网络,既计算量大又内存密集。当这些模型部署在实时应用程序中时,例如推荐引擎或威胁检测系统,它们对高性能 GPU 或云基础设施的需求会推高成本。
其次,某些应用程序的延迟要求会增加成本。许多 AI 应用程序依赖于实时或低延迟预测,这需要强大的硬件来保持响应时间较低。预测量越高,持续运行这些模型的成本就越高。
此外,面向消费者的服务中推断请求的巨大数量会导致成本急剧上升。例如,部署在机场、银行或零售场所的解决方案每天将涉及大量的推断请求,每个请求都会消耗计算资源。这种运营负载要求仔细的延迟和成本管理,以确保 AI 的扩展不会耗尽资源。
然而,模型压缩不仅仅是关于成本。更小的模型消耗更少的能量,这转化为移动设备更长的电池寿命和数据中心更低的功耗。这不仅降低了运营成本,而且通过降低碳排放,使 AI 开发与环境可持续性目标相一致。通过解决这些挑战,模型压缩技术为更实用、更具成本效益和更广泛部署的 AI 解决方案铺平了道路。
压缩后的模型可以更快、更有效地执行预测,从而实现实时应用程序,这些应用程序可以增强各个领域的用戶体验,从机场更快的安全检查到实时身份验证。以下是一些常用的 AI 模型压缩技术。
模型剪枝是一种通过删除对模型输出影响很小的参数来减小神经网络大小的技术。通过消除冗余或不重要的权重,模型的计算复杂度降低,从而导致更快的推断时间和更低的内存使用。结果是一个更精简的模型,它仍然表现良好,但需要更少的资源来运行。对于企业来说,剪枝特别有利,因为它可以减少预测的时间和成本,而不会牺牲太多准确性。剪枝后的模型可以重新训练以恢复任何损失的准确性。模型剪枝可以迭代地进行,直到达到所需的模型性能、大小和速度。迭代剪枝等技术有助于有效地减小模型大小,同时保持性能。
量化是优化 ML 模型的另一种强大方法。它降低了用于表示模型参数和计算的数字的精度,通常从 32 位浮点数降低到 8 位整数。这显着减少了模型的内存占用,并通过使其能够在功能较弱的硬件上运行来加快推断速度。内存和速度改进可以高达 4 倍。在计算资源受限的环境中,例如边缘设备或移动电话,量化使企业能够更有效地部署模型。它还大幅降低了运行 AI 服务的能耗,转化为更低的云或硬件成本。
通常,量化是在训练好的 AI 模型上进行的,并使用校准数据集来最大程度地减少性能损失。在性能损失仍然超过可接受范围的情况下,量化感知训练等技术可以通过允许模型在学习过程中本身适应这种压缩来帮助保持准确性。此外,模型量化可以在模型剪枝之后应用,进一步提高延迟,同时保持性能。
这种技术涉及训练一个更小的模型(学生)来模仿一个更大、更复杂的模型(教师)的行为。这个过程通常包括在原始训练数据和教师的软输出(概率分布)上训练学生模型。这有助于不仅转移最终决策,而且将更大模型的细微“推理”转移到更小的模型。
学生模型通过关注数据的关键方面来学习近似教师的性能,从而产生一个轻量级模型,该模型保留了大部分原始模型的准确性,但计算需求要低得多。对于企业来说,知识蒸馏能够部署更小、更快的模型,这些模型以更低的推断成本提供类似的结果。它在速度和效率至关重要的实时应用程序中特别有价值。
可以通过应用剪枝和量化技术进一步压缩学生模型,从而产生一个更轻、更快的模型,其性能与更大的复杂模型类似。
随着企业寻求扩展其 AI 运营,实施实时 AI 解决方案变得至关重要。模型剪枝、量化和知识蒸馏等技术通过优化模型以实现更快、更便宜的预测,而不会造成重大性能损失,为这一挑战提供了切实可行的解决方案。通过采用这些策略,公司可以减少对昂贵硬件的依赖,更广泛地在他们的服务中部署模型,并确保 AI 仍然是他们运营中经济上可行的部分。在一个运营效率可以决定公司创新能力的时代,优化 ML 推断不仅仅是一种选择,而是一种必要。
Chinmay Jog 是 Pangiam 的高级机器学习工程师。
DataDecisionMakers
欢迎来到 VentureBeat 社区!
DataDecisionMakers 是专家(包括从事数据工作的技术人员)分享数据相关见解和创新的地方。
如果您想了解前沿理念和最新信息、最佳实践以及数据和数据技术的未来,请加入我们,加入 DataDecisionMakers。
您甚至可以考虑自己撰写文章!
阅读 DataDecisionMakers 的更多内容