SAM优化器：破解深度学习过参数化难题

技术2026年6月20日· 6 分钟阅读1 阅读

现代深度学习模型普遍过参数化，却能良好泛化。本文解析Sharpness-Aware Minimization优化器如何通过寻找平坦极小值，提升模型在测试集上的表现，打破经典机器学习理论中过拟合必然泛化差的预言。

图片由作者用 Claude Sonnet 4.5 生成

过参数化、泛化能力与SAM

现代深度学习的巨大成功——尤其在计算机视觉和自然语言处理领域——建立在**“过参数化”**模型之上：这些模型的参数数量远超完美记忆训练数据所需。功能上，当一个模型能在给定任务上轻松达到接近100%的训练准确率、训练损失趋近于零时，就可判定为过参数化。

但这样的模型是否有用，取决于它在测试集上的表现。测试集与训练集同分布，但训练时从未见过。这种在未见样本上保持性能的能力称为**“泛化能力”**，是深度学习模型具备实用价值的根本。

经典机器学习理论告诉我们，过参数化模型应该灾难性地过拟合，因此泛化能力很差。然而，过去十年最令人意外的发现之一是：这类模型往往能泛化得相当好。

为什么过参数化模型还能泛化？ 关键在于优化器选择的目标函数形状。传统的随机梯度下降（SGD）容易收敛到陡峭的极小值，微小的参数扰动就会导致损失剧增。而Sharpness-Aware Minimization（SAM）优化器通过一个精巧的min-max过程，同时最小化损失值和损失表面的“尖锐程度”，迫使模型找到平坦的极小值区域。平坦极小值的模型对参数扰动更鲁棒，因此在分布外数据上表现更稳定。

SAM的工作原理：在每个训练步骤，SAM先沿着梯度方向主动添加一个扰动，计算扰动后的损失梯度，然后用这个“对抗性”梯度更新原始参数。这个步骤看似简单，却显著提升了ResNet、ViT、BERT等主流架构的泛化能力，在很多基准测试上将测试准确率提升1-3个百分点。

实际应用建议：