现代深度学习模型普遍过参数化,却能良好泛化。本文解析Sharpness-Aware Minimization优化器如何通过寻找平坦极小值,提升模型在测试集上的表现,打破经典机器学习理论中过拟合必然泛化差的预言。

图片由作者用 Claude Sonnet 4.5 生成
现代深度学习的巨大成功——尤其在计算机视觉和自然语言处理领域——建立在**“过参数化”**模型之上:这些模型的参数数量远超完美记忆训练数据所需。功能上,当一个模型能在给定任务上轻松达到接近100%的训练准确率、训练损失趋近于零时,就可判定为过参数化。
但这样的模型是否有用,取决于它在测试集上的表现。测试集与训练集同分布,但训练时从未见过。这种在未见样本上保持性能的能力称为**“泛化能力”**,是深度学习模型具备实用价值的根本。
经典机器学习理论告诉我们,过参数化模型应该灾难性地过拟合,因此泛化能力很差。然而,过去十年最令人意外的发现之一是:这类模型往往能泛化得相当好。
为什么过参数化模型还能泛化? 关键在于优化器选择的目标函数形状。传统的随机梯度下降(SGD)容易收敛到陡峭的极小值,微小的参数扰动就会导致损失剧增。而Sharpness-Aware Minimization(SAM)优化器通过一个精巧的min-max过程,同时最小化损失值和损失表面的“尖锐程度”,迫使模型找到平坦的极小值区域。平坦极小值的模型对参数扰动更鲁棒,因此在分布外数据上表现更稳定。
SAM的工作原理:在每个训练步骤,SAM先沿着梯度方向主动添加一个扰动,计算扰动后的损失梯度,然后用这个“对抗性”梯度更新原始参数。这个步骤看似简单,却显著提升了ResNet、ViT、BERT等主流架构的泛化能力,在很多基准测试上将测试准确率提升1-3个百分点。
实际应用建议:
虽然SAM不是万能药,但它提供了一个优雅的视角:好的泛化不是来自模型复杂度与数据量的简单匹配,而是来自对解空间几何性质的刻意塑造。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断