前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

SAM优化器:破解深度学习过参数化难题

技术2026年6月20日· 6 分钟阅读1 阅读

现代深度学习模型普遍过参数化,却能良好泛化。本文解析Sharpness-Aware Minimization优化器如何通过寻找平坦极小值,提升模型在测试集上的表现,打破经典机器学习理论中过拟合必然泛化差的预言。

Image 2

图片由作者用 Claude Sonnet 4.5 生成

过参数化、泛化能力与SAM

现代深度学习的巨大成功——尤其在计算机视觉和自然语言处理领域——建立在**“过参数化”**模型之上:这些模型的参数数量远超完美记忆训练数据所需。功能上,当一个模型能在给定任务上轻松达到接近100%的训练准确率、训练损失趋近于零时,就可判定为过参数化。

但这样的模型是否有用,取决于它在测试集上的表现。测试集与训练集同分布,但训练时从未见过。这种在未见样本上保持性能的能力称为**“泛化能力”**,是深度学习模型具备实用价值的根本。

经典机器学习理论告诉我们,过参数化模型应该灾难性地过拟合,因此泛化能力很差。然而,过去十年最令人意外的发现之一是:这类模型往往能泛化得相当好。


为什么过参数化模型还能泛化? 关键在于优化器选择的目标函数形状。传统的随机梯度下降(SGD)容易收敛到陡峭的极小值,微小的参数扰动就会导致损失剧增。而Sharpness-Aware Minimization(SAM)优化器通过一个精巧的min-max过程,同时最小化损失值和损失表面的“尖锐程度”,迫使模型找到平坦的极小值区域。平坦极小值的模型对参数扰动更鲁棒,因此在分布外数据上表现更稳定。

SAM的工作原理:在每个训练步骤,SAM先沿着梯度方向主动添加一个扰动,计算扰动后的损失梯度,然后用这个“对抗性”梯度更新原始参数。这个步骤看似简单,却显著提升了ResNet、ViT、BERT等主流架构的泛化能力,在很多基准测试上将测试准确率提升1-3个百分点。

实际应用建议:

  • 训练大模型(如ViT、GPT系列)时,SAM可作为默认优化器,尤其当训练数据量不足时效果更明显
  • SAM的计算开销大约是标准SGD的2倍,但换来的是更好的泛化,通常能减少对数据增强和正则化的依赖
  • 推荐超参数:rho(扰动半径)设为0.05~0.1,配合余弦学习率调度

虽然SAM不是万能药,但它提供了一个优雅的视角:好的泛化不是来自模型复杂度与数据量的简单匹配,而是来自对解空间几何性质的刻意塑造。

标签:优化器SAM泛化能力

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

现代汽车3.25亿美元全资收购波士顿动力
TOP1

现代汽车3.25亿美元全资收购波士顿动力

挪威今秋起禁止小学使用AI工具
TOP2

挪威今秋起禁止小学使用AI工具

3

AI辅助罕见遗传病诊断,新增确诊率4.8%

10小时前
AI辅助罕见遗传病诊断,新增确诊率4.8%
4

特朗普改口:Anthropic很负责

2小时前
特朗普改口:Anthropic很负责
5

英特尔CEO立下十倍回报目标

2小时前
英特尔CEO立下十倍回报目标
6

提升 ChatGPT 的健康智能

10小时前
提升 ChatGPT 的健康智能
7

Valar Atomics微反应器临界,首座非实验室场地

2小时前
Valar Atomics微反应器临界,首座非实验室场地
8

SAM优化器:破解深度学习过参数化难题

2小时前
SAM优化器:破解深度学习过参数化难题
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款