传统机器学习认为参数越多越容易过拟合,但GPT-3等千亿参数大模型却越做越好。本文拆解“良性过参数化”现象,解释为什么规则在AI这里失效了。
传统机器学习的教科书上写着一条铁律:模型参数越多,越容易过拟合。偏差-方差权衡理论告诉我们,参数多了,方差就会飙升,模型在训练集上表现完美,但在新数据上一塌糊涂。
然后我们造出了GPT。
1000亿参数,训练集里的数据几乎能背下来——按照经典理论,它应该是个灾难级的过拟合模型。但事实恰好相反:它泛化能力惊人,能写文章、能编程、能聊天,甚至在很多任务上超越了小模型。
这就像你造了一架理论上不可能飞起来的飞机,结果它飞得比谁都高。
研究者给这个反直觉的现象起了个名字:良性过参数化(Benign Overparameterization)。意思是说,当模型规模大到某个临界点后,更多的参数不仅不会导致过拟合,反而会帮助模型学到更简单的、泛化能力更强的解。
想象一下:一个只有10个参数的小模型,必须小心翼翼地调整每个参数来拟合数据,稍微动一下就会偏离。而一个1000亿参数的大模型,它有很多“冗余”的空间,可以同时记忆噪声和真正有用的模式。关键在于,在优化过程中,这些冗余参数会相互制约,最终让模型倾向于选择一种“最简单的”内在表示——这种表示恰好具有很好的泛化性。
这就像百度搜索的算法:小规模索引时,你只能精确匹配关键词,容易钻牛角尖;当索引规模达到千亿级别,反而能通过海量相关性信号找到用户的真实意图。
关键点在于“隐式正则化”。虽然参数数量巨大,但深度学习中的随机梯度下降(SGD)本身就带有一种“压缩”效果。它偏爱那些“低复杂度”的解,即使参数空间巨大,模型实际使用的有效维度可能远小于参数总数。
另一个因素是数据本身的维度。大模型看到的数据(文本、图像)本质上位于一个低维流形上。参数再多,只要数据流形的内在维度不高,模型就有能力“塞进”足够的冗余而不丢失泛化能力。
打个比方:你用微信发一条朋友圈,发100字和发1000字,内容质量可能天差地别。但如果你是写一本小说,100万字可能比10万字写得更好——因为你有了足够的篇幅去讲好一个完整的故事。大模型的“篇幅”就是它的参数量。
中国的AI公司在做大模型时也面临同样的困惑:为什么参数越多,效果反而越好?百度文心一言、阿里巴巴通义千问、腾讯混元等,都在不断推高参数规模。
但“良性过参数化”也有边界。它需要三个条件:
如果数据质量差、训练不稳定,大参数反而会放大错误。就像微博上信息过载,如果推荐算法不好,用户只会被噪声淹没。
那条“更大必过拟合”的规则,已经被大模型亲手撕碎。但这并不意味着规则没有意义——它只是告诉我们,在全新的尺度下,旧的物理学需要被重新审视。
对工程师而言,理解“良性过参数化”有助于设计更高效的训练策略;对从业者而言,它提醒我们:有时候,看似违背直觉的做法,恰恰是通往突破的捷径。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断