单点真实数据即可防止AI模型崩溃

国际研究团队证实，在AI训练过程中仅需加入一个真实世界数据点，就能防止"模型崩溃"——即AI系统因使用自身生成的合成数据训练而退化，最终输出毫无意义的结果。这项研究成果已发表于《物理评论快报》，为当前面临高质量人类生成训练数据日益枯竭的AI行业提供了一种潜在的保障。

Image 3: 科学家找到避免模型崩溃的方法

数据自噬问题

模型崩溃这一术语于2024年首次提出，描述的是当AI模型反复基于其他AI系统生成的数据进行训练时发生的情况。随着每一代模型从前一代的输出中学习，罕见特征和少数模式会逐渐丢失——研究人员将此过程比作反复复印一张图片，直至其面目全非。2024年发表在《自然》杂志上的一项里程碑式研究表明，在闭环训练条件下，这一过程本质上不可避免，模型最终会收敛到少数输出结果上。

这一担忧日益紧迫，因为部分研究人员警告称，用于训练大语言模型的高质量人类文本数据最早可能在今年耗尽，迫使开发者越来越依赖机器生成的数据。

一个数据点，无限保护

来自伦敦国王学院、挪威科技大学和阿布杜斯·萨拉姆国际理论物理中心的研究人员使用指数族统计模型来研究该问题——虽然不如大语言模型复杂，但却是最强大的数据建模工具之一。他们的分析证实，闭环下的标准最大似然训练必然导致模型崩溃。但他们也发现，仅需引入一个来自该循环之外的数据点，或结合先前知识中的先验信念，就足以完全防止模型崩溃。

即使机器生成的数据量比那单个真实数据点多出无数倍，这一效果依然成立。

"通过聚焦于简单模型，我们可以从客观统计角度解释为何加入一个数据点就能防止模型生成胡言乱语，"伦敦国王学院数学系无序系统教授Yasser Roudi表示，"基于这一基础，我们能够建立对未来AI构建至关重要的原则。"