国际研究团队发现,在AI训练中只需加入一个真实世界数据点,就能彻底防止模型崩溃。这项发表于《物理评论快报》的研究为AI行业应对高质量训练数据枯竭提供了潜在解决方案。
国际研究团队证实,在AI训练过程中仅需加入一个真实世界数据点,就能防止"模型崩溃"——即AI系统因使用自身生成的合成数据训练而退化,最终输出毫无意义的结果。这项研究成果已发表于《物理评论快报》,为当前面临高质量人类生成训练数据日益枯竭的AI行业提供了一种潜在的保障。

模型崩溃这一术语于2024年首次提出,描述的是当AI模型反复基于其他AI系统生成的数据进行训练时发生的情况。随着每一代模型从前一代的输出中学习,罕见特征和少数模式会逐渐丢失——研究人员将此过程比作反复复印一张图片,直至其面目全非。2024年发表在《自然》杂志上的一项里程碑式研究表明,在闭环训练条件下,这一过程本质上不可避免,模型最终会收敛到少数输出结果上。
这一担忧日益紧迫,因为部分研究人员警告称,用于训练大语言模型的高质量人类文本数据最早可能在今年耗尽,迫使开发者越来越依赖机器生成的数据。
来自伦敦国王学院、挪威科技大学和阿布杜斯·萨拉姆国际理论物理中心的研究人员使用指数族统计模型来研究该问题——虽然不如大语言模型复杂,但却是最强大的数据建模工具之一。他们的分析证实,闭环下的标准最大似然训练必然导致模型崩溃。但他们也发现,仅需引入一个来自该循环之外的数据点,或结合先前知识中的先验信念,就足以完全防止模型崩溃。
即使机器生成的数据量比那单个真实数据点多出无数倍,这一效果依然成立。
"通过聚焦于简单模型,我们可以从客观统计角度解释为何加入一个数据点就能防止模型生成胡言乱语,"伦敦国王学院数学系无序系统教授Yasser Roudi表示,"基于这一基础,我们能够建立对未来AI构建至关重要的原则。"
研究人员还发现初步证据表明,该现象不仅限于指数族模型,还适用于受限玻尔兹曼机,暗示这一原则可能具有更广泛的适用性。该团队计划在更大更复杂的模型(包括神经网络)上验证其发现,以确定相同的保护机制是否适用于支撑ChatGPT和自动驾驶汽车等工具的系统。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断