合成数据有局限，人类数据助AI模型稳定

订阅我们的每日和每周新闻通讯，获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多

科技界风云变幻，瞬息万变。仅仅两年前，人工智能还被誉为“下一个改变世界的颠覆性技术”。然而，如今，人工智能并没有如预期般达到“天网”的水平，反而正在走向衰退，这真是颇具讽刺意味。

曾经被视为新智能时代的先驱，人工智能如今却在自己的代码中跌跌撞撞，难以实现当初的辉煌承诺。究竟是为什么呢？简单来说，我们正在剥夺人工智能真正智能的源泉：人类生成的数据。

为了满足这些数据饥渴的模型，研究人员和机构越来越多地转向合成数据。虽然这种做法长期以来一直是人工智能开发的支柱，但我们现在正在过度依赖合成数据，这导致人工智能模型逐渐退化，进入危险的境地。这不仅仅是 ChatGPT 生成次优结果的轻微问题，其后果远比这更为严重。

当人工智能模型在先前迭代生成的输出上进行训练时，它们往往会传播错误并引入噪声，导致输出质量下降。这种递归过程将熟悉的“垃圾进，垃圾出”循环变成了一个自我延续的问题，显著降低了系统的有效性。随着人工智能越来越远离人类般的理解和准确性，它不仅会损害性能，还会引发人们对长期依赖自生成数据进行人工智能开发的可行性的严重担忧。

但这不仅仅是技术的退化，而是现实、身份和数据真实性的退化，对人类和社会构成严重风险。其连锁反应可能非常深远，导致关键错误增多。随着这些模型的准确性和可靠性下降，后果可能是灾难性的——想想医疗误诊、经济损失，甚至危及生命的意外事故。

另一个主要影响是，人工智能开发可能会完全停滞，导致人工智能系统无法摄取新数据，本质上成为“时间静止”。这种停滞不仅会阻碍进步，还会将人工智能困在收益递减的循环中，对技术和社会产生潜在的灾难性影响。

但从实际角度来看，企业可以采取哪些措施来确保其客户和用户的安全？在我们回答这个问题之前，我们需要了解这一切是如何运作的。

人工智能生成的内容在网上传播得越快，它就会越快地渗透到数据集中，进而渗透到模型本身。而且这种情况正在加速发生，使得开发人员越来越难以过滤掉任何不是纯粹的人类创建的训练数据。事实上，在训练中使用合成内容会导致一种有害的现象，称为“模型崩溃”或“模型自噬障碍 (MAD)”。

模型崩溃是指人工智能系统逐渐失去对它们应该建模的真实底层数据分布的理解的退化过程。这种情况通常发生在人工智能在它自己生成的内容上递归训练时，导致一系列问题：

细微差别丢失：模型开始忘记离群数据或代表性不足的信息，而这些信息对于全面理解任何数据集至关重要。
多样性降低：模型产生的输出的多样性和质量明显下降。
偏见放大：现有的偏见，尤其是针对边缘群体的偏见，可能会随着模型忽略可能减轻这些偏见的信息而加剧。
生成无意义的输出：随着时间的推移，模型可能会开始生成与主题完全无关或毫无意义的输出。

一个典型的例子：发表在《自然》杂志上的一项研究强调了递归训练在人工智能生成文本上的语言模型的快速退化。在第九次迭代中，这些模型被发现产生了完全不相关和无意义的内容，证明了数据质量和模型效用的迅速下降。

企业组织处于独特的位置，可以负责任地塑造人工智能的未来，并且他们可以采取明确的可操作步骤来保持人工智能系统的准确性和可信度：

投资数据来源工具：能够追踪每条数据的来源以及它如何随时间变化的工具，可以让公司对其人工智能输入充满信心。通过清晰地了解数据来源，组织可以避免向模型提供不可靠或有偏见的信息。
部署人工智能驱动的过滤器来检测合成内容：高级过滤器可以在合成内容或低质量内容进入训练数据集之前将其拦截。这些过滤器有助于确保模型从真实的人类创建的信息中学习，而不是缺乏现实世界复杂性的合成数据。
与值得信赖的数据提供商合作：与经过验证的数据提供商建立牢固的关系，可以为组织提供稳定的真实、高质量数据供应。这意味着人工智能模型会获得反映实际情况的真实、细致的信息，从而提高性能和相关性。
促进数字素养和意识：通过教育团队和客户了解数据真实性的重要性，组织可以帮助人们识别人工智能生成的内容，并了解合成数据的风险。围绕负责任的数据使用建立意识，可以培养一种重视人工智能开发中准确性和完整性的文化。

人工智能的未来取决于负责任的行动。企业有机会让人工智能保持准确性和完整性。通过选择真实的人类来源数据而不是捷径，优先使用能够捕获和过滤低质量内容的工具，并鼓励围绕数字真实性的意识，组织可以为人工智能设定一条更安全、更智能的道路。让我们专注于构建一个人工智能既强大又真正有利于社会未来的世界。

Rick Song 是 Persona 的首席执行官兼联合创始人。

DataDecisionMakers

欢迎来到 VentureBeat 社区！

DataDecisionMakers 是专家（包括从事数据工作的人员）分享数据相关见解和创新的平台。

如果您想了解前沿理念、最新信息、最佳实践以及数据和数据技术的未来，请加入我们 DataDecisionMakers。

您甚至可以考虑撰写文章！

阅读 DataDecisionMakers 的更多内容

合成数据有局限，人类数据助AI模型稳定

发表回复取消回复

最新内容

智电车讯：2025年前四月中国汽车出口193.7万辆，同比增长6%

Mindfactory：2025年第19周AMD CPU销量占比91.13%

本田汽车：2030年电动车销量占比或降至20%

高通：2029年PC市场份额目标12%，营收40亿美元

相关内容

微软打造未来材料AI设计

AI主权之争：各国竞建AI工厂

癌症诊断为何难以使用 AI

AI

分类

快速链接

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复