前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
未分类

数据越多模型越好?深度解析数据量与质量对机器学习性能的真实影响

NEXTECH
Last updated: 2025年11月11日 上午7:48
By NEXTECH
Share
25 Min Read
SHARE

在数据科学领域,模型性能的提升是核心追求。当模型在现有数据上表现不尽如人意时,数据科学家们会尝试多种技术,从调整模型复杂度到数据清洗与预处理等。然而,人们常常被建议“只需要”获取更多数据。但获取更多数据远非易事,更重要的是,我们或许应该停下来,审视这种普遍的观念。

Contents
何谓“更多数据”?案例一:增加样本量案例二:增加属性(特征)结论值得深思的经验:亲自动手尝试!参考文献:

那么,添加更多数据真的总能带来更好的模型性能吗?

本文将通过真实数据和一款为此目的构建的工具,对这一说法进行深入探讨。文章旨在揭示数据收集和扩展过程中隐藏的微妙之处,挑战“数据量增加必然带来性能提升”的固有观念,并呼吁在实践中采取更审慎、更具策略性的数据运用方式。

何谓“更多数据”?

首先,需要明确“更多数据”究竟意味着什么。在最常见的场景中,我们通常将数据视为表格形式。当提及获取更多数据时,人们首先想到的往往是向数据框中增加更多行,即增加更多数据点或样本。

然而,另一种方法是增加更多列,即增加更多属性或特征。第一种方法是垂直扩展数据,而第二种方法则是水平扩展数据。

接下来,我们将探讨这两种数据扩展方法的共性和特性。

数据可以通过增加样本或增加列来扩展。

You Might Also Like

AI写作没灵魂?三步教你调教AI,轻松写出高原创爆款文!
谷歌云AI代理技术深度解析:构建未来智能系统的完整框架
2024全球葡萄酒产业深度解析:产量创60年新低,2025三大趋势展望
深入Triton:从向量加法看高性能GPU编程,为大模型优化提速

案例一:增加样本量

首先,考虑增加样本量的情况。那么,增加样本量必然会提高模型性能吗?

为了深入探究这个问题,一个工具被开发出来并托管在HuggingFace平台上。该工具允许用户在使用决策树分析UCI Irvine学生辍学与学业成功预测数据集[1]时,实验改变属性集、样本量和/或模型复杂度的效果。尽管该工具和数据集主要用于教育目的,但从中仍能得出超越基本设定的宝贵通用见解。

特征/深度/样本探索工具
…

特征/深度/样本探索工具特征/深度/样本探索工具

假设学校院长交给一批学生记录,并要求找出预测学生辍学的因素以解决此问题。初始提供了1500个数据点,其中700个数据点作为隐藏测试集,其余用于训练。这批数据包含学生的国籍、父母职业,以及GDP、通货膨胀率和失业率等信息。

然而,初步结果并不理想,F1分数较低。于是,自然而然地,人们会请求院长设法获取更多学生记录(例如来自往年或其他学校的数据)。在数周内,院长陆续提供了新的数据批次。每次获得新数据后,实验都会重新运行。按照传统观念,增加数据量应该会稳步改善建模过程(测试F1分数应单调递增),但实际观察到的情况并非如此。随着更多数据的加入,模型性能反而出现不规则的波动。这令人感到困惑:为什么更多数据有时会损害性能?为什么在添加某个批次数据后,F1分数从46%下降到39%?这种关系难道不应该是因果的吗?

样本数量与性能的关系:即使通过交叉验证的超参数调优,训练和测试F1分数也会随着样本数量的增加而波动。增加样本的影响可能复杂且违反直觉。

实际上,问题在于额外样本是否必然提供了更多信息。首先,可以思考这些额外样本的性质:

  • 它们可能是错误的(例如,数据采集中存在错误)
  • 它们可能存在偏差(例如,过度代表了与测试集所代表的真实分布不符的特殊情况)
  • 测试集本身可能存在偏差…
  • 某些批次数据可能引入了虚假模式,随后又被其他批次抵消。
  • 所收集的属性与目标之间可能建立很少或根本没有关联或因果关系(即存在未被考虑的潜在变量)。因此,无论增加多少样本,都无法带来实质性进展!

所以,是的,增加数据量通常是一个好主意,但必须关注数据中的不一致性(例如,两个国籍和社**地位相同的学生,可能因其他因素而走向不同的道路)。我们还必须仔细评估现有属性的有用性(例如,也许GDP与学生辍学率并无关联)。

有人可能会争辩说,当拥有大量真实数据时,这不会成为问题(毕竟,这是一个相对较小的数据集)。这种论点有其道理,但前提是数据经过良好同质化,并考虑了属性集的不同变异性和“自由度”(即每个属性可以取值的范围以及这些值在现实世界中可能出现的组合)。研究表明,即使是那些被认为是“黄金标准”的大型数据集,也可能以有趣且隐蔽的方式表现出偏差,这些偏差在第一眼看来并不容易发现,从而导致误导性的高准确率报告[2]。

案例二:增加属性(特征)

现在,谈到属性,考虑另一种情况:如果院长未能获取更多学生记录,但他走过来对数据科学家说:“嘿,我没能拿到更多学生记录……但我用SQL查询为你获取了更多属性……我相信你现在可以提升模型性能了。对吧?……对吧?!”

特征集与性能的关系:每条垂直线代表决策树(800个样本,经过交叉验证的超参数调优)在增加一个新属性后重新训练的结果。有些属性(如“母亲职业”)有所帮助,而另一些(如“父亲职业”和“性别”)则会损害性能。更多的列有时意味着更多的噪声和更多过拟合的机会。

那么,我们来验证一下。以下面的例子为例,通过逐步增加属性,扩展学生档案,包括他们的婚姻状况、财务状况和移民身份。每次添加一个属性,都会重新训练决策树并评估其性能。正如所示,某些新增属性确实提升了性能,而另一些却实际上损害了性能。这又是为何呢?

更仔细地审视属性集,会发现并非所有属性都携带有用的信息。现实世界是复杂的……某些属性(例如,性别)可能会在训练集中引入噪声或虚假相关性,从而无法很好地泛化到测试集(导致过拟合)。

此外,尽管普遍认为在增加数据量时应该提高模型复杂度,但这种做法并非总能带来最佳结果。有时,在增加属性时,降低模型复杂度反而有助于缓解过拟合(例如,当“课程”属性被引入时)。

特征集与决策树深度:随着属性的增加,最优决策树深度(通过网格搜索选择)会发生波动。请注意,更多的属性并不总是意味着更深的决策树。

结论

回过头来审视全局,我们发现虽然收集更多数据是值得称赞的,但不能自动假定模型性能会因此而提升。这里涉及两种相互作用的力量:模型拟合训练数据的程度,以及这种拟合泛化并扩展到未见数据的可靠性。

下面总结了不同类型的“更多数据”如何影响这些力量——取决于新增数据的质量是好(具有代表性、一致性、信息量)还是差(有偏差、噪声大、不一致):

数据扩展方式 数据质量良好时 数据质量较差时
训练误差 测试误差 训练误差 测试误差
更多样本(行) 可能略微上升(更多变异使拟合更困难) 通常下降。模型变得更稳定和自信。 可能波动,因为存在冲突的例子。 通常上升。
更多属性(列) 通常下降(更多信号带来更丰富的表示) 下降,因为属性编码了真实且可泛化的模式。 通常下降(模型记忆了噪声模式)。 上升,因为存在虚假关联。

泛化能力不仅仅取决于数据量,还与数据质量以及模型复杂度的恰当性息息相关。

总而言之,下次当有人建议“仅仅”通过获取更多数据来神奇地提升模型准确性时,请与他们讨论这种方案的复杂性。深入探讨所获取数据的性质、规模和质量特征,并指出数据与模型复杂度之间微妙的相互作用。这将有助于确保他们的努力是富有成效的!

值得深思的经验:

  • 在可能的情况下,不要轻信他人之言。亲自实验验证!
  • 增加训练数据点时,问问自己:这些样本是否代表了你正在建模的现象?它们是否向模型展示了更有趣的真实案例?或者它们是否带有偏差和/或不一致性?
  • 增加属性时,问问自己:这些属性是否被假定携带有助于我们做出更好预测的信息?或者它们大部分只是噪声?
  • 最终,进行超参数调优和适当的验证,以消除在评估新训练数据信息量时的疑虑。

亲自动手尝试!

如果您希望亲自探索本文中展示的动态,交互式工具可在此处访问。通过调整样本量、属性数量和/或模型深度进行实验,您将观察到这些调整对模型性能的影响。此类实践实验将丰富您对数据科学和分析背后机制的理解和视角。

参考文献:

[1] M.V.Martins, D. Tolledo, J. Machado, L. M.T. Baptista, V.Realinho. (2021) “Early prediction of student’s performance in higher education: a case study” Trends and Applications in Information Systems and Technologies, vol.1, in Advances in Intelligent Systems and Computing series. Springer. DOI: 10.1007/978-3-030-72657-7_16。该数据集遵循知识共享署名4.0国际(CC BY 4.0)许可协议。这意味着数据集可以用于任何目的的共享和改编,但需注明出处。

TAGGED:数据质量机器学习模型性能特征工程过拟合
Share This Article
Email Copy Link Print
Previous Article MinerU、PaddleOCR、DeepSeek-OCR对比概览图 OCR王者争霸:MinerU、PaddleOCR、DeepSeek-OCR 实测对比与多模态PDF解析系统集成
Next Article AI行业观察 AI的慢思考:迎接“工程师”时代,探讨AI行业人才之战与职业发展
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251202135921634.jpg
英伟达20亿美元投资新思科技,AI芯片设计革命加速
科技
20251202130505639.jpg
乌克兰国家AI模型选定谷歌Gemma,打造主权人工智能
科技
20251202121525971.jpg
中国开源AI新突破:DeepSeek V3.2模型性能比肩GPT-5
科技
20251202112744609.jpg
马斯克预言:AI三年内解决美国债务危机,可信吗?
科技

相关内容

原始的注意力机制公式图示
未分类

洞察AI未来:2025年十大必读论文深度解析

2025年11月6日
元数据分析是准备视频数据的重要第一步
未分类

深度学习视频数据预处理:高效工具 Vid Prepper 全面解析

2025年9月30日
未分类

蝉妈妈智库:2024年抖音电商年报

2025年1月28日
图像1:CPU与GPU交替空闲的低效数据管理示例
未分类

PyTorch训练循环优化指南:解锁深度学习模型的高效潜力

2025年10月2日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up