前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
大模型与工程化

基础模型:如何赋能表格数据,应对企业级生产挑战?

NEXTECH
Last updated: 2025年10月2日 上午5:38
By NEXTECH
Share
50 Min Read
SHARE

基础模型是经过海量多样化数据(如音频、文本、图像或其组合)训练的大规模人工智能模型。凭借这种多功能性,基础模型正在彻底改变自然语言处理、计算机视觉乃至时间序列分析领域。与传统的AI算法不同,基础模型无需针对每个特定应用从头开始训练,即可提供开箱即用的预测能力。此外,它们还可以通过微调适应更具体的任务。

Contents
TabPFNCARTETabuLa-8bTabDPT要点总结参考文献

近年来,基础模型在非结构化数据和时间序列领域的应用呈现爆发式增长。这其中包括OpenAI的GPT系列和BERT在文本任务中的应用,CLIP和SAM在目标检测、分类和分割方面的表现,以及PatchTST、Lag-Llama和Moirai-MoE在时间序列预测领域的探索。尽管取得了这些进展,但由于面临多重挑战,表格数据的基础模型仍处于有待深入探索的阶段。首先,表格数据集本质上是异构的,其特征类型(布尔型、类别型、整数型、浮点型)多样,数值特征的量纲也各不相同。其次,表格数据常常存在信息缺失、冗余特征、异常值和类别不平衡等问题。构建表格数据基础模型的另一个挑战是高质量开放数据源的稀缺性。通常,公开数据集规模较小且噪声较大。以表格数据基准测试网站openml.org为例,其中76%的数据集行数不足一万条[2]。

尽管面临这些挑战,一些针对表格数据的基础模型已经问世。本文将对其中大部分模型进行回顾,重点介绍它们的架构和局限性。希望能够解答以下问题:表格数据基础模型的当前发展状况如何?它们是否已准备好应用于生产环境,抑或仅适用于原型开发?与梯度提升等经典机器学习算法相比,基础模型是否更具优势?在一个企业数据以表格形式为主导的世界里,了解正在实现哪些基础模型及其当前能力,对数据科学界而言具有巨大的意义。

TabPFN

首先介绍最广为人知的中小型表格数据基础模型:TabPFN。该算法由Prior Labs开发,首个版本于2022年发布[1],其架构更新已于2025年1月推出[2]。

TabPFN是一种先验数据拟合网络(Prior-Data Fitted Network),它利用贝叶斯推理进行预测。贝叶斯推理中有两个重要概念:先验(prior)和后验(posterior)。先验是反映在观测到任何数据之前,我们对参数的信念或假设的概率分布。例如,掷骰子掷出6的概率是1/6。后验是观测到数据后更新的信念或概率分布,它结合了初始假设(先验)与新的证据。例如,可能会发现掷骰子掷出6的概率并非1/6,因为骰子可能存在偏差。

在TabPFN中,先验通过精心设计的1亿个合成数据集来定义,这些数据集旨在捕捉模型可能遇到的各种潜在场景。这些数据集包含了特征与目标之间广泛的关系类型(更多详情可参阅[2])。

You Might Also Like

AI工程与评估:解锁未来软件开发的新范式与核心挑战
AI赋能教育:NotebookLM教学实践与创新应用指南
京东零售总监胡浩深度解析:大模型如何重塑京东供应链,实现智能预测与决策
AI关怀的奥秘:意识是必要条件,还是殊途同归?

后验是预测分布函数

预测分布函数公式

该函数通过在合成数据集上训练TabPFN模型架构来计算。

模型架构

TabPFN的架构如下图所示:

TabPFN模型架构图

TabPFN模型架构。图片摘自原始论文[2]。

图表的左侧展示了一个典型的表格数据集,它由少量带有输入特征(x1, x2)及其对应目标值(y)的训练行,以及一条包含输入特征但目标值缺失的测试行组成。该网络的目的是预测这条测试行的目标值。

TabPFN架构由一系列12个相同的层构成。每层包含两种注意力机制。首先是1D特征注意力,它学习数据集中特征之间的关系,实质上允许模型“关注”给定预测中最相关的特征。第二种注意力机制是1D样本注意力。该模块查看所有其他样本中的相同特征。样本注意力是实现上下文学习(In-Context Learning, ICL)的关键机制,模型无需任何反向传播即可从提供的训练数据中进行学习。这两种注意力机制使得该架构对样本和特征的顺序都具有不变性。

这12层的输出是一个向量,该向量被馈送到一个多层感知机(MLP)中。MLP是一个小型神经网络,它将向量转换为最终预测。对于分类任务,最终预测并非单一的类别标签,而是输出一个概率向量,其中每个值代表模型对输入属于特定类别的置信度。例如,对于一个三分类问题,输出可能是[0.1, 0.85, 0.05]。这意味着模型有85%的置信度认为输入属于第二个类别。

对于回归任务,MLP的输出层会进行修改,以产生一个连续值,而非离散类别的概率分布。

使用方法

使用TabPFN非常简单!可以通过pip安装或从源代码安装。Prior Labs提供了详尽的文档,其中链接了不同的GitHub仓库,您可以在那里找到Colab Notebooks,以便立即探索此算法。Python API与Scikit-learn的接口类似,使用fit/predict函数。

在TabPFN中,fit函数并非指模型会像传统机器学习方法那样进行训练。相反,fit函数将训练数据集用作上下文。这是因为TabPFN利用了上下文学习(ICL)方法。在此方法中,模型利用其现有知识和训练样本来理解模式并生成更优的预测。ICL仅使用训练数据来指导模型的行为。

TabPFN拥有一个完善的生态系统,您可以通过SHAP找到多种工具来解释模型。它还提供了异常检测和表格数据生成工具。甚至可以将TabPFN与Random Forest等传统模型结合,通过混合方法增强预测。所有这些功能都可以在TabPFN GitHub仓库中找到。

注意与局限性

在对包含数值和类别特征的大型私有数据集进行TabPFN测试后,以下是一些值得注意的经验:

  • 务必首先进行数据预处理。类别列的所有元素必须是字符串类型,否则代码会报错。
  • TabPFN是处理中小型数据集的优秀工具,但不适用于大型表格。如果处理的数据集过大(例如,超过1万行、500个特征以上或超过10个类别),将会触及预训练的限制,从而影响预测性能。
  • 请注意,可能会遇到难以调试的CUDA错误。

如果对TabPFN在不同数据集上与经典提升方法的性能对比感兴趣,强烈推荐Bahadir Akdemir的这篇优秀文章:

TabPFN:预训练Transformer如何在表格数据上超越传统模型(Medium博客文章)

CARTE

第二个表格数据基础模型利用图结构创建了一个有趣的模型架构:即上下文感知表格实体表示(Context Aware Representation of Table Entries),简称CARTE模型[3]。

与图像不同,图像中的对象无论其在图像中的外观如何,都具有特定的特征;而表格数据中的数字,除非通过其相应的列名添加上下文,否则没有意义。为了同时考虑数字及其相应的列名,SODA团队利用图表示法构建了CARTE模型。

CARTE通过将每一行转换为一个小图(graphlet),从而将表格转换为图结构。数据集中的一行被表示为一个小的星形图,其中每个行值都成为一个连接到中心节点的节点。列名则充当图的边。

表格数据集的图表示

表格数据集的图表示。中心节点最初设置为其他节点的平均值。中心节点作为一个元素,捕捉图的整体信息。图片源自原始论文[3]。

对于类别型行值和列名,CARTE使用由语言模型生成的d维嵌入。通过这种方式,无需对原始表格进行先验的数据预处理,例如类别编码。

模型架构

创建的每个小图都包含节点(X)和边(E)特征。这些特征被传递到一个图注意力网络中,该网络改编了经典的Transformer编码器架构。此图注意力网络的一个关键组件是其自注意力层,它同时计算节点特征和边特征的注意力。这使得模型能够理解每个数据项的上下文。

CARTE模型架构图

CARTE模型架构。图片摘自原始论文[3]。

该模型架构还包括一个作用于中心节点的聚合与读取(Aggregate & Readout)层。输出经过处理后用于对比损失。

CARTE在一个名为YAGO3[4]的大型知识库上进行了预训练。该知识库基于维基数据等来源构建,包含超过1810万个三元组和630万个实体。

使用方法

CARTE的GitHub仓库正在积极开发中。其中包含一个Colab Notebook,提供了如何将此模型用于回归和分类任务的示例。根据该Notebook,安装过程非常直接,只需通过pip install即可。与TabPFN类似,CARTE使用Scikit-learn接口(fit-predict)对未见过的数据进行预测。

局限性

根据CARTE论文[3]的介绍,该算法具有一些主要优势,例如对缺失值具有鲁棒性。此外,使用CARTE时不需要进行实体匹配。由于它使用大型语言模型(LLM)来嵌入字符串和列名,该算法可以处理可能表现不同的实体,例如“Londres”而不是“London”。

尽管CARTE在小型表格(少于2000个样本)上表现良好,但在大型数据集上,基于树的模型可能更有效。此外,对于大型数据集,CARTE的计算密集度可能高于传统机器学习模型。

有关此基础模型开发者进行实验的更多详情,这里有一篇由Gaël Varoquaux撰写的优秀博客文章:

CARTE:迈向表格基础模型

TabuLa-8b

本文回顾的第三个基础模型是通过对Llama 3-8B语言模型进行微调构建的。TabuLa-8b的作者认为,通过将行序列化为文本,将文本转换为标记,然后使用语言建模中相同的损失函数和优化方法,可以训练语言模型来执行表格预测任务[5]。

文本序列化示例

文本序列化。TabuLa-8b被训练以生成紧随<|endinput|>标记的标记。图片摘自[5]。

TabuLa-8b的架构采用了一种高效的注意力掩码方案,即行因果表格掩码(Row-Causal Tabular Masking, RCTM)方案。这种掩码允许模型关注同一批次中同一表格的所有先前行,但不会关注来自其他表格的行。这种结构鼓励模型从表格内少量示例中学习,这对于少样本学习至关重要。有关其方法和结果的详细信息,请查阅Josh Gardner等人撰写的原始论文[5]。

使用方法与局限性

GitHub仓库rtfm包含了TabuLa-8b的代码。在Notebooks文件夹中可以找到如何进行推理的示例。需要注意的是,与TabPFN或CARTE不同,TabuLa-8b没有Scikit-learn接口。如果希望进行零样本预测或进一步微调现有模型,需要运行作者开发的Python脚本。

根据原始论文,TabuLa-8b在零样本预测任务中表现良好。然而,在样本数众多、特征数量庞大或列名过长的表格上使用此模型可能会受到限制,因为这些信息可能很快超出大型语言模型(LLM)的上下文窗口(Llama 3-8B模型的上下文窗口为8000个标记)。

TabDPT

本文介绍的最后一个基础模型是表格判别式预训练Transformer(Tabular Discriminative Pre-trained Transformer),简称TabDPT。与TabPFN类似,TabDPT将上下文学习(ICL)与自监督学习相结合,为表格数据创建了一个强大的基础模型。TabDPT在真实世界数据上进行训练(作者使用了来自OpenML的123个公共表格数据集)。据作者称,该模型无需额外训练或超参数调整即可泛化到新任务。

模型架构

TabDPT采用类似于TabPFN的基于行的Transformer编码器,其中每一行都充当一个标记。为了处理训练数据中不同数量的特征(F),作者通过填充(F<Fmax)或降维(F>Fmax)将特征维度标准化为最大特征维度Fmax。

这个基础模型利用自监督学习,本质上是无需为每个任务提供标记目标,即可自行学习。在训练过程中,它随机选择表格中的一列作为目标,然后根据其他列学习预测其值。这个过程有助于模型理解不同特征之间的关系。当在大数据集上训练时,模型不会一次性使用整个表格。相反,它只查找并使用最相似的行(称为“上下文”)来预测单个行(称为“查询”)。这种方法使得训练过程更快、更有效。

TabDPT的架构如下图所示:

TabDPT架构图

TabDPT架构。图片摘自原始论文[6]。

该图说明了该基础模型的训练过程。首先,作者从不同的数据集中抽取了B个表格,构建了一组特征(X)和一组目标(y)。X和y都被划分为上下文(Xctx, yctx)和查询(Xqy, yqy)。查询Xqy是输入,通过嵌入函数(由矩形或三角形表示)传递。模型还为Xctx和yctx创建嵌入。这些上下文嵌入被求和并与Xqy的嵌入连接。然后它们通过一个Transformer编码器,获得查询的分类预测̂y cls或回归预测̂y reg。预测与真实目标之间的损失用于更新模型权重。

使用方法与局限性

有一个GitHub仓库提供了在新表格数据集上生成预测的代码。与TabPFN或CARTE类似,TabDPT使用类似于Scikit-learn的API对未见过的数据进行预测,其中fit函数利用训练数据进行上下文学习。该模型的代码目前正在积极开发中。

尽管论文没有专门的局限性部分,但作者提到了几个限制以及如何处理它们:

  • 模型具有预定义的最大特征数量和类别数量。如果表格超出限制,作者建议使用主成分分析(PCA)来减少特征数量。
  • 对于分类任务,如果类别数量超过模型的限制,可以通过以不同基数表示类别编号,将问题分解为多个子任务。
  • 检索过程可能会在推理过程中增加一些延迟,尽管作者指出这可以通过现代库将其最小化。

要点总结

本文总结了表格数据的基础模型。它们中的大多数于2024年发布,但目前均处于积极开发阶段。尽管这些模型相当新颖,但其中一些已经拥有良好的文档和易用性。例如,可以通过pip安装TabPFN、CARTE或TabDPT。此外,这些模型共享与Scikit-learn相同的API调用,这使得它们易于集成到现有的机器学习应用程序中。

根据此处介绍的基础模型作者的说法,这些算法在性能上优于XGBoost或CatBoost等经典提升方法。然而,基础模型目前仍无法应用于大型表格数据集,这限制了它们的使用,尤其是在生产环境中。这意味着,为每个数据集训练一个机器学习模型的传统方法,仍然是创建表格数据预测模型的首选方案。

表格数据基础模型的研究已取得了长足的进展。展望未来,期待这一令人兴奋的研究领域将带来更多突破!

参考文献

[1] N. Hollman et al., TabPFN: A transformer that solves small tabular classification problems in a second(2023), table representation learning workshop.

[2] N. Hollman et al., Accurate predictions on small data with a tabular foundation model (2025), Nature.

[3] M.J. Kim, L Grinsztajn, and G. Varoquaux. CARTE: Pretaining and Transfer for Tabular Learning (2024), Proceedings of the 41st International conference on Machine Learning, Vienna, Austria.

[4] F. Mahdisoltani, J. Biega, and F.M. Suchanek. Yago3: A knowledge base from multilingual wikipedias (2013), in CIDR.

[5] J. Gardner, J.C. Perdomo, L. Schmidt. Large Scale Transfer Learning for Tabular Data via Language Modeling (2025), NeurlPS.

TAGGED:基础模型大模型工程化机器学习表格数据
Share This Article
Email Copy Link Print
Previous Article 图片 1 解码未来职场:德勤2025年Z世代与千禧一代报告深度洞察
Next Article 图像1:CPU与GPU交替空闲的低效数据管理示例 PyTorch训练循环优化指南:解锁深度学习模型的高效潜力
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251202135921634.jpg
英伟达20亿美元投资新思科技,AI芯片设计革命加速
科技
20251202130505639.jpg
乌克兰国家AI模型选定谷歌Gemma,打造主权人工智能
科技
20251202121525971.jpg
中国开源AI新突破:DeepSeek V3.2模型性能比肩GPT-5
科技
20251202112744609.jpg
马斯克预言:AI三年内解决美国债务危机,可信吗?
科技

相关内容

AI Agent基础架构图
Agent生态

AI Agent任务规划:人机协作与AI自主之争——阿里云RDS AI助手实践

2025年10月23日
AI 前沿技术

AI驱动软件开发:从“写代码”到“聊需求”的范式大转变

2025年10月11日
AI 前沿技术

Ring-1T:开源万亿思考模型,深度解析其训练与卓越性能

2025年10月15日
提示词优化技术概览图
大模型与工程化

大模型提示词优化:降低成本、减少延迟、提升性能的四大核心技巧

2025年10月30日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up