如今,训练任何模型都变得异常简单。训练过程似乎总是通过同一个看似相同的fit方法完成。因此,人们习惯于认为训练 […]
如今,训练任何模型都变得异常简单。训练过程似乎总是通过同一个看似相同的fit方法完成。因此,人们习惯于认为训练任何模型都是相似且简单的。
随着自动机器学习(autoML)、网格搜索和生成式AI的出现,“训练”机器学习模型甚至可以通过简单的“提示”来完成。
但现实是,当我们调用model.fit时,每个模型背后的训练过程可能截然不同。每个模型处理数据的方式也大相径庭。
可以观察到两种几乎背道而驰的趋势:
理解所使用的模型至关重要。而理解它们的最佳方式,就是亲手实现它们。有些人使用Python、R或其他编程语言来实现。但对于不编程的人来说,这仍然存在障碍。如今,理解人工智能对每个人都至关重要。此外,使用编程语言也可能将一些操作隐藏在已有的函数背后。由于函数被编码后运行,仅给出结果,这意味着每个操作步骤并未被清晰地展示出来,缺乏视觉化的解释。
因此,探索模型的最佳工具,被认为是Excel。其公式能够清晰地展示计算的每一步。
事实上,当拿到一个数据集时,大多数非程序员会首先在Excel中打开它以了解内容。这在商业世界中非常普遍。
即便是许多数据科学家,包括本文观点来源者,也会使用Excel快速浏览数据。在需要解释结果时,直接在Excel中展示往往是最有效的方式,尤其是在面对高管时。
在Excel中,一切都是可见的。不存在“黑箱”。可以看到每一个公式、每一个数字、每一次计算。
这极大地有助于理解模型的实际工作原理,没有捷径可言。
此外,无需安装任何额外软件。只需要一个电子表格。
接下来将发布一系列文章,介绍如何在Excel中理解和实现机器学习及深度学习模型。
作为“知识探索日历”系列,计划每天发布一篇文章。

由Gemini生成:“AI知识探索日历”
对于正在学习的学生,这些文章提供了一个实践视角,旨在理解复杂公式的意义。
对于机器学习或AI开发者,有时可能没有深入学习过理论——但现在,无需复杂的代数、概率或统计知识,就可以揭开model.fit背后的黑箱。因为对于所有模型,虽然都调用model.fit,但实际上,这些模型可能千差万别。
这也适合那些可能不具备全部技术背景的管理者,Excel将为他们提供模型背后所有直观的概念。因此,结合业务专长,可以更好地判断机器学习是否真的必要,以及哪种模型可能更合适。
总而言之,目的是为了更好地理解模型、模型的训练过程、模型的可解释性以及不同模型之间的联系。
从实践者的角度,通常将模型分为以下两类:监督学习和无监督学习。
对于监督学习,有回归和分类。对于无监督学习,有聚类和降维。

从实践者视角看机器学习模型概览 – 图片由作者提供
但肯定已经注意到,有些算法可能共享相同或相似的方法,例如KNN分类器与KNN回归器,决策树分类器与决策树回归器,线性回归与“线性分类器”。
回归树和线性回归有相同的目标,即执行回归任务。但当尝试在Excel中实现它们时,会发现回归树与分类树非常接近。而线性回归则更接近神经网络。
有时人们会混淆K-NN和K-means。有人可能认为它们的目标完全不同,混淆它们是初学者的错误。但是,也必须承认它们共享计算数据点之间距离的相同方法。因此它们之间存在关联。
孤立森林也是如此,可以看到随机森林中也存在“森林”。
因此,将从理论角度组织所有模型。主要有三种方法,并且将清晰地看到这些方法在Excel中以非常不同的方式实现。
这个概览将有助于导航所有不同的模型,并在许多模型之间建立联系。

按理论方法组织的机器学习模型概览 – 图片由作者提供
对于每个模型,将尝试回答以下问题。
关于模型的一般性问题:
特征是如何建模的:
如何量化特征的重要性?这个问题也将被讨论。可能知道像LIME和SHAP这样的包非常流行,并且它们是模型无关的。但事实是,每个模型的行为都相当不同,直接通过模型进行解释也很有趣且重要。
每个模型将单独成文,但会讨论与其他模型的联系。
由于真正打开了每个“黑箱”,也将了解如何对某些模型进行理论改进。
对于每个模型,还将讨论大多数传统课程会遗漏的一个特定点。这被称为机器学习模型的“未授之课”。
在这些文章中,将只关注模型的工作原理和训练方式。不会讨论超参数调优,因为这个过程对于每个模型本质上是相同的。通常使用网格搜索。

下方将提供一个列表,计划从12月1日开始,每天更新发布一篇文章!
敬请期待!
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断