前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
未分类

机器学习模型揭秘:用Excel亲手实现,告别“黑箱”时代

NEXTECH
Last updated: 2025年12月1日 上午6:58
By NEXTECH
Share
18 Min Read
SHARE

如今,训练任何模型都变得异常简单。训练过程似乎总是通过同一个看似相同的fit方法完成。因此,人们习惯于认为训练任何模型都是相似且简单的。

Contents
本系列适合谁?文章结构模型训练与超参数调优文章列表

随着自动机器学习(autoML)、网格搜索和生成式AI的出现,“训练”机器学习模型甚至可以通过简单的“提示”来完成。

但现实是,当我们调用model.fit时,每个模型背后的训练过程可能截然不同。每个模型处理数据的方式也大相径庭。

可以观察到两种几乎背道而驰的趋势:

  • 一方面,人们训练、使用、操纵和预测的模型(例如生成式模型)变得越来越复杂。
  • 另一方面,有时却难以解释简单模型(如线性回归、线性判别分类器)的原理,也无法手动复现其结果。

理解所使用的模型至关重要。而理解它们的最佳方式,就是亲手实现它们。有些人使用Python、R或其他编程语言来实现。但对于不编程的人来说,这仍然存在障碍。如今,理解人工智能对每个人都至关重要。此外,使用编程语言也可能将一些操作隐藏在已有的函数背后。由于函数被编码后运行,仅给出结果,这意味着每个操作步骤并未被清晰地展示出来,缺乏视觉化的解释。

因此,探索模型的最佳工具,被认为是Excel。其公式能够清晰地展示计算的每一步。

You Might Also Like

CoreWeave收购Monolith AI:AI云巨头进军工业制造,重塑未来格局
电擎科技完成数千万元A1轮融资
量子计算遇上机器学习:突破经典瓶颈,开启智能新篇章
联邦学习中的自定义聚合方案:利用Scaleout平台实现模型安全与攻击防御

事实上,当拿到一个数据集时,大多数非程序员会首先在Excel中打开它以了解内容。这在商业世界中非常普遍。

即便是许多数据科学家,包括本文观点来源者,也会使用Excel快速浏览数据。在需要解释结果时,直接在Excel中展示往往是最有效的方式,尤其是在面对高管时。

在Excel中,一切都是可见的。不存在“黑箱”。可以看到每一个公式、每一个数字、每一次计算。

这极大地有助于理解模型的实际工作原理,没有捷径可言。

此外,无需安装任何额外软件。只需要一个电子表格。

接下来将发布一系列文章,介绍如何在Excel中理解和实现机器学习及深度学习模型。

作为“知识探索日历”系列,计划每天发布一篇文章。

图1:AI知识探索日历

由Gemini生成:“AI知识探索日历”

本系列适合谁?

对于正在学习的学生,这些文章提供了一个实践视角,旨在理解复杂公式的意义。

对于机器学习或AI开发者,有时可能没有深入学习过理论——但现在,无需复杂的代数、概率或统计知识,就可以揭开model.fit背后的黑箱。因为对于所有模型,虽然都调用model.fit,但实际上,这些模型可能千差万别。

这也适合那些可能不具备全部技术背景的管理者,Excel将为他们提供模型背后所有直观的概念。因此,结合业务专长,可以更好地判断机器学习是否真的必要,以及哪种模型可能更合适。

总而言之,目的是为了更好地理解模型、模型的训练过程、模型的可解释性以及不同模型之间的联系。

文章结构

从实践者的角度,通常将模型分为以下两类:监督学习和无监督学习。

对于监督学习,有回归和分类。对于无监督学习,有聚类和降维。

图2:从实践者视角看机器学习模型概览

从实践者视角看机器学习模型概览 – 图片由作者提供

但肯定已经注意到,有些算法可能共享相同或相似的方法,例如KNN分类器与KNN回归器,决策树分类器与决策树回归器,线性回归与“线性分类器”。

回归树和线性回归有相同的目标,即执行回归任务。但当尝试在Excel中实现它们时,会发现回归树与分类树非常接近。而线性回归则更接近神经网络。

有时人们会混淆K-NN和K-means。有人可能认为它们的目标完全不同,混淆它们是初学者的错误。但是,也必须承认它们共享计算数据点之间距离的相同方法。因此它们之间存在关联。

孤立森林也是如此,可以看到随机森林中也存在“森林”。

因此,将从理论角度组织所有模型。主要有三种方法,并且将清晰地看到这些方法在Excel中以非常不同的方式实现。

这个概览将有助于导航所有不同的模型,并在许多模型之间建立联系。

图3:按理论方法组织的机器学习模型概览

按理论方法组织的机器学习模型概览 – 图片由作者提供

  • 对于基于距离的模型,将计算新观测值与训练数据集之间的局部或全局距离。
  • 对于基于树的模型,必须定义用于对特征进行分类的分割点或规则。
  • 对于数学函数模型,核心思想是对特征应用权重。在训练模型时,主要使用梯度下降法。
  • 对于深度学习模型,主要重点在于特征工程,以创建数据的适当表示。

对于每个模型,将尝试回答以下问题。

关于模型的一般性问题:

  • 模型的本质是什么?
  • 模型是如何训练的?
  • 模型的超参数有哪些?
  • 相同的模型方法如何用于回归、分类甚至聚类?

特征是如何建模的:

  • 如何处理分类特征?
  • 如何管理缺失值?
  • 对于连续特征,缩放有影响吗?
  • 如何衡量一个特征的重要性?

如何量化特征的重要性?这个问题也将被讨论。可能知道像LIME和SHAP这样的包非常流行,并且它们是模型无关的。但事实是,每个模型的行为都相当不同,直接通过模型进行解释也很有趣且重要。

不同模型之间的关系

每个模型将单独成文,但会讨论与其他模型的联系。

由于真正打开了每个“黑箱”,也将了解如何对某些模型进行理论改进。

  • KNN和LDA(线性判别分析)非常接近。前者使用局部距离,后者使用全局距离。
  • 梯度提升与梯度下降相同,只是向量空间不同。
  • 线性回归也可以作为分类器。
  • 标签编码可以用于分类特征,并且可能非常有用、非常强大,但必须明智地选择“标签”。
  • SVM与线性回归非常接近,甚至更接近岭回归。
  • LASSO和SVM使用一个相似的原理来选择特征或数据点。是否知道LASSO中的第二个S代表“选择”?

对于每个模型,还将讨论大多数传统课程会遗漏的一个特定点。这被称为机器学习模型的“未授之课”。

模型训练与超参数调优

在这些文章中,将只关注模型的工作原理和训练方式。不会讨论超参数调优,因为这个过程对于每个模型本质上是相同的。通常使用网格搜索。

图4:网格搜索示意图

文章列表

下方将提供一个列表,计划从12月1日开始,每天更新发布一篇文章!

敬请期待!

TAGGED:AI基础Excel机器学习模型理解算法实现
Share This Article
Email Copy Link Print
Previous Article 20251130151608462.jpg 闻泰科技上诉荷兰最高法院,控诉司法程序不公
Next Article 20251202081649111.jpg 亚马逊推出30分钟极速达,生鲜快送赛道战火升级
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251202135921634.jpg
英伟达20亿美元投资新思科技,AI芯片设计革命加速
科技
20251202130505639.jpg
乌克兰国家AI模型选定谷歌Gemma,打造主权人工智能
科技
20251202121525971.jpg
中国开源AI新突破:DeepSeek V3.2模型性能比肩GPT-5
科技
20251202112744609.jpg
马斯克预言:AI三年内解决美国债务危机,可信吗?
科技

相关内容

稀疏矩阵表示的真值表
人工智能基础

稀疏真值表与状态代数:从零构建高效逻辑规则引擎

2025年10月31日
图1:由多个融合雪花组成的聚合物雪粒的微距照片
未分类

解码海量观测数据中的非线性信号:气候模式识别的机器学习之旅

2025年9月25日
Youtu-Embedding模型通用能力示意图
未分类

腾讯优图开源Youtu-Embedding语义模型,加速企业级RAG落地与风险降低

2025年10月15日
图片1:在包含2,874个服务器的数据集中,排名前10的服务器获得了45.7%的GitHub星标。
未分类

Anthropic MCP协议:AI生态系统的新骨干,挑战与机遇并存

2025年9月30日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up