前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
大模型与工程化

Transformer自注意力机制详解:如何在Excel中理解文本的上下文建模

NEXTECH
Last updated: 2025年12月25日 上午6:59
By NEXTECH
Share
32 Min Read
SHARE

在结束这个机器学习系列之前,首先要诚挚感谢每一位关注、反馈和支持的读者,特别是Towards Data Science团队。

Contents
1. 同一词语在不同语境中的差异2. 自注意力:上下文如何注入词嵌入3. 学习如何混合信息结论

选择以Transformer模型作为收官之作并非偶然。Transformer不仅仅是一个时髦的名称,它构成了现代大语言模型的基石。

循环神经网络、长短时记忆网络和门控循环单元在序列建模史上扮演了关键角色。然而时至今日,现代大语言模型几乎完全建立在Transformer架构之上。

Transformer这个名称本身就标志着一个断裂。从命名角度看,作者本可以沿用“注意力神经网络”这类与“循环神经网络”或“卷积神经网络”保持一致的名称。但抛开命名不谈,Transformer带来的概念性转变完全配得上这个独特的称谓。

Transformer有多种应用方式。编码器架构常用于分类任务,解码器架构则用于下一个词元预测,即文本生成。

本文将聚焦于一个核心思想:注意力矩阵如何将输入词嵌入转化为更具语义信息的表示。

You Might Also Like

告别设计烦恼:用Google Stitch和AI大模型,数分钟打造生产级UI原型!
指标欺骗:当最佳KPI掩盖最严重失败
构建多模态RAG:实现文本、图像和表格的智能响应
苹果Siri大升级:内测类ChatGPT应用,2026年AI变革启幕

上一篇文章介绍了用于文本处理的一维卷积神经网络。该方法通过滑动窗口扫描句子,并在识别局部模式时产生响应。这种方法虽然强大,但存在明显局限:CNN仅关注局部信息。

现在,我们将向前迈进一步。

Transformer回答了一个根本不同的问题:如果每个词都能同时关注句子中的所有其他词,会发生什么?

1. 同一词语在不同语境中的差异

为了理解注意力机制的必要性,可以从一个简单的概念入手。

使用两个不同的输入句子,它们都包含“mouse”这个词,但语境截然不同。

第一个句子中,“mouse”与“cat”同时出现。第二个句子中,“mouse”则与“keyboard”相伴。

图1:两个包含‘mouse’的不同句子示例

Transformer在Excel中的演示 – 所有图片由作者提供

在输入层面,有意为两个句子中的“mouse”使用相同的词嵌入。这一点很重要。在此阶段,模型并不知道词语所指的具体含义。

“mouse”的词嵌入同时包含:

  • 强烈的动物属性成分
  • 强烈的科技设备属性成分

这种歧义性是刻意设计的。没有上下文时,“mouse”可能指代动物或计算机设备。

其他词语则提供了更明确的信号。“Cat”具有强烈的动物属性。“Keyboard”具有强烈的科技属性。像“and”或“are”这类词主要承载语法信息。而“friends”和“useful”等词单独来看信息量较弱。

此时,输入词嵌入中没有任何信息能让模型判断“mouse”的正确含义。

下一节将逐步展示注意力矩阵如何完成这种转化。

2. 自注意力:上下文如何注入词嵌入

2.1 自注意力,而不仅仅是注意力

首先需要明确这里讨论的是哪种注意力机制。本节聚焦于自注意力。

自注意力意味着每个词会关注同一输入序列中的其他所有词。

在这个简化示例中,还做了一个教学上的选择:假设查询和键直接等于输入词嵌入。换言之,本节中没有为Q和K引入可学习的权重矩阵。

这是一个有意的简化,旨在让注意力机制本身成为焦点,而不引入额外参数。词语之间的相似度直接根据其词嵌入计算。

从概念上讲,这意味着:

Q = 输入

K = 输入

只有值向量会在后续用于将信息传播到输出。

在真实的Transformer模型中,Q、K和V都是通过可学习的线性投影得到的。这些投影增加了灵活性,但并未改变注意力机制的核心逻辑。此处展示的简化版本捕捉了核心思想。

以下是即将分解的完整示意图。

图2:自注意力机制整体流程示意图

2.2 从输入词嵌入到原始注意力分数

从输入词嵌入矩阵开始,其中每一行对应一个词,每一列对应一个语义维度。

第一步是计算每个词与其他所有词的相似度。这是通过计算查询和键的点积实现的。

由于本例中查询和键等于输入词嵌入,此步骤简化为计算输入向量之间的点积。

所有点积通过一次矩阵乘法完成:

分数 = 输入 × 输入ᵀ

该矩阵的每个单元格回答一个简单问题:给定它们的词嵌入,这两个词有多相似?

在此阶段,这些值是原始分数,还不是概率,也不能直接解释为权重。

图3:原始注意力分数矩阵计算

2.3 缩放与归一化

原始点积值会随着词嵌入维度的增加而变大。为了将数值保持在稳定范围内,分数需要除以词嵌入维度的平方根进行缩放。

缩放后分数 = 分数 / √d

这个缩放步骤在概念上并不深奥,但实践上很重要。它防止下一步的softmax函数变得过于尖锐。

图4:缩放后的注意力分数矩阵
缩放完成后,逐行应用softmax函数。这将原始分数转化为和为1的正值。

结果就是注意力矩阵。

注意力就是所需的一切。

该矩阵的每一行描述了一个给定词对句子中其他每个词的关注程度。

图5:经过softmax归一化后的注意力矩阵

2.4 解读注意力矩阵

注意力矩阵是自注意力的核心对象。

对于一个给定的词,其在注意力矩阵中的行回答了这个问题:在更新该词时,哪些其他词是重要的,重要程度如何?

例如,对应“mouse”的行会给当前上下文中语义相关的词分配更高的权重。在包含“cat”和“friends”的句子中,“mouse”会更关注与动物相关的词。在包含“keyboard”和“useful”的句子中,则会更多地关注技术相关的词。

两种情况下机制是相同的,只是周围的词语改变了结果。

2.5 从注意力权重到输出词嵌入

注意力矩阵本身并非最终结果,它是一组权重。

为了生成输出词嵌入,需要将这些权重与值向量结合。

输出 = 注意力 × V

在这个简化示例中,值向量直接取自输入词嵌入。因此,每个输出词向量都是输入向量的加权平均,权重由注意力矩阵的对应行给出。

对于像“mouse”这样的词,这意味着其最终表示变成了:

  • 其自身词嵌入
  • 加上它最关注的词的词嵌入的混合

这正是上下文信息注入词表示的精确时刻。

图6:通过注意力权重与值向量相乘得到输出词嵌入
自注意力处理结束后,词嵌入不再具有歧义。

“mouse”这个词在两个句子中不再具有相同的表示。其输出向量反映了上下文。在一种情况下,它表现得像动物;在另一种情况下,则像技术设备。

词嵌入表本身没有改变。改变的是词语间信息的组合方式。

这就是自注意力的核心思想,也是构建Transformer模型的基础。

现在比较左右两个例子:“cat and mouse”与“keyboard and mouse”,自注意力的效果变得清晰可见。

两种情况下,“mouse”的输入词嵌入是相同的。然而最终的表示却不同。在与“cat”的句子中,“mouse”的输出词嵌入由动物维度主导。在与“keyboard”的句子中,技术维度变得更为突出。词嵌入表没有任何改变。差异完全来自于注意力在混合值向量之前,如何在不同词之间重新分配权重。

这一对比凸显了自注意力的作用:它并非孤立地改变词语,而是通过考虑完整上下文来重塑它们的表示。

图7:两个不同语境下‘mouse’输出词嵌入的对比

3. 学习如何混合信息

图8:Transformer学习过程示意图

Transformers在Excel中的演示 – 所有图片由作者提供

3.1 为Q、K和V引入可学习权重

到目前为止,焦点一直放在自注意力机制本身。现在引入一个重要元素:可学习权重。

在真实的Transformer中,查询、键和值并非直接取自输入词嵌入,而是通过可学习的线性变换产生的。

对于每个词的嵌入,模型计算:

Q = 输入 × W_Q

K = 输入 × W_K

V = 输入 × W_V

这些权重矩阵在训练过程中学习得到。

在此阶段,通常保持相同的维度。输入词嵌入、Q、K、V以及输出词嵌入都具有相同数量的维度。这使得注意力的作用更容易理解:它在不改变表示所在空间的情况下修改表示。

从概念上讲,这些权重让模型能够决定:

  • 词的哪些方面对于比较是重要的(Q和K)
  • 词的哪些方面应该传播给其他词(V)

图9:通过可学习权重矩阵生成Q、K、V

3.2 模型实际学习的内容

注意力机制本身是固定的。点积、缩放、softmax和矩阵乘法总是以相同的方式工作。模型实际学习的是这些投影。

通过调整Q和K的权重,模型学习如何为特定任务度量词之间的关系。通过调整V的权重,模型学习当注意力较高时应传播哪些信息。结构定义了信息如何流动,而权重定义了流动的是什么信息。

由于注意力矩阵依赖于Q和K,因此它是部分可解释的。可以检查哪些词关注哪些其他词,并观察通常与句法或语义对齐的模式。

当比较同一词在两个不同语境中的情况时,这一点变得很清楚。在两个例子中,“mouse”一词都以完全相同的输入词嵌入开始,其中包含动物和技术成分。就其本身而言,它是模糊的。

发生变化的不是词本身,而是它接收到的注意力。在包含“cat”和“friends”的句子中,注意力强调与动物相关的词。在包含“keyboard”和“useful”的句子中,注意力转向技术相关的词。机制和权重在两种情况下是相同的,但输出词嵌入却不同。差异完全来自于学习到的投影如何与周围上下文相互作用。

这正是注意力矩阵可解释的原因:它揭示了模型认为哪些关系对任务是有意义的。

图10:学习到的注意力模式展示

3.3 有意改变维度

然而,没有任何规定强制要求Q、K和V必须与输入具有相同的维度。

特别是值投影,可以将词嵌入映射到不同大小的空间中。当这种情况发生时,输出词嵌入会继承值向量的维度。

这并非理论上的好奇。这正是真实模型中发生的情况,尤其是在多头注意力中。每个头在其自己的子空间中操作,通常维度较小,结果随后被连接成一个更大的表示。

因此,注意力可以做两件事:

  • 跨词混合信息
  • 重塑这些信息所在的空间

这解释了Transformer为何具有如此强大的扩展能力。

它们不依赖于固定特征。它们学习:

  • 如何比较词语
  • 如何路由信息
  • 如何将意义投影到不同的空间

图11:不同维度空间下的注意力与投影
注意力矩阵控制信息流向何处。

学习到的投影控制流动的是什么信息以及如何表示它。

两者共同构成了现代语言模型背后的核心机制。

结论

这个系列围绕一个简单的理念构建:通过观察机器学习模型如何实际转换数据来理解它们。

Transformer是结束这段旅程的恰当方式。它们不依赖于固定规则或局部模式,而是依赖于序列中所有元素之间学习到的关系。通过注意力机制,它们将静态的词嵌入转化为上下文化的表示,这正是现代语言模型的基础。

再次感谢每一位关注这个系列、分享反馈和支持的读者,特别是Towards Data Science团队。

圣诞快乐 圣诞树表情符号


所有Excel文件可通过此链接获取。早期支持者将获得最佳价值。

从第19天到第24天的文章中隐藏了折扣码。找到它们并选择你喜欢的那个。

TAGGED:ExcelTransformer大语言模型机器学习自注意力
Share This Article
Email Copy Link Print
Previous Article 天空经济引擎:IATA数据揭示全球主要国家航空运输业的巨大价值
Next Article 安克笔记本充电宝优惠信息图 安克大容量笔记本充电宝重回黑五史低价,仅售87.99美元
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
图6:👉
提升4倍效率:AI编程助手的四大实战技巧
编程与工具
索尼PS5 Pro主机特写
索尼PS5 Pro限时直降100美元!圣诞前入手性能怪兽的最佳时机
科技
线性模式下的小时表示图
你的模型是否“时间失明”?揭秘周期性特征编码的必要性与实践
未分类
安克笔记本充电宝优惠信息图
安克大容量笔记本充电宝重回黑五史低价,仅售87.99美元
科技

相关内容

图1:共线性导致系数范数巨大
未分类

机器学习“降临日历”第13天:在Excel中理解LASSO与岭回归

2025年12月14日
图1:关于论文阅读难度的社交媒体讨论截图
大模型与工程化

LLM时代,如何高效阅读海量研究论文?方法与工具全解析

2025年12月7日
20251107081038250.jpg
科技

理解困惑度:大语言模型评估的核心指标揭秘

2025年11月7日
20251019123841392.jpg
科技

揭秘Perplexity:为何它是衡量语言模型优劣的核心?

2025年10月19日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up