当前位置：首页 > article >正文

【NLP】 20. Attention 和 self-attention

article 2026/2/8 9:51:21

1. 背景与基本概念

1.1 编码器－解码器模型的瓶颈问题

传统的序列到序列（Seq2Seq）模型主要依靠编码器生成单一固定长度的上下文向量，然后由解码器逐步生成输出。这个过程存在两个主要问题：

瓶颈问题：固定长度的上下文向量无法充分捕捉输入序列中所有信息，从而导致信息丢失，尤其对于长序列尤为明显。
难以并行化：由于解码器的每一步计算依赖前一步的输出（即“自回归”性质），导致整个生成过程难以并行计算，训练速度和推理效率受限。

为了解决这些问题，引入了注意力机制，使得每一步输出都能动态关注输入中最相关的信息。

1.2 注意力机制的基本思想

什么是 Attention？

Attention（注意力机制）模拟人类注意力集中的方式：

🧠 “我不是把全部输入都等量处理，而是关注最重要的信息。”

在 NLP 里，就是让模型在处理一个词时，自动找出它最该“注意”的其他词，并根据它们的相关性来生成当前的输出。

注意力机制（Attention）的核心思想是：

对于每个生成的输出步骤，通过对输入序列中的所有隐藏向量进行加权求和，计算出一个“上下文向量”，该向量能更有针对性地帮助生成当前输出。

图示：

输入序列隐藏状态: h₁, h₂, ..., hₙ
解码器当前状态: sᵢ注意力过程:
1. 根据当前解码器状态 sᵢ 和输入隐藏状态 hⱼ 计算注意力分数 eᵢⱼ；
2. 对分数 eᵢⱼ 进行归一化（通常使用 softmax）得到权重 αᵢⱼ；
3. 对输入隐藏状态加权求和：cᵢ = Σⱼ αᵢⱼ hⱼ；
4. 将上下文向量 cᵢ 与 sᵢ 结合用于生成输出。

2. 公式推导与实现细节

在这个教程中，我们讨论多种注意力机制以及它们背后的数学公式与实现细节。下面分段说明各类注意力的计算过程及公式。

2.1 基本注意力计算过程

隐藏向量表示
假设输入序列经过编码器得到隐藏状态：
$\{h_1, h_2, \dots, h_n\}$
每个隐藏向量 $h_j \in \mathbb{R}^{d_h}$ 表示输入的第 j 个时刻的信息。
当前输出时刻的隐藏向量
对于解码器deocer当前时刻 i 的状态 $s_i$ 表示，我们需要得到一个与输入序列中最相关的上下文向量。
注意力分数计算
计算方式可以有多种，我们一般记得统一格式如下：
- 点积注意力（Dot-Product Attention）：
  $e_{ij} = s_i^\top h_j$
- 缩放点积注意力（Scaled Dot-Product Attention）：
  为了避免维度过高导致点积数值过大，使用缩放因子：
  $e_{ij} = \frac{s_i^\top h_j}{\sqrt{d_k}}$ 其中 dk 为键（Key）的维度。
- 乘性注意力（Multiplicative Attention/Bilinear Attention）：
  在此方法中，可以允许 si 和 hj 的维度不同，使用一个可学习的矩阵 W：
  $e_{ij} = s_i^\top W h_j$
- 降秩乘性注意力（Reduced-Rank Multiplicative Attention）：
  为了提高效率，矩阵 W 可以分解为低秩矩阵的乘积，减少参数量。
  $e = s^T(U^TV)h = (sU)^T(Vh)$
- 加性注意力（Additive / Feedforward Attention）：
  通过一个前馈神经网络来计算注意力分数，其形式为：
  $e_{ij} = b \tanh(W_1h+ W_2s )$ 其中 v，Ws，Wh 和 b 均为可学习参数，加性注意力能提供更大的非线性和灵活性。
分数归一化
得到注意力分数后，一般通过 softmax 对所有输入的分数进行归一化，得到权重
加权平均计算上下文向量
根据得到的注意力权重，计算加权平均： $c_i = \sum_{j=1}^{n} \alpha_{ij} h_j$

这就是传统注意力机制的完整计算流程。这解决了瓶颈问题，而没有引入许多额外的参数

Attention ≠ Self-Attention

它们是一个大类里的不同类型，我们先来理清楚：

🧠 Attention 是大类，Self-Attention 是其中一种特例：

类型	描述
普通 Attention	Query 来自一个序列，Key/Value 来自另一个序列。典型场景：机器翻译（Decoder 对 Encoder 做 Attention）。
Self-Attention	Query、Key、Value 都来自同一个序列。用于模型理解当前序列内部各部分的关系。

🔁 举个例子来对比！

🎯 普通 Attention（Cross-Attention）：

用在 Seq2Seq 机器翻译里。

比如你在翻译：

arduinoCopyEdit英文（输入）："I love you"
法文（输出）："Je t'aime"

此时：

Encoder 处理英文句子，生成 Key 和 Value；
Decoder 在生成法文单词时，用 Query 去和 Encoder 的 Key 做匹配；
然后从 Value 中取出最相关的“语义”来帮助生成下一个词。

所以：

Query ← Decoder 生成的当前状态  
Key, Value ← Encoder 的输出

👉 这种 Attention 就是 Cross-Attention

🔄 Self-Attention：

处理一个序列（比如句子）时，模型希望：

“我处理一个词的时候，也考虑它在句子里跟谁最相关。”

比如句子是：

"The animal didn't cross the street because it was too tired."

模型要弄清楚 “it” 指的是 “the animal” 还是 “the street”——这就靠 Self-Attention。

此时：

Query、Key、Value 都来自这个句子本身；
每个词都对整个句子中的其他词做注意力运算；
得到一个加权的表示向量。

💬 总结类比一句话：

类比	Attention 像什么？
Cross-Attention	你问别人问题（Query）→ 去他们的记忆（Key/Value）中找答案
Self-Attention	你自己脑内思考一个词时，把整个句子所有词都考虑一遍

3. 自注意力（Self-Attention）与位置编码

3.1 自注意力的动机及实现

在自注意力机制中，输入自身被用来构造查询（Query）、键（Key）和值（Value），即：

查询（Query）：由当前时刻或位置的输入生成
键（Key）：代表所有输入信息
值（Value）：包含需要传递给后续层的信息

自注意力使每个词的表示能够综合考虑上下文中所有其他词的影响，从而生成具有更高层次语义信息的表示。其计算与前文相似，不过所有向量均来自于同一输入序列。

计算步骤如下：

初始词向量 xi
变换为 Query, Key, Value
利用可学习的线性变换： $q_i = W^Q x_i,\quad k_i = W^K x_i,\quad v_i = W^V x_i$
计算注意力分数
使用缩放点积： $e_{ij} = \frac{q_i^\top k_j}{\sqrt{d_k}}$
归一化分数：
$\alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{l=1}^{n} \exp(e_{il})}$
计算加权平均得到新的表示：
$z_i = \sum_{j=1}^{n} \alpha_{ij} v_j$
以上步骤可以堆叠多层以获得更复杂的表示。

3.2 非线性与位置表示

单纯的线性组合容易丢失非线性特征，因此**添加前馈层（Feedforward Layer）**非常关键：

前馈层通常在每个自注意力层后添加，公式如下： $\text{FFN}(z) = \max(0, zW_1 + b_1)W_2 + b_2$ 其中使用了 ReLU 激活函数（当然也可以使用其他非线性激活函数）。

位置编码（Positional Encoding）用于注入序列中位置信息，由于自注意力机制本质上不涉及位置顺序，需要人为提供位置信息。常见两种方法：

固定位置编码
使用正余弦函数：

$\sin\left(\frac{pos}{10000^{\frac{2i}{d}}}\right)$ $\cos\left(\frac{pos}{10000^{\frac{2i}{d}}}\right)$

其中 pospospos 表示位置，iii 表示维度索引，ddd 是词向量维度。
学习位置编码
为每个位置学习一个向量，这种方法能更好地适应训练数据，但存在不能泛化到训练过程中未出现的长度问题。

Rotary Positional Embeddings也是一种较新方法，其核心思想是利用旋转变换使得词向量在不同位置呈现出不同的特征，同时保持词之间的余弦相似度不变，从而能够更好地捕捉不同位置间的关系。

3.3 模型优化与并行计算改进

针对传统RNN计算步骤依赖前一步的限制，Attention/自注意力机制能够“剪断循环边缘”，实现并行计算：

解决瓶颈问题：
利用注意力机制，系统在不引入大量额外参数的情况下，能够从输入序列中提取出对当前输出决策最有用的信息。
并行性增强：
自注意力允许所有位置之间的计算并行化，大大提高训练效率，尤其在Transformer模型中表现显著。

例如，在解码器中，为了避免输出提前“窥探”未来的信息，计算注意力分数时采用屏蔽（masking）策略：

$e_{ij} = \begin{cases} q_i^\top k_j, & j \le i \\ -\infty, & j > i \end{cases}$

屏蔽掉未来的信息保证生成时仅使用过去和当前的信息。

4. 实践案例与进一步讨论

4.1 示例：机器翻译中的注意力

在机器翻译中，注意力机制常被用来捕捉源语言词语与目标语言词语之间的对齐关系。例如：

输入句子：
“我爱自然语言处理”
编码器生成隐藏状态：
每个单词对应的隐藏向量 h1,h2,…,h5h_1, h_2, …, h_5h1,h2,…,h5
目标输出：
当解码器生成目标单词时，通过注意力计算获得当前词最相关的源语言词汇，然后结合生成时的隐藏状态产生翻译结果。实践中观察到注意力权重矩阵往往捕捉到了词语对齐，即某个目标词权重最高的源词常常就是对应翻译的词。

值得注意的是，“the”等常见词在注意力机制中的处理往往较为特殊。由于其频率极高，可能在统计上贡献较小或者干扰信息，因此很多模型会采用词嵌入降权、词频削弱或加入专门的正则化项来降低这些高频词对整体注意力分布的影响，使得模型更关注那些信息量更大的关键词。

4.2 自注意力替代RNN

由于RNN难以并行化的缺陷，Transformer引入了自注意力作为主要构件。详细步骤如下：

初始词向量：
xi
线性变换生成 Query, Key, Value：
qi=WQxi,ki=WKxi,vi=WVxi $q_i = W^Q x_i,\quad k_i = W^K x_i,\quad v_i = W^V x_i$
计算注意力分数（缩放点积形式）：
$e_{ij} = \frac{q_i^\top k_j}{\sqrt{d_k}}$
Softmax归一化
加权求和：
$z_i = \sum_{j=1}^{n} \alpha_{ij} v_j$
非线性映射（前馈层）
加入位置信息：
初始输入中直接加入位置编码：
$x_i = x_i + p_i$ 或在后续层与原始信息进行融合，如拼接或逐层加入。

这种设计既保留了RNN捕捉序列相关性的优势，也显著提升了计算效率和并行计算能力。

🧠 传统 RNN + Attention vs 纯 Attention

最开始 Attention 是加在 RNN / LSTM / GRU 上的
后来有人问：我们能不能只靠 Attention，不要 RNN？

答案就是 ——

✅ Yes！这就是 Transformer（2017 Vaswani 等人的论文）

💥 为什么 RNN 不需要了？

RNN 有个主要的“限制”：
它是顺序处理的！每个词要等前面的处理完才能计算。

而 Attention 机制 + Position Embedding 可以做到：

一次性并行处理整句，每个词同时看全句的上下文，不再“排队等处理”。

🔧 如何做到没有 RNN，还能处理序列？

🧩 1. 全靠 Self-Attention

Transformer 用多个 Self-Attention 层堆叠，每一层都能理解词之间的关系：

每个词作为 Query；
关注整个句子的 Key / Value；
自我关联。

🧩 2. 加上 Positional Encoding

因为没有 RNN 的顺序感知能力，Transformer 加了位置编码

👉 把位置信息通过正余弦函数 encode，加入词向量中。

🧬 总结结构对比：

模型类型	是否用 RNN	是否用 Attention	能否并行	能否捕捉长依赖
LSTM	✅ 是	❌ 无（默认）	❌ 否	✅ 有点困难
LSTM + Attention	✅ 是	✅ 是	❌ 否	✅ 强一些
Transformer	❌ 否	✅ Self-Attention	✅ 是	✅ 非常强