注意力机制 (Attention)：是人工神经网络中一种模仿认知注意力的技术。这种机制可以增强神经网络输入数据中某些部分的权重，同时减弱其他部分的权重，以此将网络的关注点聚焦于数据中最重要的一小部分。数据中哪些部分比其他部分更重要取决于上下文。

本篇文章为论文 Attention Is All You Need 的笔记，因此本文的注意力机制架构遵照原论文。

1 总览

首先，我们通过非常简略的数学方式来总览一下注意力机制的操作过程，感受一下总体框架后，下文再进行详细展开。

对于一段文字：

$The quick brown fox jumps over a lazy dog.$

首先将其切分为 Token（假设按词切分）：

$The| quick| brown| fox| jumps| over| a| lazy| dog.$

然后通过 Embedding 将单词转为 $d_{model}$ 维的词向量：

$\vec{E_{1}}, \vec{E_{2}}, \dots, \vec{E_{9}}$

然后给词向量乘上 Query 矩阵 $W_{Q}$ ，生成每个单词的 $d_{q}$ 维的查询向量 $\vec{Q_{i}} = W_{Q} \vec{E_{i}}$ ：

$\vec{Q_{1}}, \vec{Q_{2}}, \dots, \vec{Q_{9}}$

然后给词向量乘上 Key 矩阵 $W_{K}$ ，生成每个单词的 $d_{k}$ 维的键向量 $\vec{K_{i}} = W_{K} \vec{E_{i}}$ ：

$\vec{K_{1}}, \vec{K_{2}}, \dots, \vec{K_{9}}$

然后将查询向量和键向量一一做向量点积，得到一个实数，这些值组成一个新的矩阵：

$[\begin{matrix} \vec{Q_{1}} \cdot \vec{K_{1}} & \vec{Q_{2}} \cdot \vec{K_{1}} & \dots & \vec{Q_{9}} \cdot \vec{K_{1}} \\ \vec{Q_{1}} \cdot \vec{K_{2}} & \vec{Q_{2}} \cdot \vec{K_{2}} & \dots & \vec{Q_{9}} \cdot \vec{K_{2}} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ \vec{Q_{1}} \cdot \vec{K_{9}} & \vec{Q_{2}} \cdot \vec{K_{9}} & \dots & \vec{Q_{9}} \cdot \vec{K_{9}} \end{matrix}]$

然后对这些值进行列 SoftMax 操作：

$[\begin{matrix} Softmax (\vec{Q_{1}} \cdot \vec{K_{1}}) & Softmax (\vec{Q_{2}} \cdot \vec{K_{1}}) & \dots & Softmax (\vec{Q_{9}} \cdot \vec{K_{1}}) \\ Softmax (\vec{Q_{1}} \cdot \vec{K_{2}}) & Softmax (\vec{Q_{2}} \cdot \vec{K_{2}}) & \dots & Softmax (\vec{Q_{9}} \cdot \vec{K_{2}}) \\ ⋮ & ⋮ & ⋱ & ⋮ \\ Softmax (\vec{Q_{1}} \cdot \vec{K_{9}}) & Softmax (\vec{Q_{2}} \cdot \vec{K_{9}}) & \dots & Softmax (\vec{Q_{9}} \cdot \vec{K_{9}}) \end{matrix}]$

然后给每一项乘上 Value 矩阵 $W_{V}$ ：

$M = [\begin{matrix} Softmax (\vec{Q_{1}} \cdot \vec{K_{1}}) \cdot W_{V} & Softmax (\vec{Q_{2}} \cdot \vec{K_{1}}) \cdot W_{V} & \dots & Softmax (\vec{Q_{9}} \cdot \vec{K_{1}}) \cdot W_{V} \\ Softmax (\vec{Q_{1}} \cdot \vec{K_{2}}) \cdot W_{V} & Softmax (\vec{Q_{2}} \cdot \vec{K_{2}}) \cdot W_{V} & \dots & Softmax (\vec{Q_{9}} \cdot \vec{K_{2}}) \cdot W_{V} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ Softmax (\vec{Q_{1}} \cdot \vec{K_{9}}) \cdot W_{V} & Softmax (\vec{Q_{2}} \cdot \vec{K_{9}}) \cdot W_{V} & \dots & Softmax (\vec{Q_{9}} \cdot \vec{K_{9}}) \cdot W_{V} \end{matrix}]$

然后计算每列的更新值 $Δ \vec{E_{i}}$ ：

$Δ \vec{E_{i}} = \sum_{k = 1}^{n} M_{k i} \vec{E_{k}}$

原始 $\vec{E_{i}}$ 经过注意力机制获取更多信息后，便可以更新为 ${\vec{E_{i}}}^{'}$ ：

${\vec{E_{i}}}^{'} = \vec{E_{i}} + Δ \vec{E_{i}}$

上述过程的结构可以以下图方式展现：

2 Query 查询

从 Token 嵌入得来的词向量是没有上下文语意信息的，例如 Transformer 到底指变形金刚、变压器还是一种机器学习模型，词向量中是没有相关信息的。为了获取这个 Token 具体的含义，就得从上下文 Token 中获取具体的信息。同时，有些上下文与该 Token 关联不大，比如 The，但有些词语对该 Token 关联非常大，例如 Model. 注意力机制便是让模型自己学会上下文之间的关联程度。

获取上下文关联程度的第一步是是求得查询向量，可以将查询向量理解为该 Token 对上下文提出的“问题”，接下来根据上下文 Token 的”回应“来确认他们之间的关联程度。

对于每个 Token 的词向量 $\vec{E_{i}}$ ，让它与矩阵 $W_{Q}$ 相乘获得对应的查询向量 $\vec{Q_{i}} = W_{Q} \vec{E_{i}}$ .

其中， $\vec{E_{i}}$ 的维度为 $d_{model}$ ， $\vec{Q_{i}}$ 的维度为 $d_{Q}$ ，那么显然 $W_{Q}$ 就是一个 $d_{q} \times d_{model}$ 的矩阵。需要注意，这个矩阵是学习得来的参数，因此 Query 操作的参数量就是 $d_{q} \times d_{model}$ .

3 Key 键

Key 向量便是对 Token 提出”问题“的”回应“。

对于每个 Token 的词向量 $\vec{E_{i}}$ ，让它与矩阵 $W_{K}$ 相乘获得对应的查询向量 $\vec{K_{i}} = W_{K} \vec{E_{i}}$ .

其中， $\vec{E_{i}}$ 的维度为 $d_{model}$ ， $\vec{K_{i}}$ 的维度为 $d_{k}$ ，原论文中 $d_{k} = d_{q}$ ，那么显然 $W_{K}$ 就是一个 $d_{q} \times d_{model}$ 的矩阵。需要注意，这个矩阵是学习得来的参数，因此 Key 操作的参数量也是 $d_{q} \times d_{model}$ .

获得了 Key 值后，就要通过 Compatibility Function (评分函数) 来获得关联程度了。评分函数可以是向量点积：

$Compatibility Function (\vec{Q_{i}}, \vec{K_{i}}) = \vec{Q_{i}} \cdot \vec{K_{i}}$

上面我们说到原论文中 $d_{k} = d_{q}$ ，那么如果 $d_{k} \neq d_{q}$ ，那么显然不能靠向量点积的评分函数了，而是需要加性评分函数。加性评分函数使用一个前馈神经网络来计算 Query 向量和 Key 向量的关联程度，这个神经网络只有一个隐藏层。

计算得到关联程度形成矩阵：

$[\begin{matrix} \vec{Q_{1}} \cdot \vec{K_{1}} & \vec{Q_{2}} \cdot \vec{K_{1}} & \dots & \vec{Q_{i}} \cdot \vec{K_{1}} \\ \vec{Q_{1}} \cdot \vec{K_{2}} & \vec{Q_{2}} \cdot \vec{K_{2}} & \dots & \vec{Q_{i}} \cdot \vec{K_{2}} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ \vec{Q_{1}} \cdot \vec{K_{i}} & \vec{Q_{2}} \cdot \vec{K_{i}} & \dots & \vec{Q_{i}} \cdot \vec{K_{i}} \end{matrix}]$

接下来有一个可选步骤——Mask (掩码)。对于大语言模型，训练时是通过上文来生成下文，因此上文是不可以从下文获取信息的，否则这就泄露了要预测的信息，造成干扰。但对于文本翻译，就不存在这种问题，因此掩码就是不必要的。

为了防止上文获取下文信息，可以直接将这些关联程度项设为 $- \infty$ ，这一步就叫掩码：

$[\begin{matrix} \vec{Q_{1}} \cdot \vec{K_{1}} & \vec{Q_{2}} \cdot \vec{K_{1}} & \dots & \vec{Q_{i}} \cdot \vec{K_{1}} \\ - \infty & \vec{Q_{2}} \cdot \vec{K_{2}} & \dots & \vec{Q_{i}} \cdot \vec{K_{2}} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ - \infty & - \infty & \dots & \vec{Q_{i}} \cdot \vec{K_{i}} \end{matrix}]$

还需要注意的一点是，经过点积评分函数后会扩大原数据的方差，导致 Softmax 过于关注小梯度：若 $q, k$ 为独立的随机变量，那么它的均值为 $0$ 方差为 $1$ ，但是 $q \cdot k$ 的均值为 $0$ ，方差为 $d_{k}$ . 为了抵消这个问题，给每一项缩小 $\sqrt{d_{k}}$ ：

$[\begin{matrix} \frac{\vec{Q_{1}} \cdot \vec{K_{1}}}{\sqrt{d_{k}}} & \frac{\vec{Q_{2}} \cdot \vec{K_{1}}}{\sqrt{d_{k}}} & \dots & \frac{\vec{Q_{i}} \cdot \vec{K_{1}}}{\sqrt{d_{k}}} \\ - \infty & \frac{\vec{Q_{2}} \cdot \vec{K_{2}}}{\sqrt{d_{k}}} & \dots & \frac{\vec{Q_{i}} \cdot \vec{K_{2}}}{\sqrt{d_{k}}} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ - \infty & - \infty & \dots & \frac{\vec{Q_{i}} \cdot \vec{K_{i}}}{\sqrt{d_{k}}} \end{matrix}]$

再进行列 SoftMax，这些被置为 $- \infty$ 的项就变成 $0$ 了：

$M = [\begin{matrix} Softmax (\frac{\vec{Q_{1}} \cdot \vec{K_{1}}}{\sqrt{d_{k}}}) & Softmax (\frac{\vec{Q_{2}} \cdot \vec{K_{1}}}{\sqrt{d_{k}}}) & \dots & Softmax (\frac{\vec{Q_{i}} \cdot \vec{K_{1}}}{\sqrt{d_{k}}}) \\ Softmax (\frac{\vec{Q_{2}} \cdot \vec{K_{2}}}{\sqrt{d_{k}}}) & \dots & Softmax (\frac{\vec{Q_{i}} \cdot \vec{K_{2}}}{\sqrt{d_{k}}}) \\ ⋱ & ⋮ \\ 0 & Softmax (\frac{\vec{Q_{i}} \cdot \vec{K_{i}}}{\sqrt{d_{k}}}) \end{matrix}]$

4 Value 值

计算了关联程度，下一步就是与 Value 矩阵相乘获得最终的更新，记上述矩阵 $p$ 行 $q$ 列元素为 $M_{p q}$ ，那么：

$Δ \vec{E_{i}} = \sum_{k = 1}^{n} M_{k i} W_{V} \vec{E_{k}}$

其中， $Δ \vec{E_{i}}$ 的维度为 $d_{model}$ ， $\vec{E_{i}}$ 的维度为 $d_{model}$ ，那么显然 $W_{V}$ 就是一个 $d_{model} \times d_{model}$ 的方阵。需要注意，这个矩阵是学习得来的参数，因此 Value 操作的参数量也是 $d_{model} \times d_{model}$ .

综上，注意力头总参数量为： $d_{model} (2 d_{q} + d_{model})$

上述过程的结构可以以下图方式展现：

用公式来表示就是：

$Attention (Q, K, V) = softmax (\frac{Q K^{T}}{\sqrt{d_{k}}}) V$

5 多头注意力

实际情况中， $d_{model}$ 往往非常大，可以达到 $10^{4}$ 数量级，这就导致 $W_{V}$ 这个 $d_{model} \times d_{model}$ 的方阵参数量非常大，占据了模型的大部分参数。

多头注意力的思想就是，与其用一个完整维度的大参数单头注意力，不如将其拆分为多个低维度的小参数注意力，称为多头注意力。这样的效果要好于单头注意力。

我们可以用低秩分解的思想，将 $W_{V}$ 拆分为 $d_{model} \times d_{v}$ 和 $d_{v} \times d_{model}$ 的两个矩阵： $W_{V ↑}$ 和 $W_{V ↓}$ . 那么，原来的 Value 计算步骤就变成了：

$Δ \vec{E_{i}} = \sum_{k = 1}^{n} M_{k i} W_{V ↑} W_{V ↓} \vec{E_{k}}$

低秩拆分是一种有损压缩技术，可以在一定程度上保留数据的重要特征，但无法完全保留原始数据的所有信息。另外，我们也可以将这个操作理解为做了两次线性映射：先将 $\vec{E_{i}}$ 从 $d_{model}$ 维空间线性映射到低维的 $d_{v}$ 空间，再从低维的 $d_{v}$ 空间重新线性映射回 $d_{model}$ 维空间（原论文中，拆分后的 $W_{V ↑}$ 和 $W_{V ↓}$ 就直接被记为 Linear 了）.

矩阵乘法可以看作线性映射，例如有一个 $n$ 维向量 $\vec{p}$ ，将它与 $m \times n$ 的矩阵 $M$ 相乘可以得到一个 $m$ 维向量 $\vec{q}$ ：
$M_{m \times n} {\vec{p}}_{n \times 1} = {\vec{q}}_{m \times 1}$
这个矩阵 $M$ 就实现了将 $n$ 维空间的向量 $\vec{p}$ 映射到 $m$ 维空间里，变成向量 $\vec{q}$ .

上述拆分后仍然是单头注意力，接下来就是叠加注意力头了。最简单想到的一种方式是，直接将单头注意力复制 $h$ 份，每个注意力头有独立的参数（如第 $i$ 个注意力头的参数 $W_{i}^{Q}, W_{i}^{K}, W_{i}^{V ↓}, W_{i}^{V ↑}$ ），最后将 $h$ 个注意力头的结果取平均。

但是原论文并没有用这个方式。在原论文中，将单头注意力复制 $h$ 份后， $W_{V ↑}$ 并不是独立的参数，具体来说：

每个注意力头拥有独立的参数 $W_{i}^{Q}, W_{i}^{K}, W_{i}^{V ↓}$
每个注意力头求得 ${\vec{head}}_{i} = \sum_{k = 1}^{n} M_{k i} W_{V ↓} \vec{E_{i}}$ ，显然这个 ${\vec{head}}_{i}$ 是 $d_{v}$ 维的向量。
将 $h$ 个注意力头得到的结果向量拼接得到 $\vec{MultiHead} = Concat ({\vec{head}}_{1}, {\vec{head}}_{2}, \dots, {\vec{head}}_{N})$ ，显然这个 $\vec{MultiHead}$ 是 $h \times d_{v}$ 维的向量。
然后将 $\vec{MultiHead}$ 用 $W_{V ↑}$ 重新映射回 $d_{model}$ 维的空间，显然此时 $W_{V ↑}$ 应当是 $d_{model} \times h d_{v}$ 的矩阵。

综上，对于 $h$ 个注意力头的多头注意力，参数量为：

$h d_{model} (d_{q} + d_{k} + d_{v}) + h d_{model} d_{v} = h d_{model} (d_{q} + d_{k} + 2 d_{v})$

对于原论文， $d_{q} = d_{k} = d_{v}$ ，那么参数量为： $4 h d_{model} d_{q}$

上述过程的结构可以以下图方式展现：

需要注意的是，上面原论文的图将 $W_{V ↓}$ 表示为 Linear。虽说看着不一样，实际上是完全一样的，只是符号的区别。

文章目录

机器学习 | 注意力机制

1 总览

2 Query 查询

3 Key 键

4 Value 值

5 多头注意力

添加新评论

最新文章

分类

标签

其它