多头注意力机制原理与实现详解

暗茧

1. 多头注意力机制的设计动机

在自然语言处理任务中，词与词之间的关系往往具有多维度的特性。以简单的句子"我爱你"为例：

"我"与"爱"之间形成主谓关系
"爱"与"你"之间形成动宾关系
"我"与"你"之间存在人称对应关系
整个句子还隐含时态、情感倾向等语义信息

单头注意力机制（Single-Head Attention）在处理这种复杂关系时存在明显局限。它只能通过单一的注意力权重分布来捕捉所有语义关系，相当于让一个模型同时学习多种完全不同的匹配模式。这就像让一个人同时处理多项需要完全不同思维方式的任务——结果往往是每项任务都难以达到最佳效果。

多头注意力（Multi-Head Attention）的创新之处在于，它将高维特征空间划分为多个子空间，每个子空间可以独立学习不同的注意力模式。这种设计带来了三个关键优势：

并行捕捉多种关系：不同头可以专注于不同类型的语义关系（如语法、语义、指代等）
降低计算复杂度：将高维计算分解为多个低维计算，避免"维度灾难"
增强模型表达能力：多个注意力头的组合比单一注意力头能建模更复杂的函数关系

2. 多头注意力的数学原理

2.1 基本概念定义

首先明确多头注意力中的关键参数：

$d_{model}$：模型的总维度（如512维）
$h$：注意力头的数量（通常为8）
$d_k = d_{model}/h$：每个头的维度（如512/8=64）

2.2 计算流程分解

多头注意力的计算可以分解为五个关键步骤：

步骤1：输入投影

将输入序列$X \in \mathbb{R}^{L \times d_{model}}$通过三个可学习的投影矩阵转换为查询(Q)、键(K)、值(V)表示：

$$
Q = XW^Q, \quad K = XW^K, \quad V = XW^V
$$

其中$W^Q, W^K, W^V \in \mathbb{R}^{d_{model} \times d_{model}}$。

步骤2：多头拆分

将Q、K、V矩阵按头的数量$h$进行拆分：

$$
Q = [Q_1, Q_2, ..., Q_h], \quad K = [K_1, K_2, ..., K_h], \quad V = [V_1, V_2, ..., V_h]
$$

每个$Q_i, K_i, V_i \in \mathbb{R}^{L \times d_k}$。

步骤3：单头注意力计算

每个头独立计算缩放点积注意力：

$$
\text{head}_i = \text{Attention}(Q_i, K_i, V_i) = \text{softmax}\left(\frac{Q_iK_i^T}{\sqrt{d_k}}\right)V_i
$$

步骤4：多头输出拼接

将所有头的输出在特征维度拼接：

$$
\text{Concat} = [\text{head}_1, \text{head}_2, ..., \text{head}_h]
$$

步骤5：最终投影

通过可学习矩阵$W^O \in \mathbb{R}^{d_{model} \times d_{model}}$进行线性变换：

$$
\text{MultiHead}(Q,K,V) = \text{Concat} \cdot W^O
$$

3. 手动计算实例解析

为了更好地理解多头注意力的工作原理，我们通过一个具体的计算示例来演示整个过程。

3.1 实例设置

考虑输入序列["我", "爱", "你"]，设置参数：

$d_{model}=4$（总维度）
$h=2$（头数）
$d_k=2$（每个头的维度）

输入矩阵（已包含词嵌入和位置编码）：

$$
X = \begin{bmatrix}
0.5 & 1.1 & 0.2 & 0.1 \
1.0 & 1.1 & 0.3 & 0.2 \
1.2 & -0.2 & 0.1 & 0.4 \
\end{bmatrix}
$$

为简化计算，设所有投影矩阵为单位矩阵$I$。

3.2 计算过程

头1计算（前两维）

输入：
$$
Q_1 = K_1 = V_1 = \begin{bmatrix}
0.5 & 1.1 \
1.0 & 1.1 \
1.2 & -0.2 \
\end{bmatrix}
$$

计算注意力分数（以第一个词"我"为例）：

$q_0 = [0.5, 1.1]$
计算与所有键的点积：
- $s_{00} = 0.5×0.5 + 1.1×1.1 = 1.46$
- $s_{01} = 0.5×1.0 + 1.1×1.1 = 1.71$
- $s_{02} = 0.5×1.2 + 1.1×(-0.2) = 0.38$
缩放：除以$\sqrt{2}≈1.414$
- $\tilde{s}_0 ≈ [1.032, 1.209, 0.269]$
Softmax归一化：
- $\text{softmax}([1.032, 1.209, 0.269]) ≈ [0.325, 0.421, 0.254]$
加权求和：
- $\text{head}_1[0] = 0.325×[0.5,1.1] + 0.421×[1.0,1.1] + 0.254×[1.2,-0.2] ≈ [0.847, 0.872]$

头2计算（后两维）

输入：
$$
Q_2 = K_2 = V_2 = \begin{bmatrix}
0.2 & 0.1 \
0.3 & 0.2 \
0.1 & 0.4 \
\end{bmatrix}
$$

类似计算可得：
$$
\text{head}_2 ≈ \begin{bmatrix}
0.201 & 0.233 \
0.201 & 0.242 \
0.199 & 0.237 \
\end{bmatrix}
$$

最终输出拼接

将两个头的输出在特征维度拼接：

$$
\text{Output} = \begin{bmatrix}
0.847 & 0.872 & 0.201 & 0.233 \
0.874 & 0.843 & 0.201 & 0.242 \
0.986 & 0.498 & 0.199 & 0.237 \
\end{bmatrix}
$$

4. 代码实现与验证

为了验证我们的数学推导，我们实现了一个简化版的多头注意力模块，并与PyTorch官方实现进行对比。

python复制import torch
import torch.nn as nn

class SimpleMultiHeadAttention(nn.Module):
    def __init__(self, d_model, n_heads):
        super().__init__()
        self.d_model = d_model
        self.n_heads = n_heads
        self.d_k = d_model // n_heads
        
        # 投影矩阵
        self.w_q = nn.Linear(d_model, d_model)
        self.w_k = nn.Linear(d_model, d_model)
        self.w_v = nn.Linear(d_model, d_model)
        self.w_o = nn.Linear(d_model, d_model)
        
    def forward(self, x):
        batch_size, seq_len, _ = x.shape
        
        # 1. 输入投影
        q = self.w_q(x)
        k = self.w_k(x)
        v = self.w_v(x)
        
        # 2. 拆分多头
        q = q.view(batch_size, seq_len, self.n_heads, self.d_k).transpose(1, 2)
        k = k.view(batch_size, seq_len, self.n_heads, self.d_k).transpose(1, 2)
        v = v.view(batch_size, seq_len, self.n_heads, self.d_k).transpose(1, 2)
        
        # 3. 计算注意力
        scores = torch.matmul(q, k.transpose(-2, -1)) / torch.sqrt(torch.tensor(self.d_k))
        attn = torch.softmax(scores, dim=-1)
        out = torch.matmul(attn, v)
        
        # 4. 拼接输出
        out = out.transpose(1, 2).contiguous().view(batch_size, seq_len, -1)
        return self.w_o(out)

# 测试
d_model = 4
n_heads = 2
x = torch.tensor([[
    [0.5, 1.1, 0.2, 0.1],
    [1.0, 1.1, 0.3, 0.2],
    [1.2, -0.2, 0.1, 0.4]
]], dtype=torch.float32)

# 自定义实现
model = SimpleMultiHeadAttention(d_model, n_heads)
with torch.no_grad():
    for param in model.parameters():
        param.data = torch.eye(d_model)  # 设为单位矩阵
print("自定义实现输出:")
print(model(x))

# PyTorch官方实现
official_mha = nn.MultiheadAttention(d_model, n_heads, batch_first=True, bias=False)
with torch.no_grad():
    official_mha.in_proj_weight.data = torch.cat([torch.eye(d_model)]*3, dim=0)
    official_mha.out_proj.weight.data = torch.eye(d_model)
out, _ = official_mha(x, x, x)
print("\n官方实现输出:")
print(out)