Transformer架构详解：从自注意力到完整实现

天驰联盟

1. Transformer架构概述

Transformer模型是2017年由Google团队在论文《Attention Is All You Need》中提出的革命性神经网络架构。它彻底改变了自然语言处理领域的格局，摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN)，完全基于自注意力机制构建。

1.1 核心设计理念

Transformer的核心思想是使用注意力机制来建模序列中各个元素之间的全局依赖关系，而不需要考虑它们在序列中的距离。这种设计带来了几个关键优势：

并行计算能力：与RNN需要顺序处理不同，Transformer可以并行处理整个序列
长距离依赖建模：自注意力机制可以直接捕捉序列中任意两个元素的关系
可解释性：注意力权重可以直观展示模型关注的重点

1.2 整体架构组成

一个完整的Transformer模型包含以下几个关键组件：

嵌入层(Embedding)：将离散的token转换为连续的向量表示
位置编码(Positional Encoding)：为序列添加位置信息
编码器(Encoder)：由多个编码器层堆叠而成，每层包含：
- 多头自注意力机制
- 前馈神经网络
- 残差连接和层归一化
解码器(Decoder)：由多个解码器层堆叠而成，每层包含：
- 掩码多头自注意力机制
- 编码器-解码器注意力机制
- 前馈神经网络
- 残差连接和层归一化
输出层(Generator)：将解码器输出映射到目标词汇表空间

2. 词嵌入层实现详解

2.1 词嵌入原理

词嵌入(Word Embedding)是将离散的词汇映射到连续向量空间的技术。在Transformer中，我们使用查找表(Lookup Table)的方式实现：

python复制class Embedding(nn.Module):
    def __init__(self, vocab_size, d_model):
        super(Embedding, self).__init__()
        self.lut = nn.Embedding(vocab_size, d_model)
        self.d_model = d_model
        
    def forward(self, x):
        return self.lut(x) * math.sqrt(self.d_model)

关键参数说明：

vocab_size：词汇表大小，决定需要存储多少个不同的词向量
d_model：词向量的维度，通常为512或1024
math.sqrt(d_model)：缩放因子，确保初始阶段梯度大小适中

2.2 实现细节与技巧

初始化策略：PyTorch的nn.Embedding默认使用均匀分布初始化，但实践中可以使用更精细的初始化方法
共享权重：在机器翻译任务中，编码器和解码器的嵌入层可以共享权重以减少参数量
预训练嵌入：可以使用Word2Vec或GloVe等预训练的词向量初始化嵌入层

提示：在大型模型中，词嵌入层往往占据大部分参数。例如，词汇表大小为50,000，d_model=1024时，仅嵌入层就有约51M参数。

3. 位置编码设计与实现

3.1 位置编码的必要性

由于Transformer不包含循环或卷积结构，它本身无法感知序列中元素的位置信息。位置编码通过为每个位置生成独特的向量来解决这个问题。

3.2 正弦余弦位置编码

Transformer使用正弦和余弦函数的组合来生成位置编码：

python复制class PositionalEncoding(nn.Module):
    def __init__(self, d_model, dropout=0.1, max_len=5000):
        super(PositionalEncoding, self).__init__()
        self.dropout = nn.Dropout(p=dropout)
        
        pe = torch.zeros(max_len, d_model)
        position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * 
                           (-math.log(10000.0) / d_model))
        
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        pe = pe.unsqueeze(0)
        self.register_buffer('pe', pe)
        
    def forward(self, x):
        x = x + self.pe[:, :x.size(1), :]
        return self.dropout(x)

数学表达式：

偶数维度：PE(pos,2i) = sin(pos/10000^(2i/d_model))
奇数维度：PE(pos,2i+1) = cos(pos/10000^(2i/d_model))

3.3 位置编码的特性分析

相对位置信息：这种编码方式可以让模型轻松学习到相对位置关系
泛化能力：由于使用三角函数，模型可以处理比训练时更长的序列
唯一性：每个位置都有唯一的编码表示

注意：位置编码的维度必须与词嵌入的维度相同，因为它们会直接相加。

4. 自注意力机制实现

4.1 注意力计算基础

自注意力机制的核心是计算查询(Query)、键(Key)和值(Value)之间的关系：

python复制def attention(query, key, value, mask=None, dropout=None):
    d_k = query.size(-1)
    scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(d_k)
    
    if mask is not None:
        scores = scores.masked_fill(mask == 0, -1e9)
        
    p_attn = F.softmax(scores, dim=-1)
    
    if dropout is not None:
        p_attn = dropout(p_attn)
        
    return torch.matmul(p_attn, value), p_attn

计算步骤：

计算Q和K的点积，得到注意力分数
缩放分数（除以√d_k）
应用mask（如需要）
计算softmax得到注意力权重
用权重对V加权求和

4.2 缩放点积注意力的优势

计算效率：相比加性注意力，点积注意力计算更高效
梯度稳定性：缩放因子防止softmax输入过大导致梯度消失
理论依据：当Q和K的维度d_k较大时，点积的方差会增大，缩放可以缓解这个问题

5. 多头注意力机制实现

5.1 多头注意力设计

多头注意力允许模型同时关注不同位置的多个表示子空间：

python复制class MultiHeadedAttention(nn.Module):
    def __init__(self, h, d_model, dropout=0.1):
        super(MultiHeadedAttention, self).__init__()
        assert d_model % h == 0
        
        self.d_k = d_model // h
        self.h = h
        self.linears = nn.ModuleList([
            nn.Linear(d_model, d_model) for _ in range(4)
        ])
        self.dropout = nn.Dropout(p=dropout)
        
    def forward(self, query, key, value, mask=None):
        if mask is not None:
            mask = mask.unsqueeze(1)
            
        batch_size = query.size(0)
        
        query, key, value = [
            lin(x).view(batch_size, -1, self.h, self.d_k).transpose(1, 2)
            for lin, x in zip(self.linears, (query, key, value))
        ]
        
        x, self.attn = attention(
            query, key, value, mask=mask, dropout=self.dropout
        )
        
        x = x.transpose(1, 2).contiguous().view(
            batch_size, -1, self.h * self.d_k
        )
        
        return self.linears[-1](x)

5.2 多头注意力的优势

并行注意力机制：每个头可以学习不同的注意力模式
表示能力增强：模型可以在不同子空间关注不同方面的信息
计算效率：将大矩阵分解为多个小矩阵并行计算

实践建议：

常用配置：h=8，d_model=512，d_k=d_v=64
头数h通常选择d_model的约数，确保d_k和d_v为整数

6. 前馈网络实现

6.1 位置级前馈网络

前馈网络对每个位置独立应用相同的变换：

python复制class PositionwiseFeedForward(nn.Module):
    def __init__(self, d_model, d_ff, dropout=0.1):
        super(PositionwiseFeedForward, self).__init__()
        self.w_1 = nn.Linear(d_model, d_ff)
        self.w_2 = nn.Linear(d_ff, d_model)
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, x):
        x = self.w_1(x)
        x = F.relu(x)
        x = self.dropout(x)
        return self.w_2(x)

典型配置：

d_model=512
d_ff=2048
激活函数：ReLU（原始论文）或GELU（更现代的变体）

6.2 前馈网络的作用

非线性变换：为模型添加非线性能力
维度扩展与压缩：先扩展后压缩的"瓶颈"结构有助于学习更丰富的特征
位置独立性：每个位置的变换独立进行，保持位置信息

7. 残差连接与层归一化

7.1 残差连接实现

残差连接允许梯度直接流过网络，缓解深度网络的梯度消失问题：

python复制class SublayerConnection(nn.Module):
    def __init__(self, size, dropout):
        super(SublayerConnection, self).__init__()
        self.norm = LayerNorm(size)
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, x, sublayer):
        return x + self.dropout(sublayer(self.norm(x)))

7.2 层归一化实现

层归一化对每个样本的特征维度进行归一化：

python复制class LayerNorm(nn.Module):
    def __init__(self, features, eps=1e-6):
        super(LayerNorm, self).__init__()
        self.a_2 = nn.Parameter(torch.ones(features))
        self.b_2 = nn.Parameter(torch.zeros(features))
        self.eps = eps
        
    def forward(self, x):
        mean = x.mean(-1, keepdim=True)
        std = x.std(-1, keepdim=True)
        return self.a_2 * (x - mean) / (std + self.eps) + self.b_2

7.3 为什么使用层归一化而非批归一化

序列长度可变：批归一化在序列任务中效果不佳，因为不同序列可能长度不同
小批量问题：在训练初期或小批量时，批统计量不准确
稳定性：层归一化对批量大小不敏感，更适合序列模型

8. 编码器层实现

8.1 编码器层结构

python复制class EncoderLayer(nn.Module):
    def __init__(self, size, self_attn, feed_forward, dropout):
        super(EncoderLayer, self).__init__()
        self.self_attn = self_attn
        self.feed_forward = feed_forward
        self.sublayer = nn.ModuleList([
            SublayerConnection(size, dropout) for _ in range(2)
        ])
        self.size = size
        
    def forward(self, x, mask):
        x = self.sublayer[0](x, lambda x: self.self_attn(x, x, x, mask))
        x = self.sublayer[1](x, self.feed_forward)
        return x

8.2 编码器实现

python复制class Encoder(nn.Module):
    def __init__(self, layer, N):
        super(Encoder, self).__init__()
        self.layers = nn.ModuleList([copy.deepcopy(layer) for _ in range(N)])
        self.norm = LayerNorm(layer.size)
        
    def forward(self, x, mask):
        for layer in self.layers:
            x = layer(x, mask)
        return self.norm(x)

典型配置：

层数N=6
每层包含一个多头注意力子层和一个前馈网络子层
每个子层周围有残差连接和层归一化

9. 解码器层实现

9.1 解码器层结构

python复制class DecoderLayer(nn.Module):
    def __init__(self, size, self_attn, src_attn, feed_forward, dropout):
        super(DecoderLayer, self).__init__()
        self.size = size
        self.self_attn = self_attn
        self.src_attn = src_attn
        self.feed_forward = feed_forward
        self.sublayer = nn.ModuleList([
            SublayerConnection(size, dropout) for _ in range(3)
        ])
        
    def forward(self, x, memory, src_mask, tgt_mask):
        x = self.sublayer[0](
            x, lambda x: self.self_attn(x, x, x, tgt_mask)
        )
        x = self.sublayer[1](
            x, lambda x: self.src_attn(x, memory, memory, src_mask)
        )
        x = self.sublayer[2](x, self.feed_forward)
        return x

9.2 解码器实现

python复制class Decoder(nn.Module):
    def __init__(self, layer, N):
        super(Decoder, self).__init__()
        self.layers = nn.ModuleList([copy.deepcopy(layer) for _ in range(N)])
        self.norm = LayerNorm(layer.size)
        
    def forward(self, x, memory, src_mask, tgt_mask):
        for layer in self.layers:
            x = layer(x, memory, src_mask, tgt_mask)
        return self.norm(x)

解码器特点：

掩码自注意力：防止看到未来信息（在训练时）
编码器-解码器注意力：关注源语言的相关部分
前馈网络：与编码器相同

10. 完整Transformer模型组装

10.1 模型组装

python复制class Transformer(nn.Module):
    def __init__(self, encoder, decoder, src_embed, tgt_embed, generator):
        super(Transformer, self).__init__()
        self.encoder = encoder
        self.decoder = decoder
        self.src_embed = src_embed
        self.tgt_embed = tgt_embed
        self.generator = generator
        
    def encode(self, src, src_mask):
        return self.encoder(self.src_embed(src), src_mask)
    
    def decode(self, memory, src_mask, tgt, tgt_mask):
        return self.decoder(
            self.tgt_embed(tgt), memory, src_mask, tgt_mask
        )
    
    def forward(self, src, tgt, src_mask, tgt_mask):
        memory = self.encode(src, src_mask)
        decoded = self.decode(memory, src_mask, tgt, tgt_mask)
        return self.generator(decoded)

10.2 模型创建函数

python复制def make_model(src_vocab, tgt_vocab, N=6, d_model=512, d_ff=2048, h=8, dropout=0.1):
    attn = MultiHeadedAttention(h, d_model)
    ff = PositionwiseFeedForward(d_model, d_ff, dropout)
    position = PositionalEncoding(d_model, dropout)
    
    model = Transformer(
        encoder=Encoder(EncoderLayer(d_model, copy.deepcopy(attn), 
                     copy.deepcopy(ff), dropout), N),
        decoder=Decoder(DecoderLayer(d_model, copy.deepcopy(attn), 
                     copy.deepcopy(attn), copy.deepcopy(ff), 
                     dropout), N),
        src_embed=nn.Sequential(Embedding(src_vocab, d_model), 
                     copy.deepcopy(position)),
        tgt_embed=nn.Sequential(Embedding(tgt_vocab, d_model), 
                     copy.deepcopy(position)),
        generator=nn.Sequential(
            nn.Linear(d_model, tgt_vocab),
            nn.LogSoftmax(dim=-1)
        )
    )
    
    for p in model.parameters():
        if p.dim() > 1:
            nn.init.xavier_uniform_(p)
            
    return model

10.3 模型初始化技巧

Xavier初始化：对线性层的权重使用Xavier均匀初始化
偏置初始化：通常初始化为0
共享权重：编码器和解码器的嵌入层可以共享权重
输出层权重绑定：输出层的权重可以与解码器嵌入层共享

11. Transformer训练技巧

11.1 优化器选择

Transformer使用Adam优化器，并采用特殊的学习率调度：

python复制class NoamOpt:
    "Optim wrapper that implements rate scheduling."
    def __init__(self, model_size, factor, warmup, optimizer):
        self.optimizer = optimizer
        self._step = 0
        self.warmup = warmup
        self.factor = factor
        self.model_size = model_size
        self._rate = 0
        
    def step(self):
        "Update parameters and rate"
        self._step += 1
        rate = self.rate()
        for p in self.optimizer.param_groups:
            p['lr'] = rate
        self._rate = rate
        self.optimizer.step()
        
    def rate(self, step=None):
        "Implement `lrate` above"
        if step is None:
            step = self._step
        return self.factor * \
            (self.model_size ** (-0.5) * 
             min(step ** (-0.5), step * self.warmup ** (-1.5)))

典型配置：

warmup_steps=4000
factor=2.0
base_lr=0.0001

11.2 正则化技术

Dropout：应用于注意力权重和前馈网络
标签平滑：防止模型对预测过于自信
梯度裁剪：防止梯度爆炸

11.3 批处理与掩码

序列填充：同一批次内的序列填充到相同长度
注意力掩码：防止关注填充位置
未来信息掩码：解码器防止看到未来信息

12. Transformer应用示例

12.1 模型创建与使用

python复制# 模拟数据
batch_size = 32
src_seq_len = 10
tgt_seq_len = 12
src_vocab_size = 5000
tgt_vocab_size = 6000

src = torch.randint(0, src_vocab_size, (batch_size, src_seq_len))
tgt = torch.randint(0, tgt_vocab_size, (batch_size, tgt_seq_len))
src_mask = torch.ones(batch_size, 1, src_seq_len)
tgt_mask = torch.ones(batch_size, tgt_seq_len, tgt_seq_len)

# 创建模型
model = make_model(src_vocab_size, tgt_vocab_size)

# 前向传播
output = model(src, tgt, src_mask, tgt_mask)

print(f"输入形状: 源语言 {src.shape}, 目标语言 {tgt.shape}")
print(f"输出形状: {output.shape}")
print(f"模型参数量: {sum(p.numel() for p in model.parameters())}")