从Seq2Seq到Transformer：NLP序列建模的演进与优化

千纸鹤Amanda

1. 从序列建模到注意力机制：自然语言处理的进化之路

在自然语言处理领域，序列建模一直是个核心挑战。早期的RNN和LSTM虽然能处理固定长度的序列转换任务，但当面对机器翻译这类输入输出长度不定的场景时，就显得力不从心了。2014年提出的Seq2Seq架构，彻底改变了这一局面。

Seq2Seq的创新之处在于它借鉴了自动编码器(Autoencoder)的思想，但做了关键改进。传统Autoencoder就像把文件压缩成zip包再解压，追求的是无损还原；而Seq2Seq更像是把英文小说翻译成中文小说，重在语义等价而非形式相同。这种架构由编码器(Encoder)和解码器(Decoder)组成，编码器将整个输入序列压缩为一个固定维度的上下文向量(Context Vector)，解码器则基于这个向量逐步生成输出序列。

关键突破：Context Vector作为信息枢纽，使得模型可以处理变长序列。但这也带来了新问题——如何将长序列的所有信息压缩到一个固定维度的向量中？

2. Seq2Seq架构深度解析

2.1 编码器：信息压缩的艺术

以LSTM编码器为例，其工作流程如下：

python复制# LSTM编码器单步计算
h_t, c_t = LSTM(x_t, h_{t-1}, c_{t-1})

具体信息流动路径：

输入token经过嵌入层转换为256维词向量
通过LSTM单元（包含遗忘门、输入门、输出门）
输出256维的隐藏状态h_t和细胞状态c_t

编码器有三个显著特点：

单向信息流：t时刻状态仅依赖前序信息，无法看到未来token
渐进式压缩：每个时间步都在融合新token和历史信息
梯度瓶颈：反向传播时梯度需要跨越整个序列，容易消失或爆炸

2.2 解码器：序列生成的奥秘

解码器采用自回归方式生成序列：

python复制# 解码器单步生成过程
s_t = LSTM(y_{t-1}, s_{t-1}, Context_Vector)
y_t = softmax(W * s_t)  # 预测下一个token的概率分布

解码器的关键特性：

三路输入：上一时刻输出、解码器状态、上下文向量
误差累积：当前预测依赖于历史预测，错误会逐步放大

2.3 教师强制训练技巧

Seq2Seq引入了一种巧妙的训练策略——教师强制(Teacher Forcing)：

code复制正常预测模式：y_t = f(y_{t-1}, ...)
教师强制模式：y_t = f(y_{t-1}^true, ...)

在训练时，解码器每个时间步都使用真实标签作为输入，而不是上一时刻的预测结果。这显著提高了模型收敛速度和稳定性。

3. 注意力机制的诞生与演进

3.1 从瓶颈到突破

最初的Seq2Seq存在明显的"信息瓶颈"问题：无论输入序列多长，都要压缩到固定维度的Context Vector中。对于长句子，模型很难保留所有细节信息。

2015年，Bahdanau等人提出"可微注意力机制"，在RNN架构上实现了：

动态对齐：解码时自动关注输入序列的相关部分
权重学习：通过神经网络学习对齐方式

但这种基于RNN的注意力存在根本性缺陷——必须串行计算，无法充分利用GPU并行能力。

3.2 Transformer的革命性创新

Transformer架构通过自注意力机制彻底改变了游戏规则：

并行计算：摆脱RNN的序列依赖，所有位置同时计算
多头注意力：多个注意力头从不同角度捕捉信息
位置编码：通过数学方法注入序列位置信息

自注意力的核心是QKV（Query-Key-Value）三元组：

自注意力：QKV来自同一序列，捕捉内部依赖
交叉注意力：Q来自解码器，KV来自编码器，实现序列对齐

python复制# 自注意力计算示例
def attention(Q, K, V):
    scores = Q @ K.T / sqrt(d_k)
    weights = softmax(scores)
    return weights @ V

4. Transformer架构详解

4.1 编码器层设计

标准编码器层包含两个主要子层：

多头自注意力层：
- 并行计算多个注意力头
- 每个头学习不同的关注模式
- 结果拼接后线性变换
位置前馈网络：
- 两层全连接网络
- 中间使用ReLU激活
- 独立处理每个位置

每子层后都有：

残差连接：缓解梯度消失
层归一化：稳定训练过程

4.2 解码器层创新

解码器层在编码器基础上增加了一个关键子层：

带掩码的多头自注意力：
- 防止当前位置看到未来信息
- 保持自回归特性
交叉注意力层：
- 连接编码器和解码器
- Q来自解码器，KV来自编码器
位置前馈网络：
- 与编码器结构相同

4.3 位置编码的奥秘

由于Transformer抛弃了RNN的递归结构，需要显式地注入位置信息：

code复制PE(pos,2i) = sin(pos/10000^(2i/d_model))
PE(pos,2i+1) = cos(pos/10000^(2i/d_model))

这种正弦编码具有两个优良特性：

可以表示任意长度的序列
相对位置关系可以通过线性变换表示

5. 实战经验与调优技巧

5.1 超参数设置指南

根据实际项目经验，推荐以下配置：

参数	小模型	大模型	说明
层数	6	12-24	更多层需要更多数据
隐藏层维度	512	1024	影响模型容量
注意力头数	8	16	通常取隐藏维度的1/64
FFN维度	2048	4096	通常为隐藏维度的4倍