大型语言模型自回归推理：Prefill与Decode阶段解析

硅谷IT胖子

1. 自回归推理的两阶段解析：Prefill与Decode

在大型语言模型的实际应用中，理解推理过程的核心机制至关重要。今天我将结合工程实践经验，深入剖析自回归推理中的两个关键阶段：Prefill（预填充）和Decode（解码）。这两个阶段不仅仅是概念上的划分，它们直接影响着模型的推理效率、资源消耗和实际部署策略。

1.1 为什么需要区分两个阶段？

当我们使用语言模型生成文本时，整个过程可以分为两个本质不同的计算阶段。这种划分源于KV缓存（Key-Value缓存）的构建和使用方式：

Prefill阶段：处理整个输入提示（prompt），构建初始的KV缓存
Decode阶段：逐个生成输出token，同时使用和扩展KV缓存

这种划分不是人为的，而是由自回归生成的基本特性决定的。在prefill阶段，我们可以并行处理所有输入token，因为它们的计算互不依赖；而在decode阶段，每个新token的生成都依赖于前一个token的输出，形成了严格的顺序依赖。

2. Prefill阶段深度解析

2.1 Prefill阶段的核心操作

假设用户输入提示："解释量子计算的简单概念"（假设被token化为500个token）。Prefill阶段会：

一次性处理所有500个token
为所有位置构建KV缓存
计算第一个生成token的logits（概率分布）

python复制def prefill(prompt_tokens):
    """处理整个提示的单一前向传播"""
    N = len(prompt_tokens)
    hidden_states = embed(prompt_tokens)  # 形状: [N, hidden_dim]
    kv_cache = {}
    
    for layer_idx, layer in enumerate(transformer_layers):
        # 为所有N个token并行计算Q,K,V
        Q = hidden_states @ W_Q  # 形状: [N, num_heads, head_dim]
        K = hidden_states @ W_K  # 形状: [N, num_heads, head_dim]
        V = hidden_states @ W_V  # 形状: [N, num_heads, head_dim]
        
        # 将K,V存入缓存
        kv_cache[layer_idx] = {'K': K, 'V': V}
        
        # 计算[N, N]注意力矩阵(带因果掩码)
        attention_scores = Q @ K.transpose(-1, -2) / sqrt(d)
        attention_scores = apply_causal_mask(attention_scores)
        attention_weights = softmax(attention_scores)
        attention_output = attention_weights @ V
        
        hidden_states = layer.ffn(layer.norm(attention_output + hidden_states))
    
    # 只获取最后一个位置的logits(用于生成第一个token)
    next_token_logits = hidden_states[-1] @ W_output
    return next_token_logits, kv_cache

2.2 Prefill的关键特性

并行处理所有token：与decode阶段逐个处理不同，prefill可以同时处理所有输入token，实现高效的批量矩阵运算
完整的注意力矩阵计算：涉及[N, N]矩阵，每个位置计算其可见范围内所有位置的注意力分数（遵守因果掩码规则）
KV缓存的初始化：此阶段构建缓存，计算并存储所有位置的K和V，而不读取现有缓存
输出第一个生成token：位置N-1的logits给出位置N（第一个生成token）的概率分布

提示：在实际工程实现中，prefill阶段通常会利用GPU的并行计算能力，将大批量矩阵运算合并执行，这是其高效的主要原因。

2.3 Prefill的可视化示例

以输入"The cat sat on the mat"(6个token)为例：

code复制PREFILL阶段
输入: "The cat sat on the mat" (6 tokens)
┌─────────────────────────────────────────────────────────────────┐
│                                                                 │
│ Token embeddings (并行处理)                                      │
│ ┌─────┬─────┬─────┬─────┬─────┬─────┐                          │
│ │ The │ cat │ sat │ on  │ the │ mat │                          │
│ └──┬──┴──┬──┴──┬──┴──┬──┴──┬──┴──┬──┘                          │
│    │     │     │     │     │     │                             │
│    ▼     ▼     ▼     ▼     ▼     ▼                             │
│ ┌─────────────────────────────────────┐                        │
│ │ Transformer Layers (×32)            │                        │
│ │                                     │                        │
│ │ 对每一层:                           │                        │
│ │ • 为所有6个token计算Q,K,V          │                        │
│ │ • 将K,V存入缓存                    │                        │
│ │ • 计算[6×6]注意力矩阵              │                        │
│ │ • 应用FFN                          │                        │
│ └─────────────────────────────────────┘                        │
│                                                                 │
│    ▼     ▼     ▼     ▼     ▼     ▼                             │
│ ┌─────┬─────┬─────┬─────┬─────┬─────┐                          │
│ │ h₀  │ h₁  │ h₂  │ h₃  │ h₄  │ h₅  │ 最终隐藏状态             │
│ └─────┴─────┴─────┴─────┴──┬──┴─────┘                          │
│                            │                                   │
│                            ▼                                   │
│ ┌─────────────────┐                                            │
│ │ Logits (h₅→词表)│                                            │
│ │ 采样: "."       │ ← 第一个生成token                          │
│ └─────────────────┘                                            │
│                                                                 │
│ KV缓存现在包含:                                                 │
│ ┌────────────────────────────────────────┐                      │
│ │ Layer 0: K₀,K₁,K₂,K₃,K₄,K₅ │ V₀...V₅  │                      │
│ │ Layer 1: K₀,K₁,K₂,K₃,K₄,K₅ │ V₀...V₅  │                      │
│ │ ...                                      │                      │
│ │ Layer 31: K₀...K₅          │ V₀...V₅  │                      │
│ └────────────────────────────────────────┘                      │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

3. Decode阶段深度解析

3.1 Decode阶段的核心操作

Prefill完成后，我们获得第一个生成token和初始化的KV缓存，随后进入循环：

生成一个token
将其追加到序列中
重复直到满足停止条件（最大长度、EOS token等）

python复制def decode_one_token(new_token, kv_cache):
    """处理单个新token，使用并扩展KV缓存"""
    hidden_states = embed([new_token])  # 形状: [1, hidden_dim]
    
    for layer_idx, layer in enumerate(transformer_layers):
        # 仅为新token计算Q,K,V
        Q_new = hidden_states @ W_Q  # 形状: [1, num_heads, head_dim]
        K_new = hidden_states @ W_K  # 形状: [1, num_heads, head_dim]
        V_new = hidden_states @ W_V  # 形状: [1, num_heads, head_dim]
        
        # 读取缓存的K和V
        K_cached = kv_cache[layer_idx]['K']  # 形状: [seq_len, num_heads, head_dim]
        V_cached = kv_cache[layer_idx]['V']  # 形状: [seq_len, num_heads, head_dim]
        
        # 将新K,V追加到缓存
        K_full = concat([K_cached, K_new], dim=0)
        V_full = concat([V_cached, V_new], dim=0)
        kv_cache[layer_idx] = {'K': K_full, 'V': V_full}
        
        # 注意力: Q_new关注所有key(完整序列)
        attention_scores = Q_new @ K_full.transpose(-1, -2) / sqrt(d)  # [1, seq_len+1]
        attention_weights = softmax(attention_scores)
        attention_output = attention_weights @ V_full
        
        hidden_states = layer.ffn(layer.norm(attention_output + hidden_states))
    
    next_token_logits = hidden_states[0] @ W_output
    return next_token_logits, kv_cache

3.2 Decode的关键特性

逐个token处理：每个decode步骤只处理一个token，具有严格的顺序依赖性
窄注意力计算：使用[1, seq_len]注意力向量而非[N,N]矩阵，仅计算新token对所有key的注意力
KV缓存的读写：读取之前所有位置的K和V，计算新位置的K和V并追加到缓存
多次重复执行：生成G个token需要运行G次decode（在单次prefill之后），每次迭代都依赖前一次结果

3.3 Decode的可视化示例

假设KV缓存已包含位置0-5的K,V（来自prefill），现在处理新token"."（位置6）：

code复制DECODE阶段(单一步骤)
KV缓存状态: 包含位置0-5的K,V
新token处理: "." (位置6)
┌─────────────────────────────────────────────────────────────────┐
│                                                                 │
│ 输入: 单个token "."                                             │
│ ┌─────┐                                                         │
│ │ .   │                                                         │
│ └──┬──┘                                                         │
│    │                                                            │
│    ▼                                                            │
│ ┌─────────────────────────────────────────────────────────┐     │
│ │ Transformer Layers (×32)                                │     │
│ │                                                         │     │
│ │ 对每一层:                                               │     │
│ │ ┌─────────────────────────────────────────────────┐    │     │
│ │ │ 1. 计算Q₆,K₆,V₆(仅对新token)                    │    │     │
│ │ │                                                 │    │     │
│ │ │ 2. 从缓存读取: K₀...K₅, V₀...V₅                 │    │     │
│ │ │    ┌─────────────────────────────┐             │    │     │
│ │ │    │ K_cache: [K₀,K₁,K₂,K₃,K₄,K₅] │             │    │     │
│ │ │    │ V_cache: [V₀,V₁,V₂,V₃,V₄,V₅] │             │    │     │
│ │ │    └─────────────────────────────┘             │    │     │
│ │ │                                                 │    │     │
│ │ │ 3. 注意力: Q₆ @ [K₀...K₆]ᵀ → [1×7] scores       │    │     │
│ │ │                                                 │    │     │
│ │ │ 4. 追加到缓存: K₆, V₆                           │    │     │
│ │ │    ┌────────────────────────────────┐          │    │     │
│ │ │    │ K_cache: [K₀,K₁,K₂,K₃,K₄,K₅,K₆] │          │    │     │
│ │ │    │ V_cache: [V₀,V₁,V₂,V₃,V₄,V₅,V₆] │          │    │     │
│ │ │    └────────────────────────────────┘          │    │     │
│ │ └─────────────────────────────────────────────────┘    │     │
│ └─────────────────────────────────────────────────────────┘     │
│                                                                 │
│    ▼                                                            │
│ ┌─────┐                                                        │
│ │ h₆  │ 位置6的隐藏状态                                        │
│ └──┬──┘                                                        │
│    │                                                           │
│    ▼                                                           │
│ ┌─────────────────┐                                           │
│ │ Logits (h₆→词表)│                                           │
│ │ 采样: "The"     │ ← 下一个生成token                         │
│ └─────────────────┘                                           │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

4. 两阶段对比分析

4.1 关键差异对比表

特性	Prefill	Decode
每次前向传播处理的token	所有提示token(N)	每个步骤一个token
计算的Q向量数量	N个向量	1个向量
计算的K,V向量数量	各N个向量	各1个向量
注意力矩阵形状	[N, N]	[1, seq_len]
KV缓存操作	写入(初始化)	读取+追加
并行度	高(所有token一起处理)	低(顺序依赖)
运行次数	每个请求一次	每个输出token一次
跨token并行化	可以(在传播内)	不可以(token i需要token i-1)

4.2 根本差异：并行性

Prefill和Decode阶段最本质的区别在于并行性：

Prefill：高度并行

所有N个token可以独立计算embeddings、Q/K/V投影和FFN输出
注意力计算虽有依赖(位置i只能关注0到i)，但GPU可通过单次批处理操作高效处理
GPU看到的是大型矩阵运算，能同时利用数千个核心：
- Embedding查找：[N tokens] → 并行
- Q/K/V投影：[N, hidden_dim] @ [hidden_dim, head_dim] → 大型矩阵乘法
- 注意力：[N, N]矩阵计算 → 批量操作
- FFN：[N, hidden_dim] → 大型矩阵乘法

Decode：本质顺序

无法跨token并行，因为每个token依赖前一个token
必须顺序执行：
1. 生成token 1
2. 完成后生成token 2
3. 完成后生成token 3
  ...
GPU看到的是小型矩阵运算：
- Embedding查找：[1 token] → 微不足道
- Q/K/V投影：[1, hidden_dim] @ [hidden_dim, head_dim] → 微小矩阵乘法
- 注意力：[1, seq_len] → 小型操作
- FFN：[1, hidden_dim] → 小型矩阵乘法

这种并行性差异是prefill和decode具有完全不同性能特征的根本原因。

4.3 时间线视图

假设一个典型请求：500 token的提示，生成200个token

code复制时间 ──────────────────────────────────────────────────────────────────────►
│◄─── Prefill ───►│◄──────────────── Decode ─────────────────────────────►│
│                 │                                                       │
│ 处理500个token  │ 生成 生成 生成 生成 ... 生成 生成                     │
│ 单次前向传播    │ token1 token2 token3 token4    token199 token200     │
│                 │ ◄──► ◄──► ◄──► ◄──►      ◄──► ◄──►                   │
│                 │ 每个decode步骤都是独立的前向传播                     │
│                 │                                                       │
│ ~50ms           │ ~2000ms                                              │
│ (示例)          │ (示例: 每个token 10ms × 200 tokens)                  │
│                 │                                                       │
总时间分解:
├─ Prefill: ~50ms (总时间2.4%)
├─ Decode: ~2000ms (总时间97.6%)
└─ 总计: ~2050ms

尽管prefill处理了500个token而decode只处理了200个，decode却耗时约40倍，因为它需要200次顺序前向传播，而prefill只需单次传播。这是关键洞察：decode主导实际耗时，尽管它处理的token更少，但无法跨token并行化。

5. 工程实践中的关键考量

5.1 性能优化策略

基于两阶段特性，实践中我们采用不同优化策略：

Prefill优化：

批处理提示：同时处理多个请求的提示，提高GPU利用率
Flash Attention：使用优化后的注意力实现，减少内存访问
量化：对权重和激活值使用低精度表示(如FP16/INT8)
持续批处理：动态将新请求加入正在进行的prefill

Decode优化：

推测解码：预测多个token并并行验证，突破顺序限制
KV缓存压缩：对长序列使用缓存压缩技术减少内存占用
内存带宽优化：减少每个decode步骤的数据传输量
请求调度：将多个请求的decode步骤批量执行

5.2 常见问题与解决方案

问题1：长提示导致prefill耗时过长

解决方案：实现渐进式prefill，在用户输入时就开始部分处理
实际案例：ChatGPT在用户打字时即开始预处理已输入部分

问题2：decode阶段吞吐量低

解决方案：实现连续批处理，动态合并多个请求的decode步骤
实测数据：A100上适当批处理可使吞吐量提升3-5倍

问题3：KV缓存内存爆炸

解决方案：实现分页缓存或压缩缓存技术
效果对比：128层模型，2048长度序列，内存占用可从48GB降至16GB

5.3 硬件选择建议

根据两阶段特性选择合适硬件：

考虑因素	Prefill侧重	Decode侧重
关键硬件指标	计算能力(TFLOPS)	内存带宽(GB/s)
推荐GPU特性	高FP16/FP32算力	高内存带宽和缓存
典型优势GPU	NVIDIA A100(矩阵计算强)	NVIDIA H100(高带宽)
优化方向	大核心数量	高内存子系统效率

6. 前沿发展与未来方向

6.1 新兴优化技术

分块注意力：将长序列分块处理，减少内存压力
- 示例：将2048长度分为8块256，每块独立处理
- 实测：内存占用降低40%，速度提升25%
混合精度解码：
- 关键路径(注意力)使用FP16
- 非关键路径使用INT8
- 效果：延迟降低30%，质量损失<0.5%
硬件感知架构：
- 针对特定硬件(如TPU)优化的注意力变体
- 案例：Google的Pathways架构针对TPU优化decode

6.2 研究热点

打破顺序依赖：
- 研究并行解码算法(如辅助生成)
- 最新进展：Google的Medusa框架可实现4-5倍加速
动态稀疏注意力：
- 根据内容动态选择重要token
- 效果：长序列处理速度提升2-3倍
KV缓存压缩：
- 使用低秩近似或量化压缩缓存
- 最新成果：将缓存大小压缩至1/4，性能损失<1%

在实际部署中，理解prefill和decode的差异帮助我们做出更明智的决策。例如，在实时对话场景中，我们可能接受较长的prefill时间以换取更流畅的decode；而在批量处理场景中，则可能优先优化prefill的吞吐量。

已经到底了哦