大模型训练显存优化：原理、技术与实践-AI智能范式网

大模型训练显存优化：原理、技术与实践

走来走去的F小姐

1. 大模型显存消耗的本质与构成

在深度学习模型训练过程中，显存消耗主要来自三个核心部分：模型参数本身、计算图（DAG）和临时栈变量。理解这三者的构成和比例关系，是进行显存优化的基础。

模型参数部分包含三个关键组成部分：

权重参数（weight）：模型的可训练参数，如线性层的权重矩阵
梯度（gradient）：反向传播时计算的参数梯度
优化器状态（opt states）：包括动量（m）、二阶动量（v）和主权重（master weight）

以bf16混合精度训练为例，这三者的典型比例为1:1:6。这意味着对于一个72B参数的模型，仅优化器状态就需要约432GB的显存空间，这解释了为什么大模型训练需要如此多的显存资源。

计算图（DAG）是显存消耗的第二大来源。在前向传播过程中，需要保存中间激活值以实现自动求导。这些激活值会随着batch size和序列长度的增加而线性增长，对于深层网络来说可能占据数百GB的显存。

临时栈变量则包括：

所有操作的输入输出张量
计算过程中的中间缓冲区
短期使用后会被Python垃圾回收机制释放的内存

提示：在实际训练中，临时变量的显存管理往往被忽视，但它们可能导致严重的显存碎片问题，特别是在处理大张量时。

2. 显存优化的核心价值与收益

显存优化不仅仅是让大模型能在有限硬件上运行的技术手段，它还能带来多方面的实际收益：

资源利用率提升：通过优化，可以使用更少的GPU卡完成原本需要更多硬件资源的训练任务。例如作者实现的72B模型在8卡80G配置下的训练，相比传统方法节省了50%以上的硬件投入。

训练策略灵活性增强：

可以灵活调整Tensor Parallelism(TP)/Pipeline Parallelism(PP)的规模
减少TP规模可以降低AllReduce通信开销
优化PP配置可以减少流水线气泡（bubble）时间
避免使用Checkpointing(CP)策略，防止显存需求翻倍

训练效率提升：

减少recompute层数
增大micro batch size
在计算核心未被充分利用时提高MFU（Model FLOPs Utilization）
保持访存和通信开销不变的情况下提升吞吐量

工程实践价值：

使中小团队也能参与大模型训练
降低实验和迭代成本
提高硬件资源的投资回报率

3. 九大显存优化技术详解

3.1 算子融合技术

算子融合是通过将多个连续操作合并为一个内核函数，减少中间结果存储和内存访问的技术。具体实现方式包括：

典型融合场景：

LM Head + Cross Entropy Loss：对于大词表情况特别有效
RMSNorm层计算：将归一化操作融合为单一内核
注意力机制中的QKV计算：合并矩阵乘法操作

实现方法：

使用Triton等DSL编写定制化融合内核
利用PyTorch的torch.jit.script进行算子融合
对于一次性执行的复杂操作特别有效

注意事项：融合算子虽然能减少显存使用，但会增加开发复杂度，需要在可维护性和性能之间权衡。

3.2 避免Tensor拷贝的最佳实践

不必要的Tensor拷贝会显著增加显存压力，以下是避免拷贝的实用技巧：

常见拷贝场景及解决方案：

Reshape非连续Tensor：使用permute代替，或先调用contiguous()
临时计算结果：尽可能使用in-place操作（如div_、add_）
中间变量存储：使用内存池或预分配缓冲区

代码示例：

python复制# 不推荐 - 产生拷贝
x = x.reshape(new_shape)  

# 推荐 - 无拷贝
x = x.permute(0,2,1).contiguous()

3.3 混合精度训练实施要点

混合精度训练是减少显存占用的关键技术，主流方案包括：

精度选择：

BF16：最广泛使用的格式，良好的数值范围
FP8：新兴格式，需要硬件支持（如H100）
TF32：NVIDIA Ampere架构引入的格式

实现步骤：

使用torch.cuda.amp自动混合精度
手动管理master weights
梯度缩放（Gradient Scaling）处理下溢

配置示例：

python复制scaler = torch.cuda.amp.GradScaler()

with torch.cuda.amp.autocast():
    outputs = model(inputs)
    loss = criterion(outputs, targets)
    
scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()

3.4 流水线并行中的显存均衡

Pipeline Parallelism(PP)中不同stage的显存消耗不均是个常见问题，解决方案包括：

不均衡原因分析：

首尾stage需要处理额外的输入输出处理
中间stage只需处理隐藏状态
某些层（如注意力层）消耗更多显存

平衡策略：

自定义层分配：根据每层显存需求手动分配
动态调度：监控各stage显存使用并调整
混合并行：结合TP和PP策略

实践案例：
在72B模型中使用4-stage流水线时，将前10层分配给stage1，中间均匀分配，最后5层给stage4，实现了各卡显存使用差异小于10%。

3.5 显存碎片优化技巧

显存碎片会导致OOM时reserved显存远大于allocated的情况，解决方法包括：

碎片诊断方法：

使用torch.cuda.memory_stats()分析分配模式
识别大Tensor分配模式
监控内存池的连续性

优化技术：

大Tensor分块处理：将大矩阵拆分为多个小chunk
跨stream块复用：不同计算流共享内存池
及时释放：手动管理关键张量生命周期

工具支持：

python复制# 内存分析示例
stats = torch.cuda.memory_stats(device)
fragmentation = stats['allocated_bytes'] / stats['reserved_bytes']

3.6 激活优化高级技巧

激活内存是显存消耗的主要来源，优化方法包括：

梯度检查点(Gradient Checkpointing)：

原理：只保存部分层的激活，其余在反向时重新计算
实现：使用torch.utils.checkpoint
权衡：计算时间增加约30%，显存减少50-70%

激活卸载(Activation Offload)：

前向时将激活转移到CPU内存
反向时需要时再取回
使用pinned memory和异步传输提高效率

分层检查点：

对Attention和MLP层分别设置检查点
将显存需求从O(L)降到O(1)
需要精细控制各层的保存策略

3.7 优化器状态CPU卸载技术

优化器状态占用了大量显存，CPU卸载方案包括：

实现原理：

将优化器状态分块存储在CPU内存
使用SIMD指令加速CPU端更新
仅将当前需要的块传输到GPU

性能考量：

PCIe带宽成为瓶颈
需要重叠计算和数据传输
适合更新频率较低的大参数

代码结构：

python复制class CPUShardedOptimizer:
    def __init__(self, params):
        self.cpu_states = [chunk.to('cpu') for chunk in params]
    
    def step(self):
        for chunk in prefetch_queue:
            chunk_gpu = chunk.to('cuda', non_blocking=True)
            # 执行GPU计算
            updated_chunk = compute_update(chunk_gpu)
            self.cpu_states[i] = updated_chunk.to('cpu')

3.8 模型参数分片策略

对于超大模型，参数也需要特殊处理：

常用方法：

Zero Redundancy Optimizer(ZeRO)分片
Tensor Parallelism参数划分
分层参数卸载

选择依据：

硬件配置（卡数、NVLink等）
通信带宽和延迟
模型结构和计算模式

实践建议：

80GB以上显存卡可考虑全参数驻留
中等配置使用ZeRO-2
极限配置使用ZeRO-3+CPU卸载

3.9 PyTorch分配器优化

PyTorch默认的BFC分配器存在碎片问题，改进方法包括：

分配器问题：

大Tensor分配后难以回收
碎片导致显存利用率低下
扩展机制不够智能

优化方案：

自定义分配策略：实现更智能的块合并
虚拟内存映射：使用cudaMallocManaged
内存池预分配：避免运行时动态分配

高级技巧：

python复制# 使用cuda内存池
torch.cuda.set_per_process_memory_fraction(0.8)
torch.cuda.empty_cache()

# 监控分配
allocator = torch.cuda.memory._get_allocator()
allocator.set_debug(True)

4. 实战：72B模型在8卡80G上的实现

基于上述优化技术，作者实现了72B模型在8卡A100 80G配置下的高效训练，关键配置如下：

硬件环境：

8×NVIDIA A100 80GB
NVLink全连接
200Gbps InfiniBand网络

并行策略：

Tensor Parallelism: 2
Pipeline Parallelism: 4
Data Parallelism: 1
禁用Checkpointing

显存分配：

模型参数：56GB（bf16）
梯度：28GB
优化器状态：168GB（分片到8卡）
激活内存：12GB（使用梯度检查点）
临时变量：4GB

性能指标：

MFU达到42%，与16卡配置相当
每卡显存使用稳定在74GB左右
无OOM发生，训练稳定

5. 常见问题与解决方案

问题1：训练过程中突然出现OOM

排查步骤：

检查torch.cuda.memory_summary()
确认是否是碎片问题（reserved >> allocated）
分析最近增加的Tensor大小
检查数据pipeline是否产生大buffer

问题2：启用梯度检查点后速度下降过多

优化建议：

只对计算量小的层使用检查点
增加micro batch size补偿吞吐量
使用异步重计算技术

问题3：多卡负载不均衡

解决方法：

使用torch.distributed.barrier()同步各卡
重新分配流水线阶段
调整Tensor并行分组

问题4：CPU卸载导致训练速度过慢

优化方向：

增加预取窗口大小
使用RDMA加速数据传输
优化CPU端计算（使用AVX512）

6. 大模型训练的未来优化方向

从工程实践角度看，大模型训练优化还有多个值得探索的方向：

硬件层面：

利用FP8等新精度格式
试验新一代GPU的TMA和异步复制特性
探索CXL共享内存架构

算法层面：

更高效的优化器（如Lion）
参数高效微调技术（LoRA等）
稀疏训练与推理

系统层面：

编译器级别的自动优化（如TorchDynamo）
更智能的并行策略选择器
分布式训练通信优化

在实际项目中，我们还需要持续监控和调整优化策略。显存优化不是一劳永逸的工作，而需要随着模型规模、硬件配置和训练任务的变化而不断演进。