大模型训练GPU选型指南：A100、H100与B100深度对比

DR阿福

1. GPU选型：大模型训练的第一道门槛

刚入行那会儿，我在AWS上随手选了台P100机器跑BERT-base训练，结果第二天收到账单直接傻眼——这哪是在跑模型，简直是在烧美金。后来才知道，选错GPU不仅烧钱，还会让训练时间从几小时拖成几天。现在大模型参数动不动就上百亿，GPU选型直接决定了项目成败。

目前市面上主流的A100、H100和B100系列（包括对应的80GB/40GB显存版本）各有适用场景。A100就像工地上的全能型皮卡，能拉货能跑长途；H100是装了涡轮增压的赛车，专为Transformer架构优化；而即将面世的B100则像未来概念车，黑科技加身但价格惊人。选卡不能只看算力数字，得综合考虑显存带宽、NVLink拓扑、散热方案这些隐形参数。

2. 硬件参数深度对比

2.1 算力规格解剖

先看这三张卡的纸面实力（以PCIe版本为例）：

参数	A100 80GB	H100 80GB	B100（预估）
FP32算力	19.5 TFLOPS	30 TFLOPS	45+ TFLOPS
FP16/TF32	312/156 TFLOPS	756/378 TFLOPS	1200+ TFLOPS
显存带宽	2039 GB/s	3072 GB/s	5000+ GB/s
NVLink带宽	600GB/s	900GB/s	1800GB/s
HBM显存	80GB HBM2e	80GB HBM3	144GB HBM3e

注：B100数据基于泄露的GH100白皮书推测，实际以发布为准

FP16算力差距最值得关注——H100的756 TFLOPS意味着在混合精度训练时，其实际吞吐是A100的2.4倍。但这里有个陷阱：很多开源代码默认的TF32模式会把这个优势压缩到2倍左右，需要手动修改训练脚本启用FP8才能吃满算力。

2.2 显存容量与带宽的博弈

处理175B参数模型时，A100 80GB只能勉强用ZeRO-3阶段2跑起来，batch_size被限制在8以下。而同样情况下H100凭借更高的带宽，可以开到batch_size=16还不触发梯度爆炸。显存不足时常见的处理方式：

梯度检查点：用30%的计算时间换20%显存，适合A100跑超大模型
模型并行：需要重写模型架构，NVLINK带宽决定通信效率
量化压缩：FP16→INT8能省一半显存，但有些模型精度掉得厉害

实测在7B模型训练中，H100的HBM3显存延迟比A100低17%，这对长序列处理特别关键。比如处理4096 tokens的上下文时，A100的KV缓存要吃掉45GB显存，而H100同样情况下能省出8GB空间。

3. 实战选型策略

3.1 场景化选择矩阵

根据项目阶段和规模，我的推荐方案：

场景	推荐配置	每日成本(云厂商)	适用案例
预训练(10B以下)	8×A100 80GB + NVLink	$120-$180	领域适配微调
预训练(100B+)	16×H100 80GB + NVSwitch	$480-$720	LLaMA-2级别训练
推理服务	A100 40GB PCIe	$30-$50	企业级API部署
多模态训练	8×H100 SXM5 + 3TB/s NVLink	$600+	Stable Diffusion XL

成本数据基于主流云厂商2024Q2报价

小技巧：很多云平台藏着"僵尸卡"——那些被其他用户释放的闲置实例。通过API定时扫描，可能抢到半价的A100实例（实测在AWS的us-east-1区成功率最高）。

3.2 被忽视的隐性成本

显存带宽和NVLink拓扑对实际训练效率的影响常被低估。我们做过对比测试：

8卡A100全互联：跑13B模型效率92%
8卡A100树状拓扑：同样模型效率骤降到67%
4卡H100全互联：居然比8卡A100树状拓扑快1.3倍

这就是为什么建议：

优先选择NVSwitch全互联机型
避免不同代GPU混搭（比如A100+H100）
机架式比刀片式散热更好，能维持更高boost频率

4. 避坑指南与调优技巧

4.1 常见配置误区

PCIe vs SXM5：PCIe版本的H100只有16条通道，带宽成了瓶颈。SXM5通过NVLink直接互联，实测训练吞吐高2.8倍
散热陷阱：A100风冷版长时间负载会降频到1.2GHz，水冷版能稳定在1.7GHz
电源配置：单台8卡H100服务器需要3×2200W电源，普通机房电路根本扛不住

4.2 参数调优实录

在LLaMA-2 70B训练中，我们通过以下组合将吞吐提升40%：

bash复制# 关键参数配置
export NCCL_ALGO=Tree
export CUDA_DEVICE_MAX_CONNECTIONS=8
export TF32_ENABLE=0  # 强制使用FP8
torch.backends.cuda.enable_flash_sdp(True)  # 启用FlashAttention

特别提醒：NCCL的P2P通信对NVLink版本敏感。在A100上要设置NCCL_NET_GDR_LEVEL=PHB才能发挥完整性能，而H100上这个参数反而会导致死锁。