视觉Transformer模型在ImageNet上的性能优化与实践

辻嬄

1. 视觉Transformer模型在ImageNet上的最新进展

最近timm库发布了1.0.9版本，其中包含了一系列基于ImageNet-12k预训练并在ImageNet-1k上微调的视觉Transformer(ViT)模型权重。这些模型在性能-效率的帕累托前沿上表现出色，值得计算机视觉领域的研究者和工程师关注。

作为一名长期从事视觉模型优化的从业者，我发现这些新发布的ViT变体在保持相对简单架构的同时，已经能够与Swin Transformer和ConvNeXt等复杂架构相抗衡。特别值得注意的是，当配合优化后的注意力计算内核使用时，这些ViT模型的表现甚至超越了Swin Transformer，与ConvNeXt系列模型旗鼓相当。

2. 关键模型性能解析

2.1 帕累托前沿模型对比

让我们先看看这些ViT模型的具体表现数据：

模型名称	图像尺寸	样本/秒	Top-1准确率	Top-5准确率	参数量(M)
vit_mediumd_patch16_reg4_gap_384	384	1214.59	87.44	98.25	64.11
vit_mediumd_patch16_reg4_gap_256	256	2761.64	86.60	97.93	64.11
vit_betwixt_patch16_reg4_gap_384	384	1467.64	86.60	98.02	60.40
vit_betwixt_patch16_reg4_gap_256	256	3302.28	85.73	97.61	60.40

从表中可以看出，vit_mediumd_patch16_reg4_gap_384模型在384x384分辨率下达到了87.44%的Top-1准确率，同时保持了合理的计算效率。而vit_betwixt系列则在参数量更少的情况下，依然保持了优秀的性能表现。

性能测试环境说明：所有吞吐量测试均在RTX 4090显卡上完成，使用AMP混合精度训练和torch.compile()优化，PyTorch 2.4版本，CUDA 12.4驱动。

2.2 与传统ViT模型的对比

与经典的DeiT3模型相比，这些新ViT变体展现出了相当的竞争力：

DeiT3 Base 224: 85.73% Top-1 @ 3326.85 samples/sec
vit_betwixt 256: 85.73% Top-1 @ 3302.28 samples/sec

有趣的是，在相近的计算效率下，vit_betwixt模型能够达到与DeiT3相当的准确率，但参数量却少了约30%。这表明通过适当的架构调整，ViT模型仍有很大的优化空间。

3. 架构设计与训练策略

3.1 模型架构创新点

这些新ViT模型的成功主要来自以下几个关键设计：

正则化策略改进：采用了更有效的正则化方法(reg4)，帮助模型在保持泛化能力的同时减少过拟合。
全局平均池化(GAP)：与传统ViT的CLS token不同，这些模型使用全局平均池化作为最终特征聚合方式，简化了架构同时保持了性能。
中等深度设计：通过精心设计的中间层深度，在计算效率和表达能力之间取得了良好平衡。

3.2 训练配方优化

与DeiT等早期ViT训练方案相比，这些模型采用了更加实用的训练策略：

数据增强简化：没有使用过于复杂的数据增强方案，这使得模型更容易迁移到其他数据集。
优化器选择：坚持使用AdamW优化器而非更复杂的变体，提高了训练稳定性。
权重衰减调整：适当增加了权重衰减系数，虽然略微降低了Top-1准确率，但显著提升了模型在其他数据集上的微调表现。

在实际应用中，我发现这种"牺牲一点峰值性能换取更好迁移性"的折衷非常实用。特别是在处理小型专业数据集(如Oxford Pets、RESISC等)时，这些ViT权重往往能够通过短时间的微调就获得不错的效果。

4. 实际应用考量

4.1 模型选择指南

面对众多ViT变体，如何选择合适的模型？以下是我的实践经验总结：

高精度场景：选择vit_mediumd_patch16_reg4_gap_384，它在384分辨率下达到了87.44%的Top-1准确率。
平衡型需求：vit_betwixt_patch16_reg4_gap_256提供了良好的准确率(85.73%)和极高的吞吐量(3302 samples/sec)。
迁移学习场景：所有sbb系列的ViT权重都表现出优秀的迁移能力，特别适合小数据集的微调。