计算机视觉领域最近五年最显著的范式转变,莫过于卷积神经网络(CNN)统治地位被视觉Transformer(ViT)打破。这个转变始于2020年那篇里程碑式的论文《An Image is Worth 16x16 Words》,作者大胆地将自然语言处理中的Transformer架构直接应用于图像分类任务。当时大多数研究者都持怀疑态度——没有卷积固有的平移等变性,没有局部感受野的层次结构,仅靠自注意力机制真的能理解图像吗?
实验结果让所有人震惊:在大规模数据集预训练后,ViT不仅达到了媲美CNN的性能,甚至在多个基准测试中实现了超越。这引发了一个根本性的理论问题:为什么这种看似缺乏视觉先验知识的架构能够成功?答案就隐藏在"归纳偏置"这个概念中。
归纳偏置(Inductive Bias)指的是学习算法为引导模型朝着特定解决方案方向倾斜所做的假设集合。用更通俗的话说,它决定了模型"更倾向于学习什么样的知识"。在传统CNN中,这种偏置非常显性:
这些设计本质上都是工程师将人类对视觉理解的先验知识硬编码到网络架构中。相比之下,ViT的偏置要隐晦得多——它主要来自三个源头:
通过设计巧妙的对照实验,研究者发现了一些反直觉的现象。例如在有限数据场景下:
下表量化比较了两种架构的核心偏置差异:
| 偏置类型 | CNN实现方式 | ViT实现方式 | 影响维度 |
|---|---|---|---|
| 局部性 | 固定尺寸卷积核 | 可学习的自注意力范围 | 特征聚合粒度 |
| 平移等变性 | 权重共享机制 | 位置编码+全局注意力 | 物体位置敏感性 |
| 层次结构 | 逐步下采样的特征金字塔 | 统一尺度的所有patch交互 | 多尺度理解能力 |
| 通道交互 | 1x1卷积 | 多头注意力机制 | 特征组合灵活性 |
ViT中位置编码(Positional Encoding)的设计远比表面看起来复杂。除了提供空间顺序信息外,我们的理论分析表明:
通过傅里叶分析可以发现,标准ViT的位置编码实际上隐式地鼓励网络优先关注低频空间关系,这与人类视觉系统早期处理的特征偏好惊人地一致。
将自注意力机制重新解释为在潜空间中的动态最近邻搜索,可以揭示其独特的偏置特性:
这种灵活性使得ViT能够自适应地学习最适合当前数据的归纳偏置,而不是像CNN那样被预设的偏置所限制。我们的可视化实验显示,在训练后期,ViT的注意力模式会自发形成类似卷积的局部窗口,但同时保留处理长程依赖的能力。
为了系统性地研究不同组件对最终性能的贡献,我们设计了模块化的实验方案:
关键发现包括:
通过高维优化景观的可视化,我们获得了更深刻的见解:
重要发现:ViT的平坦极小值与其良好的泛化能力直接相关,但这种特性高度依赖于恰当的正则化策略,包括Dropout、LayerNorm等组件的协同作用。
基于对归纳偏置的理解,我们提出了几种改进方案:
局部-全局注意力混合(LoGo):
动态位置编码:
通道注意力增强:
当将ViT应用于不同视觉任务时,需要针对性调整其偏置:
目标检测:
视频理解:
医学图像分析:
虽然本研究取得了一些突破性发现,但仍有多个未解之谜值得探索:
理论层面:
应用层面:
方法论层面:
这项研究最令人振奋的发现是:ViT的成功并非源于缺乏偏置,而是其偏置形式与数据本身的统计规律达到了更高程度的契合。这为机器学习模型设计提供了新的哲学启示——与其精心设计人工偏置,不如创建能够自动发现并适应数据内在结构的灵活架构。