在计算机视觉领域,目标检测一直是核心研究方向之一。YOLO系列算法因其高效的检测速度和良好的精度表现,成为工业界和学术界广泛采用的解决方案。然而,在红外小目标检测这一特殊场景下,传统YOLO算法面临着显著挑战。
红外小目标通常只占据几个像素,且与背景对比度低,极易被复杂背景噪声淹没。针对这一问题,我们提出了一种创新性的ADPAM(Adaptive Dual Perception Attention Module)自适应双感知注意力模块,专门用于改进YOLOv11网络模型。该模块通过通道注意力与空间注意力的协同建模,能够自适应强化目标相关特征并精确聚焦潜在目标区域。
提示:ADPAM模块的设计灵感来源于人类视觉系统的选择性注意机制,能够像人眼一样自动忽略无关背景信息,专注于关键目标区域。
ADPAM模块的核心思想是通过双路径注意力机制分别处理通道维度和空间维度的特征信息。其结构如下图所示(文字描述):
code复制输入特征 → 通道注意力分支 → 空间注意力分支 → 特征融合 → 输出特征
通道注意力分支负责评估每个通道的重要性,而空间注意力分支则聚焦于特征图上的关键区域。两个分支的输出通过自适应权重进行融合,最终生成增强后的特征表示。
通道注意力分支采用全局平均池化(GAP)和全局最大池化(GMP)双路径结构:
这种双路径设计能够同时捕捉特征的全局统计信息和局部显著特征,避免单一池化方式带来的信息损失。
空间注意力分支采用更精细的局部特征分析:
大尺寸卷积核(7×7)的采用,使得模块能够捕获更大范围的上下文信息,这对于小目标检测尤为重要。
我们将ADPAM模块集成到YOLOv11的以下关键位置:
这种部署策略确保了从底层特征到高层语义都能得到有效的注意力增强。
尽管ADPAM模块引入了额外计算,但我们通过以下技术控制计算开销:
实测表明,完整版ADPAM仅增加约3%的计算量,却能带来显著的性能提升。
我们在两个主流红外小目标检测数据集上评估改进后的YOLOv11:
评估指标采用:
与基线模型和其他注意力模块的对比结果如下:
| 方法 | mAP@0.5 | FAR | FPS |
|---|---|---|---|
| YOLOv11基线 | 68.2% | 0.15 | 142 |
| +SE注意力 | 70.1% | 0.13 | 138 |
| +CBAM | 71.5% | 0.12 | 135 |
| +ADPAM(本文) | 74.3% | 0.09 | 139 |
ADPAM在保持实时性的同时,显著提升了检测精度并降低了误检率。
我们进行了详细的消融研究验证各组件贡献:
| 配置 | mAP@0.5 |
|---|---|
| 基线 | 68.2% |
| 仅通道注意力 | 70.8% |
| 仅空间注意力 | 71.6% |
| 双分支简单相加 | 72.4% |
| ADPAM完整版 | 74.3% |
结果表明,双分支协同工作比单一注意力机制效果更好,自适应融合策略也比简单相加更有效。
基于实际部署经验,我们总结以下实用技巧:
在实际应用中可能遇到的问题及解决方案:
高误检率:
小目标漏检:
推理速度下降:
ADPAM模块的潜力不仅限于红外小目标检测。我们在其他视觉任务中也观察到了显著效果:
未来可能的改进方向包括:
在实际部署中,我们发现ADPAM模块对计算资源的适应性很强。通过调整通道压缩率和空间注意力核大小,可以在性能和效率之间取得良好平衡。对于嵌入式设备部署,推荐使用通道数减半的轻量版配置,这通常只会导致约1%的mAP下降,却能显著减少内存占用和计算延迟。