在计算机视觉领域,红外小目标检测一直是个极具挑战性的任务。这类目标通常只占据图像中极小的像素区域(3×3到20×20像素),同时伴随着低信噪比和复杂背景干扰。传统检测方法往往难以平衡计算效率和检测精度,特别是在处理多尺度目标时表现欠佳。
最近,我们在YOLO26架构中引入了一种创新模块——LaSEA(潜在感知语义提取聚合模块),它通过独特的跨尺度特征提取机制和随机池化策略,显著提升了模型在复杂场景下的检测性能。实测数据显示,在红外小目标检测任务中,加入LaSEA模块的YOLO26相比基线模型,mAP提升了8.3%,同时推理速度仅下降5%。
LaSEA的核心结构包含三个关键组件:
python复制class LaSEA(nn.Module):
def __init__(self, c1, c2):
super().__init__()
self.branch1 = nn.Conv2d(c1, c2//4, kernel_size=1)
self.branch3 = nn.Conv2d(c1, c2//4, kernel_size=3, padding=1)
self.branch5 = nn.Conv2d(c1, c2//4, kernel_size=5, padding=2)
self.pool = RandomPool()
self.gate = nn.Sequential(
nn.AdaptiveAvgPool2d(1),
nn.Conv2d(c2, c2//4, 1),
nn.ReLU(),
nn.Conv2d(c2//4, c2, 1),
nn.Sigmoid())
传统方法通常采用固定尺度的卷积核,难以适应不同大小的目标。LaSEA通过并行多尺度卷积,同时捕获:
实验发现:在红外数据集中,3×3和5×5分支对小目标的召回率贡献最大,分别提升4.2%和3.7%
随机池化层在训练时按概率选择池化方式:
测试时采用加权平均方式,兼顾两种策略的优势。这种设计有效缓解了固定池化带来的信息损失问题。
| 指标 | 基线模型 | +LaSEA | 提升幅度 |
|---|---|---|---|
| mAP@0.5 | 68.2% | 76.5% | +8.3% |
| 小目标召回率 | 53.1% | 62.4% | +9.3% |
| 推理速度(FPS) | 142 | 135 | -4.9% |
| 参数量(M) | 42.7 | 43.9 | +2.8% |
bash复制# 在ultralytics/nn/newsAddmodules目录下
touch lasea.py
__init__.py中添加:python复制from .lasea import LaSEA
parse_model函数,在对应位置添加:python复制if m in [..., 'LaSEA']:
args = [ch[f], *args[1:]]
提供三种改进方案配置:
方案1:基础集成
yaml复制# yolo26_LaSEA.yaml
backbone:
[...]
- [-1, 1, LaSEA, [256]] # 通常加在Neck之前
方案2:与C3k2结合
yaml复制# yolo26_C3k2_LaSEA.yaml
backbone:
- [-1, 1, C3k2, [128]]
- [-1, 1, LaSEA, [256]]
方案3:与PSA注意力结合
yaml复制# yolo26_C2PSA_LaSEA.yaml
head:
- [-1, 1, PSA, [512]]
- [-1, 1, LaSEA, [256]]
问题1:训练初期loss震荡大
问题2:推理速度下降明显
问题3:小目标检测提升不明显
基于LaSEA的二次创新思路:
在实际红外监控项目中,我们通过组合LaSEA与ASFF模块,在夜间车辆检测任务中取得了91.2%的mAP,相比原始YOLO26提升13.6%。关键是在第17和20层分别添加LaSEA模块,配合自适应特征选择策略,有效解决了远距离小车辆检测难题。