水下声学目标识别：MBAT框架的对抗训练突破

顾培

1. 水下声学目标识别面临的挑战与突破

作为一名长期从事水下声学信号处理的研究者，我深刻理解船舶辐射噪声识别（UATR）在实际应用中的困境。想象一下，你正试图通过水下麦克风识别一艘经过的船只，却发现同类型的船只听起来可能完全不同，而不同类型的船只反而可能发出相似的噪声——这正是我们在DeepShip和ShipsEar数据集中反复观察到的现象。

问题的根源在于船舶辐射噪声的复杂性。每艘船的噪声特征都像它的"声学指纹"，受到船体结构、推进系统、机械设备等独特因素的影响。比如：

四方位螺旋桨产生的噪声频谱与标准螺旋桨截然不同
老旧船舶的机械噪声往往带有特定的谐波特征
不同吨位的船舶在水下产生的流体动力噪声差异显著

这些个体差异导致了一个尴尬的局面：我们的深度学习模型在训练数据上表现优异，但遇到新船只时识别率却大幅下降。就像图2展示的那样，模型学到的特征空间往往按个体船只而非船只类别聚类——这完全违背了分类任务的初衷。

2. MBAT框架的核心设计思路

2.1 对抗训练的本质突破

传统对抗训练(AT)在计算机视觉领域取得了巨大成功，但直接套用到UATR任务却收效甚微。经过大量实验，我们发现关键在于对抗目标的设计——我们需要对抗的不是域偏移，而是个体船只的特异性特征。

MBAT的创新之处在于：

引入样本配对机制，显式建模个体船只间的关系
通过梯度反转层(GRL)实现特征解耦
设计动态加权的对抗损失函数

具体实现上，我们构建了一个双任务框架：

主任务：标准的船只类别分类
辅助任务：个体船只判别（通过对抗训练抑制）

关键提示：辅助任务不是要完全消除个体特征，而是控制其在合理范围内，避免主导特征表示。

2.2 动量编码器的稳定作用

在早期实验中，我们发现普通对抗训练存在严重的训练不稳定性问题。这就像试图在颠簸的船上进行精密仪器调试——参数更新过程中的抖动会导致模型难以收敛。

受MoCo启发引入的动量编码器(ME)解决了这一痛点。其核心优势体现在：

维护一个参数更新更平缓的编码器副本
通过动量系数(m=0.999)控制历史信息保留程度
为对抗训练提供更稳定的负样本

技术细节上，ME的参数更新遵循：
θ_me ← m·θ_me + (1-m)·θ_main

这种平滑更新方式使得特征空间演化更加可控，如图11所示的消融实验证实，ME能带来约1.5%的准确率提升。

3. 关键技术实现细节

3.1 同方差不确定性加权

多任务学习中最头疼的问题就是损失权重调整。传统方法需要繁琐的网格搜索，而MBAT采用的同方差不确定性算法实现了自适应平衡。

算法核心是建模任务相关噪声：
L_total = ∑(1/σ_i²·L_i + logσ_i)

其中σ_i表示第i个任务的噪声水平，可学习参数。这个设计巧妙之处在于：

噪声大的任务自动获得较小权重
避免了人工调参的耗时过程
保持端到端可微训练

表VII显示，这种自适应加权方式比固定权重策略提高了约0.8%的F1分数。

3.2 渐进式对抗强度调节

对抗训练的强度控制是另一个关键。我们发现采用线性增长的对抗权重(α)效果最佳：

α = min(epoch/ramp_epoch, 1.0)

这种"温水煮青蛙"式的策略允许模型：

初期专注学习基本分类特征
中期逐步引入对抗信号
后期稳定在均衡状态

图12的训练曲线清晰展示了这种策略相比固定α值的优势——验证损失下降更平稳，最终准确率更高。

4. 实战效果与对比分析

4.1 性能基准测试

在DeepShip数据集上的对比实验(表III)显示，MBAT-SE以79.87%的准确率显著优于现有方法：

模型	准确率	F1分数	提升幅度
CMoE	76.42%	75.98%	-
MBAT-SE	79.87%	79.43%	+3.45%

特别值得注意的是在"未见船只"测试集上的表现——这正是实际应用中最关键的场景。

4.2 特征空间可视化

t-SNE可视化(图9)直观展示了MBAT的魔力：

基线模型的特征像散落的烟花，类内离散度高
MBAT的特征则形成紧凑的类别簇
类间边界更加清晰分明

量化指标上，轮廓系数从0.21提升到0.37，证实了特征空间结构的改善。

5. 工程实践中的经验分享

5.1 数据准备要点

经过多个项目实践，我总结出以下数据处理经验：

梅尔频谱提取时，建议参数：
- 采样率：32kHz
- FFT点数：2048
- 梅尔带数：128
- 帧长：50ms
- 帧移：25ms
数据增强策略：
- 时域随机裁剪
- 频域掩蔽(SpecAugment)
- 轻微的速度扰动(±10%)

5.2 训练技巧

学习率设置：
- 初始lr=3e-4
- 采用余弦退火调度
- 配合线性warmup(5个epoch)
批次构建：
- 确保每个batch包含多个船只个体
- 个体样本数保持平衡
- 采用困难样本挖掘提升对抗效果

5.3 常见陷阱与规避

梯度爆炸：
- 使用梯度裁剪(max_norm=1.0)
- 监控梯度范数变化
模式坍塌：
- 定期检查特征多样性
- 添加小量噪声扰动
过拟合：
- 早停策略(patience=15)
- 强力的正则化(weight_decay=1e-4)

6. 未来改进方向

虽然MBAT取得了不错的效果，但在实际部署中仍发现一些待改进点：

计算效率优化：
- 当前推理速度约50ms/样本
- 目标优化至20ms以内
少样本适应：
- 针对新船只的快速微调
- 元学习框架探索
无监督扩展：
- 减少对个体标注的依赖
- 自监督预训练方案

这些挑战也正是我们团队当前重点攻关的方向。特别在计算效率方面，通过知识蒸馏已经取得了初步进展——将模型大小压缩40%而仅损失1.2%准确率。

已经到底了哦