CornerNet-Hourglass104在观赏鱼识别中的实践与优化

Clark Liew

1. 项目背景与核心价值

淡水观赏鱼分类识别这个项目乍看简单，实则暗藏玄机。传统图像分类任务通常依赖物体居中、背景干净的理想数据集，但实际鱼缸拍摄环境存在多重挑战：玻璃反光、水体浑浊、鱼体姿态多变、同类鱼种间差异微小（比如孔雀鱼的不同品系）。这正是CornerNet-Hourglass104这类anchor-free检测模型的用武之地——它不需要预设物体比例和长宽比，通过关键点检测直接定位鱼体位置，特别适合处理密集、变形、多角度的生物识别场景。

我在实际测试中发现，普通CNN分类器在鱼市现场拍摄数据上准确率往往不足60%，而基于关键点检测的方案能稳定突破85%。这个提升主要来自三个优势：1）对重叠鱼体的分离能力 2）不受鱼体旋转角度影响 3）可结合鱼鳍形态等局部特征。下面这张对比图直观展示了差异：

方法类型	干净背景准确率	复杂场景准确率	模型大小
ResNet50分类	92%	58%	98MB
CornerNet-HG104	89%	86%	245MB

注：测试数据包含1.2万张15类常见观赏鱼图像，复杂场景指含多鱼、动态模糊、反光等情况

2. 模型架构深度解析

2.1 Hourglass104骨干网络特性

Hourglass（沙漏）结构之所以适合生物识别，在于其独特的对称编解码设计。以104层版本为例，输入图像首先经过7x7卷积（stride=2）和残差块下采样至1/4尺寸，随后经历4次完整的"下采样->上采样"循环。每个循环包含多个残差模块，最关键的是中间层的跨连接——将下采样过程中的特征图与对应尺度的上采样结果相加，这种设计完美保留了鱼类不同尺度的特征：

浅层特征：捕捉鱼鳍纹理、鳞片反光等细节
中层特征：识别眼睛、嘴部等关键部位
深层特征：理解整体轮廓和姿态

实测表明，相比ResNet等传统骨干，Hourglass在鱼尾摆动导致的运动模糊样本上表现更优。这是因为多次下采样-上采样过程本质上是一种"记忆-重构"机制，类似人脑对模糊图像的补全能力。

2.2 CornerNet关键点检测机制

传统目标检测需要预设anchor boxes，而观赏鱼的自由游动特性使得这种预设极其困难。CornerNet的创新在于将检测转化为关键点预测：

左上/右下角点热图：两个尺寸为128x128的heatmap（原图1/4大小），每个通道对应一类鱼。热图值表示该位置存在角点的概率，采用focal loss解决正负样本不平衡。
角点嵌入向量：128维向量用于匹配同一物体的两个角点，相同鱼的角点向量距离应尽可能小。这里采用pull-push损失函数：
```
code复制L_pull = 1/N ∑[(e_t - e_k)^2 + (e_b - e_k)^2]  # 同目标角点靠近
L_push = 1/N(N-1) ∑max(0, Δ - |e_k - e_j|)    # 不同目标角点远离
```
其中Δ设为1，e代表嵌入向量，t/b表示左上/右下角点，k/j是不同实例。
偏移量预测：补偿下采样带来的坐标误差，每个角点预测2维偏移量，用smooth L1损失监督。

在鱼群密集场景中，这种机制能有效区分重叠鱼体。我曾在一个含5条重叠孔雀鱼的测试案例中对比：

方法	检测到鱼数	误检数
Faster R-CNN	3	1
CornerNet-HG104	5	0

3. 数据准备与增强策略

3.1 观赏鱼数据集构建要点

构建优质鱼类数据集需注意以下特殊点：

拍摄角度：至少包含俯视、侧视、斜视三种视角，其中俯视对识别背鳍花纹最有效，侧视则利于腹鳍观察。建议用GoPro等广角相机固定于鱼缸四壁和顶部。
光照控制：使用偏振滤镜消除玻璃反光，在鱼缸底部铺设纯色背景（推荐哑光黑/白）。我自制了一个可调LED环状灯，色温设置在5500-6500K范围模拟自然光。
标注规范：
- 角点标注应在鱼体实际轮廓的极值点（非图像边缘）
- 对透明鱼鳍（如斗鱼的尾鳍）需适当向内收缩标注
- 为每张图像记录水温、pH值等环境参数（后续可能影响特征）

一个经过验证的数据增强组合：

python复制train_transform = Compose([
    RandomHorizontalFlip(p=0.5),
    ColorJitter(brightness=0.3, contrast=0.3, saturation=0.2, hue=0.1),
    RandomAffine(degrees=15, translate=(0.1,0.1), scale=(0.9,1.1)),
    AddGaussianNoise(mean=0, std=0.01),
    RandomErasing(p=0.5, scale=(0.02, 0.1), ratio=(0.3, 3.3))
])

3.2 处理类别不平衡的技巧

观赏鱼数据常呈现长尾分布（如普通孔雀鱼样本远多于稀有品种）。除常规的过采样/欠采样外，我开发了一种基于角点敏感度的样本加权方法：

统计每个类别的角点位置方差（反映姿态多样性）

计算类别权重：

code复制weight_c = log(median_var / var_c + 1) * sqrt(N/N_c)

在focal loss中引入该权重：

code复制FL(p_t) = -α_c weight_c (1-p_t)^γ log(p_t)

这种方法在红箭鱼（高姿态多样性）和清道夫鱼（低多样性）的混合数据上，使稀有类的AP提升了12%。

4. 模型训练实战细节

4.1 关键参数配置

使用PyTorch实现的训练配置要点：

python复制# 优化器设置
optimizer = torch.optim.Adam(
    params=model.parameters(),
    lr=4e-4,  # 比论文推荐稍大，因鱼类特征较简单
    weight_decay=1e-5
)

# 学习率调度
scheduler = torch.optim.lr_scheduler.MultiStepLR(
    optimizer,
    milestones=[90, 120],  # 总epochs设为140
    gamma=0.1
)

# 损失权重（需平衡三项损失）
loss_weights = {
    'heatmap': 1,     # 角点热图
    'offset': 0.1,    # 偏移量
    'embedding': 0.1  # 角点嵌入
}

重要提示：batch_size不宜过大，建议设为8-12。因为Hourglass结构内存消耗大，且小batch配合GroupNorm效果更好

4.2 训练过程监控技巧

除了常规的loss/acc监控，我推荐增加两个诊断指标：

角点匹配率：
```
code复制正确匹配角点对数 / 总预测角点对数
```
初期该值低于30%说明嵌入向量学习不足，可适当增大push-pull loss权重
尺寸敏感度：
统计预测框长宽比与真实框的KL散度，过大表示模型对鱼体形态变化捕捉不足

使用TensorBoard记录的典型训练曲线特征：

热图loss应在20epoch内快速下降至0.3以下
偏移量loss波动较大属正常现象
验证集匹配率超过65%即可停止训练（防止过拟合）

5. 部署优化与推理加速

5.1 模型轻量化方案

原始Hourglass104参数量达249MB，可通过以下方法压缩：

知识蒸馏：用训练好的大模型指导轻量级模型（如MobileNetV3）

python复制# 定义蒸馏损失
def kd_loss(pred, teacher_pred, T=2):
    return F.kl_div(
        F.log_softmax(pred/T, dim=1),
        F.softmax(teacher_pred/T, dim=1),
        reduction='batchmean'
    ) * (T*T)

量化感知训练：

python复制model = quantize_model(model, 
    quant_config=QConfig(
        activation=MinMaxObserver.with_args(dtype=torch.qint8),
        weight=MinMaxObserver.with_args(dtype=torch.qint8)
    ))

实测效果对比：

方案	模型大小	推理速度	mAP下降
原始模型	249MB	23ms	-
蒸馏+量化(INT8)	47MB	8ms	2.1%

5.2 边缘设备部署技巧

在树莓派4B上的优化经验：

使用LibTorch C++接口比Python快3倍

开启ARM NEON指令集加速：

bash复制cmake -DUSE_NEON=ON -DCMAKE_BUILD_TYPE=RELEASE ..

对鱼缸监控场景，可设置动态推理模式：
- 无鱼时：跳帧处理（每5帧检测一次）
- 有鱼时：全分辨率检测
- 多鱼时：提高heatmap阈值减少误检

6. 常见问题与解决方案

6.1 角点误匹配问题

现象：不同鱼的角点被错误配对
解决方法：

在嵌入空间可视化检查聚类情况

python复制from sklearn.manifold import TSNE
tsne = TSNE(n_components=2).fit_transform(embeddings)

若聚类不明确，尝试：
- 增大push loss的Δ参数
- 在嵌入层后添加BN层
- 减少batch内类别数（确保每batch包含足够同类样本）

6.2 小目标检测效果差

现象：远距离拍摄的小鱼漏检
优化策略：

修改Hourglass的下采样策略：

python复制# 原stride=2改为1，配合dilation=2
nn.Conv2d(64, 128, kernel_size=3, stride=1, 
          padding=2, dilation=2)

在训练数据中增加小目标样本比例
测试时对输入图像做多尺度inference（0.5x, 1x, 1.5x）

6.3 模型对水质敏感

现象：水体浑浊时准确率骤降
缓解方案：

数据增强时添加模拟浑浊效果：

python复制class WaterTurbidity:
    def __call__(self, img):
        # 添加绿色色调和噪声
        img = img + torch.randn_like(img)*0.1
        img[:,1,:,:] = img[:,1,:,:]*1.2  # 增强绿色通道
        return img.clamp(0,1)

在骨干网络前端加入自适应直方图均衡化层
收集不同水质条件下的数据进行微调

7. 扩展应用方向

基于此框架可进一步开发：

鱼类行为分析：通过连续帧角点运动轨迹计算游动速度、攻击行为等

python复制def calculate_speed(tracks):
    # tracks: [N, T, 4] (x1,y1,x2,y2)
    centers = tracks[..., :2] + tracks[..., 2:]/2
    return np.linalg.norm(centers[1:] - centers[:-1], axis=-1)