智慧养殖猪只行为识别数据集解析与应用指南

孙建华2008

1. 数据集概述与核心价值

这个智慧养殖猪只行为识别数据集是计算机视觉在农业领域应用的典型范例。作为从业多年的AI工程师，我见过太多标注质量参差不齐的数据集，而这个数据集在类别设计和标注规范上确实下了功夫。

数据集包含1085张640×640分辨率的JPG图片，其中约450张为原始采集图像，其余635张通过旋转增强生成。每张图片都配有Labelme格式的JSON标注文件，标注者使用多边形框（polygon）精准勾勒了猪只的四种行为状态：站立（Standing）、坐立（Sitting）、进食（Eating）和躺卧（Lying）。这种细粒度的行为分类对于养殖场健康监测、异常行为预警等场景极具实用价值。

特别提示：虽然数据集提供了旋转增强样本，但在实际应用中建议根据场景需求考虑是否添加其他增强方式，如亮度调整、随机裁剪等，以提升模型泛化能力。

2. 数据集深度解析

2.1 数据分布与类别平衡

让我们拆解这个数据集的核心统计特征：

总标注框数：2876个多边形标注
类别分布：
- Standing：1056框（占比36.7%）
  -Eating：759框（占比26.4%）
  -Lying：578框（占比20.1%）
  -Sitting：483框（占比16.8%）

这种分布反映了真实养殖场景中猪只行为的自然比例——站立和进食是高频行为，而躺卧和坐立相对较少。在实际建模时，建议采用加权损失函数或过采样技术来处理类别不平衡问题。

2.2 标注质量评估要点

通过分析示例图片可以看出：

多边形标注紧密贴合猪只轮廓，避免了常见的外接矩形框（bbox）标注会包含过多背景噪声的问题
对于重叠、遮挡的猪只有明确的标注规范（示例中可见被遮挡部分仍被完整标注）
行为类别定义清晰无歧义，例如"Eating"明确要求猪只头部处于饲料槽附近

我在处理类似项目时发现，标注质量往往比数据量更重要。这个数据集虽然总量不算特别大，但精细的polygon标注使其特别适合需要像素级精度的分割任务。

3. 数据处理与格式转换实战

3.1 Labelme原始格式解析

每个JSON标注文件包含以下关键信息：

json复制{
  "version": "5.5.0",
  "flags": {},
  "shapes": [
    {
      "label": "Eating",
      "points": [[x1,y1], [x2,y2], ...],
      "shape_type": "polygon"
    }
  ],
  "imagePath": "xxx.jpg",
  "imageData": null  // 实际使用时建议移除以减小文件体积
}

3.2 转换为主流格式的代码示例

3.2.1 转COCO格式

python复制import json
from labelme2coco import convert

convert('labelme_annotations', 'output_coco.json', 'images')

3.2.2 转YOLO格式

python复制import numpy as np

def labelme2yolo(json_file, class_map):
    with open(json_file) as f:
        data = json.load(f)
    
    txt_lines = []
    for shape in data['shapes']:
        points = np.array(shape['points'])
        # 归一化处理
        points[:,0] /= 640
        points[:,1] /= 640
        # YOLO格式：class_id x1 y1 x2 y2 ...
        line = [str(class_map[shape['label']])] + points.flatten().tolist()
        txt_lines.append(' '.join(map(str, line)))
    
    return '\n'.join(txt_lines)

重要技巧：转换时务必保持坐标系的对应关系。我发现很多bug都源于不同格式对坐标系原点的定义差异（有的在中心，有的在左上角）。

4. 模型训练与优化建议

4.1 网络架构选型

基于这个数据集的特点，我推荐以下架构方案：

实例分割：Mask R-CNN（平衡精度与速度）或 Cascade Mask R-CNN（追求更高精度）
语义分割：U-Net（小数据友好）或 DeepLabv3+（擅长细节捕捉）
轻量化部署：YOLOv8-seg 或 MobileNetV3+LR-ASPP

4.2 数据增强策略

除了数据集自带的旋转增强，建议添加：

python复制transform = A.Compose([
    A.HorizontalFlip(p=0.5),
    A.RandomBrightnessContrast(p=0.2),
    A.ShiftScaleRotate(scale_limit=0.1, rotate_limit=15),
    A.GaussNoise(var_limit=(10.0, 50.0)),
], bbox_params=A.BboxParams(format='polygon'))

4.3 关键训练参数

根据我的实验记录，以下配置效果较好：

初始学习率：3e-4（AdamW优化器）
批量大小：8（RTX 3090显卡）
损失函数：Dice Loss + Focal Loss（α=0.25, γ=2）
训练周期：100-150（配合早停策略）

5. 常见问题排查手册

5.1 标注转换异常

问题：转换后出现坐标越界（>1或<0）
解决方案：

检查Labelme标注是否超出图像边界
确认转换代码中的宽高是否与图像实际尺寸匹配
添加边界检查逻辑：

python复制points = np.clip(points, 0, 1)

5.2 模型收敛困难

现象：训练损失震荡不下降
排查步骤：

可视化增强后的样本（确认标注是否同步变换）
检查学习率是否过大（尝试1e-5到1e-3范围扫描）
验证数据加载逻辑（特别是多边形坐标的归一化处理）

5.3 部署时性能下降

典型场景：测试集mAP很高但实际场景效果差
优化方向：

添加更多光照变化的增强（养殖场光线条件复杂）
模拟不同视角的合成数据（摄像头安装角度差异）
针对小目标添加注意力机制（远距离拍摄的猪只占比小）

在实际项目中，我发现最大的挑战往往不是模型本身，而是数据与场景的匹配度。这个数据集虽然提供了高质量的基础标注，但真正落地时还需要根据具体摄像头参数、猪舍环境等进行针对性优化。建议先用这个数据集训练基础模型，再用实际场景数据做微调，这样能大幅减少标注工作量。

已经到底了哦