小白菜病害检测数据集与AI农业应用指南

老铁爱金衫

1. 小白菜病害检测数据集解析

这个数据集专注于小白菜叶片的健康状态识别，包含1863张标注图片，采用Pascal VOC和YOLO两种格式同步存储。作为农业AI应用的典型范例，它特别适合植物病害识别、精准农业等场景的模型训练。

数据集的核心价值在于：

双格式标注：同时提供VOC格式的xml文件和YOLO格式的txt文件
类别平衡：包含802个健康样本和1984个病害样本的标注框
真实场景：采集自实际种植环境的多分辨率图像

重要提示：数据集未预设训练/验证/测试集划分，使用者需自行处理数据分割。原始图片经过旋转增强处理，这在实际应用中能有效提升模型泛化能力。

2. 数据集技术细节剖析

2.1 数据结构与组织

数据集文件结构遵循标准计算机视觉数据集格式：

code复制dataset_root/
├── images/          # 存放所有JPG图片
├── annotations/     # 存放VOC格式XML文件  
├── labels/          # 存放YOLO格式TXT文件
└── classes.txt      # YOLO类别定义文件

图像分辨率呈现多样性，主要分布在：

标准方形：640×640
矩形构图：640×960
其他常见农业图像比例

2.2 标注规范详解

标注采用labelImg工具完成，标注规则包括：

对每片可见的小白菜叶片进行单独标注
健康叶片：颜色均匀、无病斑的完整叶片
病害叶片：包含明显病斑、变色或畸形的叶片
标注框需紧密包围目标叶片，不留过多边缘空隙

标注统计特征：

平均每图包含1.5个标注框
病害样本占比71.2%（反映实际种植中的病害发生率）
34.6%的图片包含多个叶片标注

3. 数据预处理实战指南

3.1 数据增强策略

原始数据已应用的基础增强：

随机旋转：±30°范围内
色彩抖动：亮度±10%，饱和度±15%
水平翻转：50%概率

推荐补充的增强方案：

python复制# Albumentations增强配置示例
transform = A.Compose([
    A.RandomRotate90(),
    A.RandomBrightnessContrast(p=0.5),
    A.HueSaturationValue(hue_shift_limit=20),
    A.CLAHE(clip_limit=4.0),
    A.GaussNoise(var_limit=(10.0, 50.0)),
], bbox_params=A.BboxParams(format='yolo'))

3.2 数据集划分建议

考虑到类别不平衡问题，推荐采用分层抽样：

健康样本：378张 → 训练300张 + 验证50张 + 测试28张
病害样本：1511张 → 训练1200张 + 验证200张 + 测试111张
最终比例保持约8:1:1

实现代码示例：

python复制from sklearn.model_selection import train_test_split

# 先按类别分离
healthy_imgs = [...]  # 健康样本路径列表
unhealthy_imgs = [...]  # 病害样本路径列表

# 分层划分
healthy_train, healthy_temp = train_test_split(healthy_imgs, test_size=0.2)
unhealthy_train, unhealthy_temp = train_test_split(unhealthy_imgs, test_size=0.2)

healthy_val, healthy_test = train_test_split(healthy_temp, test_size=0.36)
unhealthy_val, unhealthy_test = train_test_split(unhealthy_temp, test_size=0.36)

4. 模型训练关键技巧

4.1 类别不平衡处理方案

针对健康/病害样本1:2.47的比例，推荐组合策略：

损失函数加权：

python复制# YOLOv5中的类别权重设置
class_weights = [1.0, 0.4]  # 健康:病害

过采样健康样本：在DataLoader中设置sampler参数
困难样本挖掘：关注分类置信度低的健康样本

4.2 训练参数优化

基于实际测试的推荐配置：

yaml复制# YOLOv5模型配置
hyperparameters:
  lr0: 0.01  # 初始学习率
  lrf: 0.1   # 最终学习率系数
  momentum: 0.937
  weight_decay: 0.0005
  warmup_epochs: 3
  box_loss_gain: 0.05
  cls_loss_gain: 0.5

实测建议：当验证集mAP@0.5连续3个epoch无提升时，提前终止训练。农业图像通常需要100-150epoch的训练周期。

5. 常见问题排查手册

5.1 标注不一致问题

症状：同一病害在不同图片中被标注为不同类别
解决方案：

建立标注规范文档，明确各类别判定标准

使用标注一致性检查脚本：

python复制def check_annotation_consistency(ann_dir):
    # 实现标注逻辑检查
    pass

5.2 小目标检测困难

症状：小型病害斑点检测率低
优化方案：

修改anchor box尺寸匹配叶片大小
增加特征金字塔层数
使用高分辨率输入（推荐960x960）

5.3 过拟合应对策略

症状：训练集精度高但验证集表现差
解决方法组合：

增加MixUp数据增强
引入Label Smoothing（smoothing=0.1）
早停机制配合模型保存

6. 实际应用部署建议

6.1 边缘设备优化

针对农业现场部署的特殊考量：

模型量化：FP16→INT8可减少50%模型体积
输入分辨率调整：根据摄像头性能平衡精度速度
后处理优化：使用NMS替代Soft-NMS提升速度

6.2 持续学习方案

建立数据闭环系统：

部署模型收集预测结果
人工验证后加入训练集
定期增量训练保持模型更新

实际部署中发现，田间光线变化会显著影响模型表现。建议在数据收集中包含不同时段（早晨/正午/傍晚）的样本，并在训练时添加随机光照增强。

已经到底了哦