基于PyTorch的水稻叶病害智能识别系统开发实践

老铁爱金衫

1. 项目概述：水稻叶病害智能识别系统

作为一名长期从事农业AI应用的开发者，我深知水稻病害对粮食安全的威胁。传统人工诊断方式效率低下且依赖经验，而基于深度学习的视觉识别技术正逐渐改变这一现状。本项目构建了一个完整的水稻叶病害识别系统，核心功能包括：

支持单张图像分类识别
处理连续图像帧的批量识别
实时视频流病害检测
用户友好的GUI交互界面

系统采用PyTorch框架实现，模型训练准确率达到92.3%，视频检测帧率稳定在15FPS（测试环境：GTX 1660 Ti显卡）。特别设计了模拟无人机采集场景的视频处理模块，可直接应用于田间移动设备。

2. 数据集构建与预处理

2.1 原始数据特性分析

项目使用的数据集包含4类常见水稻病害：

白叶枯病(Bacterial blight)：1548张
- 典型特征：叶片出现半透明水渍状条纹
稻瘟病(Blast)：1440张
- 典型特征：梭形病斑伴褐色边缘
褐斑病(Brown Spot)：1600张
- 典型特征：中央灰白边缘褐色的圆形斑点
東格魯病毒(Tungro)：1308张
- 典型特征：叶片黄化伴随矮缩

数据特点：自然环境下拍摄，包含光照变化、叶片遮挡等真实场景干扰，图像分辨率统一调整为256×256像素。

2.2 数据预处理流程

通过hf.py脚本完成关键预处理步骤：

python复制# 示例核心预处理代码
transform = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
])

# 数据集划分
total_size = len(dataset)
train_size = int(0.8 * total_size)
test_size = total_size - train_size
train_dataset, test_dataset = torch.utils.data.random_split(dataset, [train_size, test_size])

关键参数选择依据：

输入尺寸224×224：适配ResNet等主流CNN架构
20%测试集比例：平衡模型评估可靠性与训练数据量
ImageNet均值方差：迁移学习时保持输入分布一致

2.3 数据增强策略

针对农业图像特点，采用以下增强组合：

随机水平翻转（概率0.5）
亮度调整（系数0.8-1.2）
饱和度调整（系数0.9-1.1）
随机旋转（角度±15°）

实测发现：过度增强（如大角度旋转）会破坏病害形态特征，反而降低模型性能。

3. 模型架构与训练

3.1 CNN模型设计

model.py中实现的自定义CNN结构：

python复制class CNN(nn.Module):
    def __init__(self, num_classes=4):
        super(CNN, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(3, 32, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2),
            nn.Conv2d(32, 64, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2),
        )
        self.classifier = nn.Sequential(
            nn.Dropout(p=0.5),
            nn.Linear(64*56*56, 128),
            nn.ReLU(inplace=True),
            nn.Linear(128, num_classes),
        )

    def forward(self, x):
        x = self.features(x)
        x = torch.flatten(x, 1)
        x = self.classifier(x)
        return x

设计考量：

浅层网络：农业病害特征相对直观，无需极深网络
32-64通道递增：平衡计算成本与特征提取能力
56×56特征图：保留足够空间信息识别局部病斑
Dropout=0.5：有效防止小数据量下的过拟合

3.2 训练配置

train.py中的关键训练参数：

参数	设置值	选择依据
优化器	Adam	自适应学习率适合非均衡数据
初始LR	0.001	小数据集不宜过大
Batch Size	32	显存占用与梯度稳定的平衡
Epochs	50	早停策略实际在35轮收敛
Loss函数	CrossEntropy	标准多分类选择

训练曲线分析：

验证集准确率在第25轮后趋于稳定
最佳模型保存在第38个epoch（验证准确率92.3%）
学习率在第30轮降为0.0001

3.3 模型优化技巧

类别权重调整：

python复制class_weights = torch.tensor([1.0, 1.2, 1.1, 1.3])  # 针对東格魯病毒样本较少
criterion = nn.CrossEntropyLoss(weight=class_weights)

梯度裁剪：

python复制torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)

指数移动平均(EMA)：

python复制ema = ExponentialMovingAverage(model.parameters(), decay=0.999)

4. 系统实现与部署

4.1 GUI界面设计

GUI_VEDIO.py采用Tkinter实现的多功能界面：

功能分区：

图像显示区：实时展示识别结果
控制面板：
- 单图识别按钮
- 视频检测开关
- 置信度阈值滑块（默认0.7）
结果输出区：病害类型及概率显示

线程处理机制：

python复制class VideoThread(threading.Thread):
    def run(self):
        cap = cv2.VideoCapture(video_path)
        while self._running:
            ret, frame = cap.read()
            if ret:
                # 预处理帧并调用模型预测
                img = preprocess(frame)
                with torch.no_grad():
                    outputs = model(img)
                # 更新GUI显示
                self.update_signal.emit(outputs)

4.2 视频处理流程

模拟无人机视频的vedio_creat.py工作流程：

从GUI文件夹读取图像序列
按1FPS速率合成MP4视频
保存为vedio.mp4供检测使用

关键技术点：

固定帧率确保时间一致性
H.264编码保证画质的同时减小体积
分辨率保持与训练数据一致（256×256）

4.3 预测模块优化

predict.py中的核心改进：

python复制def predict_image(img_path):
    img = Image.open(img_path)
    img_t = transform(img).unsqueeze(0)
    
    # 启用GPU加速
    if torch.cuda.is_available():
        img_t = img_t.cuda()
    
    # 混合精度推理
    with torch.cuda.amp.autocast():
        outputs = model(img_t)
    
    # 温度缩放校准
    T = 1.2  # 通过验证集调整得到
    probs = torch.softmax(outputs/T, dim=1)
    
    return probs.cpu().numpy()

5. 实战问题与解决方案

5.1 常见错误排查表

现象	可能原因	解决方案
识别结果全部为同一类	类别不平衡导致模型偏向	调整class_weights重新训练
视频检测卡顿	主线程阻塞	确保视频处理在独立线程运行
内存泄漏	OpenCV未释放资源	在finally块中添加cap.release()
置信度始终低于0.5	输入数据分布偏移	检查预处理是否与训练一致

5.2 性能优化记录

TensorRT加速：
```
bash复制trtexec --onnx=model.onnx --saveEngine=model.plan --fp16
```
推理速度提升3.2倍（测试环境：Jetson Nano）

多帧聚合策略：

python复制# 对连续5帧取移动平均
history = deque(maxlen=5)
history.append(current_pred)
final_pred = np.mean(history, axis=0)

视频检测稳定性提升约40%

模型量化：

python复制model = torch.quantization.quantize_dynamic(
    model, {nn.Linear}, dtype=torch.qint8
)

模型体积减小65%，CPU推理速度提升2.1倍

5.3 田间部署建议

光照适应方案：
- 自动白平衡调整
- 直方图均衡化预处理
移动端优化：
- 使用TorchScript导出模型
- 实现基于OpenCV的轻量级GUI

持续学习机制：

python复制# 新数据增量训练
optimizer = torch.optim.SGD(model.parameters(), lr=0.0001)
for new_data in field_data:
    loss = criterion(model(new_data), label)
    loss.backward()
    optimizer.step()

在实际部署到某水稻种植基地时，我们发现早晨露水反光会导致误检。通过添加偏振滤光片采集数据并重新训练，特定场景准确率从78%提升到89%。这个案例说明农业AI系统需要持续迭代以适应复杂环境。