基于YOLOv5的水果识别系统开发与优化实践

Cookie Young

1. 项目背景与核心价值

水果识别系统作为计算机视觉领域的经典应用场景，近年来随着深度学习技术的普及，已经从实验室走向实际生产环境。我在本科毕业设计阶段选择这个课题，主要基于三点考量：首先，水果识别在智慧农业、自动分拣、零售结算等领域有明确的应用场景；其次，YOLO、ResNet等成熟模型的开源让算法实现门槛大幅降低；最重要的是，这个项目能完整覆盖数据采集、模型训练、部署优化的全流程，对理解深度学习项目生命周期极具教学价值。

传统的水果识别主要依赖颜色、形状等手工特征，准确率很难突破85%。而基于卷积神经网络(CNN)的方法，在测试集上轻松达到95%+的识别率。这个毕业设计最吸引我的地方在于，它完美展现了深度学习如何解决传统方法难以处理的复杂模式识别问题——比如区分不同品种的苹果，或是识别被部分遮挡的水果。

2. 技术方案选型

2.1 模型架构对比

我对比了三种主流的深度学习架构：

YOLOv5：单阶段检测器，检测速度最快（在RTX 3060上可达140FPS），但小目标识别效果一般
Faster R-CNN：两阶段检测器，准确率最高（mAP@0.5可达0.92），但推理速度较慢（约15FPS）
MobileNetV3+SSD：轻量级方案，适合移动端部署，但需要大量数据增强

最终选择YOLOv5s作为基础模型，主要考虑：

毕业设计通常需要实时演示，速度是刚需
自带的超参数优化功能对新手友好
社区支持完善，遇到问题容易找到解决方案

2.2 数据集构建要点

高质量数据集是项目成功的关键。我采用"自采+开源"的混合方案：

自采数据：使用iPhone 13拍摄了6类常见水果（苹果/香蕉/橙子/葡萄/草莓/梨）的2000张照片，涵盖：
- 不同光照条件（自然光/室内光/逆光）
- 不同摆放方式（单果/多果/堆叠）
- 不同成熟度（青涩/成熟/过熟）
开源数据：补充了Fruit-360数据集中的2000张图片

标注工具选用LabelImg，注意三个细节：

标注框要紧贴水果边缘，但不要截断果梗
对遮挡严重（可见面积<30%）的样本直接剔除
对反光区域添加"反射"标签作为辅助分类特征

3. 模型训练实战

3.1 环境配置

bash复制# 基于Python 3.8的环境
conda create -n fruit_det python=3.8
conda activate fruit_det
pip install torch==1.10.0+cu113 torchvision==0.11.1+cu113 -f https://download.pytorch.org/whl/torch_stable.html
git clone https://github.com/ultralytics/yolov5
cd yolov5
pip install -r requirements.txt

注意：PyTorch版本必须与CUDA驱动匹配，否则会出现难以排查的显存错误

3.2 关键训练参数

在yolov5s.yaml中调整以下参数：

yaml复制nc: 6  # 类别数
depth_multiple: 0.33  # 模型深度系数
width_multiple: 0.50  # 层宽度系数
anchors:
  - [10,13, 16,30, 33,23]  # 小目标anchor
  - [30,61, 62,45, 59,119] # 中目标
  - [116,90, 156,198, 373,326] # 大目标

训练命令示例：

bash复制python train.py --img 640 --batch 16 --epochs 100 --data fruit.yaml --cfg yolov5s.yaml --weights yolov5s.pt --cache

3.3 数据增强策略

在data/hyps/hyp.fruit.yaml中配置：

yaml复制hsv_h: 0.015  # 色相增强幅度
hsv_s: 0.7    # 饱和度增强
hsv_v: 0.4    # 明度增强
degrees: 15.0 # 旋转角度范围
translate: 0.1 # 平移比例
scale: 0.5    # 缩放比例
shear: 5.0    # 剪切幅度

特别针对水果的特性：

增加饱和度扰动（模拟不同成熟度）
限制旋转角度（避免倒立水果这种不合理场景）
添加椒盐噪声（模拟分拣线灰尘）

4. 性能优化技巧

4.1 模型剪枝

使用TorchPruner进行通道剪枝：

python复制from torchpruner import SparsePruner
pruner = SparsePruner(model, sparsity=0.3)
pruner.step()
pruned_model = pruner.prune()

实测可使模型体积减小40%，推理速度提升25%，而mAP仅下降2个百分点。

4.2 量化部署

将模型转为TensorRT格式：

bash复制python export.py --weights runs/train/exp/weights/best.pt --include engine --device 0 --half

关键参数：

--half: FP16量化
--dynamic: 支持动态输入尺寸
--simplify: 应用ONNX简化器

在Jetson Nano上测试，量化后推理速度从8FPS提升到22FPS。

5. 常见问题解决

5.1 类别不平衡处理

当某些水果样本不足时（如草莓只有200张，而苹果有800张），可采用：

过采样少数类：使用imgaug进行弹性变换增强

损失函数加权：

python复制class_loss_weight = torch.tensor([1.0, 0.8, 1.2, 1.5, 2.0, 0.9]) 
criterion = nn.CrossEntropyLoss(weight=class_loss_weight)

5.2 反光表面误识别

针对金属托盘反光造成的假阳性：

数据增强时添加镜面反射合成

在预处理阶段加入偏振滤波算法：

python复制def polarize_filter(img):
    hsv = cv2.cvtColor(img, cv2.COLOR_BGR2HSV)
    v_channel = hsv[:,:,2]
    _, mask = cv2.threshold(v_channel, 240, 255, cv2.THRESH_BINARY)
    return cv2.inpaint(img, mask, 3, cv2.INPAINT_TELEA)

6. 效果展示与改进方向

在测试集上达到以下指标：

mAP@0.5: 0.94
推理速度: 85FPS (RTX 3060)
最小检测尺寸: 32x32像素

实际演示中发现两个典型错误案例：

青香蕉与黄梨的混淆（色相接近）
密集葡萄串的漏检（小目标重叠）

后续优化思路：

引入注意力机制强化局部特征
添加红外通道信息区分表面纹理
采用多尺度特征融合提升小目标检测

这个项目让我深刻体会到，工业级AI应用不仅需要好的算法，更需要领域知识的深度融合。比如识别苹果时，果梗朝向其实可以作为品种判断的辅助特征——这是纯技术文档不会告诉你的实战经验。

已经到底了哦