YOLO目标检测在自助售货机商品识别中的实战应用-AI智能范式网

YOLO目标检测在自助售货机商品识别中的实战应用

贫血王子

1. 自助售货机商品检测毕设全流程：从YOLOv5到YOLOv10的实战解析

做毕业设计最怕选了个既没技术含量又缺乏实用价值的题目。去年我带学生做自助售货机商品检测系统时，发现这个课题完美避开了这两个坑——既有计算机视觉的前沿技术，又能解决零售行业真实存在的痛点。下面我就把整个项目从技术选型到落地的完整流程拆解给你，保证你能做出既有技术深度又有商业价值的毕设。

1.1 为什么这个课题值得做？

每次路过写字楼下的自助售货机，你肯定注意到里面商品摆放得密密麻麻。传统运营方式需要人工开柜清点，不仅效率低下（单台机器完整盘点需要15-20分钟），还经常出现漏记错记。我们实测发现，即便是经验丰富的运营人员，盘点准确率也很难超过90%。

基于YOLO的目标检测技术可以把这个过程自动化。通过摄像头拍摄货道画面，算法能在秒级时间内完成所有商品的识别和计数。我们最终实现的系统在测试集上达到了98.7%的识别准确率，比人工效率提升近20倍。更关键的是，这个方案可以直接集成到现有售货机的管理系统中，不需要改造硬件设备。

1.2 技术选型的核心考量

选择YOLO系列算法主要基于三个现实因素：

实时性要求：售货机需要在用户选择商品后立即响应，传统两阶段检测器（如Faster R-CNN）虽然精度高但速度慢，而YOLO的单阶段设计在保持足够精度的同时，在普通GPU上就能达到100+ FPS。
部署便捷性：YOLOv5/v8提供完善的PyTorch生态支持，从训练到部署的链路非常成熟。我们测试发现，用TensorRT加速后的YOLOv5s模型甚至可以在树莓派4B上流畅运行。
模型迭代需求：从v5到v10，YOLO系列在保持架构简洁的同时持续优化性能。比如v10引入的PSA（Partial Self-Attention）模块就显著提升了密集小目标的检测效果——这正是售货机场景最需要的特性。

具体版本选择建议：

入门首选YOLOv5：文档丰富、社区活跃，遇到问题容易找到解决方案
追求最新技术选YOLOv10：今年6月刚发布，在COCO上AP达到56.8%
折中选择YOLOv8：平衡了性能和易用性，内置的AutoBatch功能对显存不足的设备特别友好

2. 数据准备：打造专属商品数据集

2.1 数据采集的实战技巧

千万别直接拿公开数据集应付了事！我们早期尝试用COCO数据集预训练+微调，实际部署时发现对瓶装饮料的识别效果惨不忍睹。后来改用真实售货机拍摄的数据，效果立竿见影。

采集时要注意：

设备选择：普通手机摄像头足够（建议1080p以上），但一定要固定拍摄角度。我们用的是小米12S Ultra的5000万像素模式，后期resize到640x640输入网络
光照控制：售货机内部LED照明会产生反光，最好在不同时段（早中晚）各采集一组数据
商品组合：确保每个货道至少有3种摆放状态（满仓/半空/缺货），相邻商品要有重叠情况

我们最终构建的数据集包含：

12台不同型号的售货机
58类常见商品（饮料占比65%，零食35%）
总计8,427张标注图像

2.2 数据标注的避坑指南

用LabelImg标注时踩过的坑：

边界框要紧凑：对于圆柱形饮料瓶，很多人习惯按外接矩形标注，实际上应该贴着瓶身轮廓标，减少背景干扰
遮挡处理：被货架遮挡的商品只标注可见部分，不要猜测完整形状
类别细分：不同口味的同系列饮料（如可口可乐原味/零度）要分开标注，后期可以再合并

标注文件建议采用YOLO格式：

code复制<class_id> <x_center> <y_center> <width> <height>

例如：

code复制0 0.435 0.712 0.12 0.3

2.3 数据增强的针对性策略

售货机场景特有的增强方式：

python复制# Albumentations增强配置示例
transform = A.Compose([
    A.HorizontalFlip(p=0.5),  
    A.RandomBrightnessContrast(p=0.3),
    A.GlassBlur(p=0.1),  # 模拟玻璃反光
    A.RandomShadow(p=0.2),  # 货架阴影
    A.CoarseDropout(max_holes=10, max_height=20, max_width=20, p=0.5)  # 模拟商品遮挡
], bbox_params=A.BboxParams(format='yolo'))

特别提醒：慎用旋转增强！饮料瓶水平翻转没问题，但旋转90°会改变商品在售货机中的物理姿态，反而引入噪声。

3. 模型训练全流程详解

3.1 环境搭建的注意事项

推荐使用conda创建隔离环境：

bash复制conda create -n yolo python=3.8
conda install pytorch==1.12.1 torchvision==0.13.1 cudatoolkit=11.3 -c pytorch
pip install -r requirements.txt  # 从官方仓库下载

常见坑点：

CUDA版本不匹配：建议用11.3/11.6这两个长期支持版本
OpenCV冲突：如果遇到imshow报错，重装headless版本：pip install opencv-python-headless
显存不足：YOLOv5s模型在RTX 3060上batch_size可设到32，若用更小显卡可开启--adam优化器

3.2 数据配置的规范写法

数据集目录结构：

code复制dataset/
├── images/
│   ├── train/
│   └── val/
└── labels/
    ├── train/
    └── val/

创建dataset.yaml：

yaml复制path: ../dataset
train: images/train 
val: images/val
names:
  0: cola
  1: sprite
  2: lays_chips
  ...

3.3 训练参数的科学设置

启动训练的关键参数：

bash复制python train.py --img 640 --batch 16 --epochs 100 --data dataset.yaml \
--cfg models/yolov5s.yaml --weights yolov5s.pt --cache --device 0

重点参数解析：

--cache：启用RAM缓存，提速3倍以上（需要32GB+内存）
--rect：矩形训练，减少填充像素，适合售货机这种固定长宽比的场景
--hyp：超参数调优，官方提供的hyp.scratch-low.yaml对小数据集更友好

3.4 模型评估的进阶技巧

不要只看mAP！售货机场景需要特别关注：

误检率（False Positive）：把货架格子误认为商品的情况
漏检率（False Negative）：透明包装商品（如矿泉水）的识别情况
边界框紧密度：用IoU≥0.7的严格标准评估

我们改进的评估脚本：

python复制def eval_vending(model):
    # 自定义测试集加载
    dataset = create_dataset('vending_special_test')  
    # 重点监控易错类别
    confusion_matrix = np.zeros((58, 58))  
    for img, targets in dataset:
        preds = model(img)
        # 特殊处理透明包装
        if 'mineral_water' in targets:
            preds = adjust_transparent(preds)  
        update_matrix(confusion_matrix, preds, targets)
    print_fp_fn(confusion_matrix)

4. 部署与演示系统搭建

4.1 实时检测的性能优化

用TensorRT加速的完整流程：

python复制# 转换ONNX
python export.py --weights best.pt --include onnx --dynamic

# 生成TensorRT引擎
trtexec --onnx=best.onnx --saveEngine=best.engine --fp16

# 加载推理
import tensorrt as trt
runtime = trt.Runtime(trt.Logger(trt.Logger.WARNING))
with open("best.engine", "rb") as f:
    engine = runtime.deserialize_cuda_engine(f.read())

实测性能对比（RTX 3060）：

框架	推理耗时(ms)	FPS
PyTorch	15.2	65
ONNX	8.7	114
TensorRT	4.3	232

4.2 演示系统的开发技巧

用Streamlit快速搭建Web界面：

python复制import streamlit as st
from PIL import Image

st.title("售货机商品检测系统")
upload = st.file_uploader("上传售货机照片")
if upload:
    img = Image.open(upload)
    results = model(img)  # YOLO推理
    annotated = plot_boxes(results, img)
    st.image(annotated, caption="检测结果")
    
    # 库存统计可视化
    counts = count_products(results)
    st.bar_chart(counts)

让演示更专业的三个细节：

添加货道编号覆盖层（用OpenCV的putText）
实现"模拟购买"功能，点击商品后减少库存计数
增加历史记录功能，展示库存变化曲线

5. 毕设论文写作要点

5.1 技术章节的黄金结构

第三章建议按以下逻辑组织：

问题分析：售货机商品检测的特殊性（密集、小目标、透明包装）
数据构建：强调数据采集的真实性和增强策略的针对性
模型改进：如在YOLOv5基础上新增小目标检测头
系统集成：如何与现有售货机管理系统对接

5.2 创新点的提炼方法

避免空泛的"改进YOLO算法"，可以聚焦：

场景适配创新：针对售货机货道设计的ROI提取方法
工程优化创新：在树莓派上实现实时检测的轻量化方案
数据层面创新：构建首个开源售货机商品数据集

5.3 效果对比的呈现技巧

不要只放mAP对比表，建议增加：

人工盘点vs自动检测的成本对比（时间/准确率/人力成本）
不同光照条件下的稳定性测试曲线
商品密集度与识别率的关系图

最后附上我们项目的典型检测效果（图示货道中正确识别出的7种商品及其位置）

关键建议：在论文附录附上完整的数据集样本和标注规范，这能极大提升论文的参考价值。我们开源的数据集现在已被23所高校的毕设引用，这也是评审老师特别看重的加分项。