基于YOLO系列的智能停车位检测系统开发实践

暗茧

1. 项目概述

停车位检测系统是智慧城市和智能交通管理的重要组成部分。随着车辆保有量的持续增长，如何高效利用有限的停车资源成为城市管理者和商业停车场运营者面临的重大挑战。传统的人工巡查方式效率低下且成本高昂，而基于深度学习的视觉检测方案因其非接触式、可复用现有监控设备等优势，正逐渐成为主流解决方案。

本项目基于YOLO系列目标检测算法，从YOLOv5到最新的YOLOv12，构建了一套完整的停车位检测系统。系统不仅能识别车位位置，还能判断其占用状态（空/满），并通过PySide6开发的用户界面提供丰富的可视化功能。以下是系统的核心特点：

多版本YOLO支持：集成YOLOv5至YOLOv12共8种算法版本，用户可一键切换不同模型进行性能对比
全功能可视化界面：支持图片、视频、摄像头和文件夹批量处理四种输入方式，提供热力图、统计图表等可视化工具
完善的用户管理：基于SQLite实现用户注册登录、历史记录查询和个性化配置保存
高性能检测能力：针对停车场景优化算法，在多种光照和天气条件下保持稳定性能
完整开源生态：提供训练代码、预训练模型和标注数据集，支持二次开发

2. 数据集构建与处理

2.1 数据集概况

我们构建了一个包含7801张图像的专业停车位检测数据集，涵盖多种场景和条件：

场景类型：室外地面停车场、地下车库、立体停车楼
环境条件：晴天、阴天、雨天、雾天、白天、夜间
视角变化：俯视、斜视、环视等多种摄像头角度

数据集按7:1.5:1.5的比例划分为训练集（6017张）、验证集（1058张）和测试集（726张）。所有图像均采用YOLO格式标注，包含两类目标：

empty：空车位
occupied：已占用车位

2.2 数据增强策略

为提高模型泛化能力，我们采用了多种数据增强技术：

基础增强：
- 随机水平翻转（p=0.5）
- 随机旋转（-10°~+10°）
- 色彩抖动（亮度、对比度、饱和度、色相）
高级增强：
- Mosaic增强：4图拼接，大幅提升小目标检测能力
- MixUp：图像混合，增强模型对重叠目标的识别
- 随机遮挡：模拟车辆被部分遮挡的情况
- 高斯噪声：增强模型在低光照条件下的鲁棒性
针对性的增强：
- 反光模拟：在雨天场景图像中添加水滴和反光效果
- 阴影生成：模拟建筑物或树木投射的阴影
- 透视变换：增强模型对不同视角的适应能力

实际训练中发现，过度使用Mosaic增强会导致模型对完整车位的识别能力下降。因此我们采用动态调整策略：前80%训练周期使用强增强，后20%逐渐减弱增强强度，让模型专注于学习车位细节特征。

3. 模型架构与优化

3.1 YOLOv12核心改进

本项目默认采用YOLOv12作为基线模型，其在YOLO系列的基础上引入了多项创新：

Area Attention (A2)机制：
- 将特征图划分为多个区域，在每个区域内计算注意力权重
- 相比传统全局注意力，计算量减少40%以上
- 特别适合停车位这种具有规则空间分布的目标
R-ELAN模块：
- 改进的残差连接结构
- 引入跨层特征聚合路径
- 训练稳定性提升显著，收敛速度加快约15%
轻量化设计：
- 深度可分离卷积应用比例提升至60%
- 引入动态通道裁剪机制
- 模型大小控制在2.6M参数，适合边缘设备部署

3.2 针对停车场景的优化

我们在YOLOv12基础上进行了针对性改进：

特征金字塔增强：

python复制class EnhancedFPN(nn.Module):
    def __init__(self, in_channels):
        super().__init__()
        self.top_down = nn.Sequential(
            CSPLayer(in_channels[0], in_channels[0]//2, n=1, shortcut=False),
            CSPLayer(in_channels[0]//2, in_channels[0]//4, n=1, shortcut=False)
        )
        self.bottom_up = nn.Sequential(
            CSPLayer(in_channels[-1], in_channels[-1]*2, n=1, shortcut=False),
            CSPLayer(in_channels[-1]*2, in_channels[-1]*4, n=1, shortcut=False)
        )
        
    def forward(self, features):
        p3, p4, p5 = features
        # 自上而下路径增强小目标特征
        p3_enhanced = self.top_down(p3)
        # 自下而上路径增强大目标特征
        p5_enhanced = self.bottom_up(p5)
        return p3_enhanced, p4, p5_enhanced

损失函数优化：
- 采用CIoU损失替代传统IoU损失，引入中心点距离和长宽比惩罚项
- 分类分支使用Focal Loss，缓解类别不平衡问题
- 增加小目标检测权重系数，提升远处车位的召回率
后处理优化：
- 动态NMS阈值：根据目标密度自动调整NMS阈值
- 车位几何约束：利用车位排列的先验知识过滤不合理检测

4. 训练策略与技巧

4.1 训练配置

我们使用以下配置进行模型训练：

参数	设置值	说明
设备	4×RTX 4090	使用混合精度训练
批量大小	64	总批量大小，使用梯度累积
初始学习率	0.01	余弦衰减策略
优化器	SGD	momentum=0.937, weight_decay=0.0005
训练周期	300	包含50周期预热
输入尺寸	640×640	保持长宽比padding

4.2 关键训练技巧

渐进式分辨率训练：
- 前50周期：320×320
- 50-150周期：480×480
- 150周期后：640×640
- 显著提升训练稳定性，最终mAP提升约2%
类别平衡采样：
- 计算每个类别的出现频率
- 对少数类样本进行过采样
- 采样权重公式：w_c = sqrt(T/f_c)，其中T为总样本数，f_c为类别c的样本数
EMA模型平均：
- 衰减率β=0.9999
- 显著提升模型在测试集上的稳定性
- 减少过拟合风险
验证集早停策略：
- 监控mAP@0.5:0.95指标
- patience=50周期
- 恢复最佳模型参数

实际训练中发现，在训练中期（约150周期）暂时关闭Mosaic增强，改为使用基础增强，可以让模型更好地学习车位细节特征，特别是车位线的精确位置。这种策略使定位精度提升了约1.5%。

5. 系统实现细节

5.1 软件架构

系统采用模块化设计，主要组件包括：

检测引擎：
- 模型加载与推理
- 后处理与结果解析
- 多线程推理支持
用户界面：
- 基于PySide6实现
- 支持主题切换（深色/浅色/高对比度）
- 多窗口布局管理
数据管理：
- SQLite数据库存储用户配置和检测记录
- 结果导出功能（图片、视频、CSV报告）
输入源管理：
- 摄像头采集（支持RTSP流）
- 视频文件解码
- 图片批量处理

5.2 性能优化技巧

推理加速：

python复制def optimize_inference(model, img_size=640):
    # 模型转换为TensorRT格式
    model = torch2trt(model, [torch.randn(1, 3, img_size, img_size).cuda()])
    # 启用半精度推理
    model.half()
    # 固定输入尺寸优化内存分配
    model(torch.zeros(1, 3, img_size, img_size).half().cuda())
    return model

内存管理：
- 使用对象池复用内存
- 异步数据加载
- GPU显存监控与自动清理
界面渲染优化：
- 检测结果与视频流分离渲染
- 使用QGraphicsView实现高效绘制
- 统计图表增量更新

6. 部署与性能对比

6.1 各版本YOLO性能对比

我们在RTX 3070笔记本GPU上测试了各版本YOLO模型的性能：

模型	参数量(M)	mAP@0.5	FPS	显存占用(MB)
YOLOv5n	1.9	0.943	142	780
YOLOv6n	4.3	0.951	135	820
YOLOv7-tiny	6.2	0.858	98	910
YOLOv8n	3.2	0.952	148	790
YOLOv9t	2.0	0.954	112	750
YOLOv10n	2.3	0.949	130	770
YOLOv11n	2.6	0.953	125	800
YOLOv12n	2.6	0.929	118	760

6.2 实际部署建议

根据测试结果，我们给出以下部署建议：

高性能服务器：
- 推荐模型：YOLOv8s或YOLOv11s
- 优势：高精度，支持多路视频流并行处理
- 典型配置：T4 GPU可支持8路1080p视频实时分析
边缘计算设备：
- 推荐模型：YOLOv8n或YOLOv10n
- 优势：低延迟，低功耗
- 典型配置：Jetson Xavier NX可支持4路720p视频分析
低成本嵌入式设备：
- 推荐模型：量化后的YOLOv5n
- 优势：极低资源消耗
- 典型配置：树莓派4B+Intel神经计算棒可支持单路视频分析

7. 常见问题与解决方案

在实际部署过程中，我们总结了以下常见问题及解决方法：

雨天检测精度下降：
- 现象：雨天反光导致大量误检
- 解决方案：
  - 增加雨天数据增强
  - 调整Conf阈值至0.6左右
  - 启用热力图辅助判断
夜间低照度环境漏检：
- 现象：夜间车位线难以识别
- 解决方案：
  - 使用红外摄像头
  - 在模型中添加低照度增强层
  - 降低分类分支权重，侧重位置回归
斜视角车位变形：
- 现象：斜视角下车位四边形变形严重
- 解决方案：
  - 在数据标注时使用四边形标注而非矩形
  - 添加透视变换增强
  - 后处理阶段加入几何约束
相邻车位粘连：
- 现象：相邻车位被合并为一个检测框
- 解决方案：
  - 调整NMS阈值至0.3左右
  - 增加小目标检测头权重
  - 使用更精细的特征金字塔结构