PyTorch实现车牌识别：YOLOv5与CRNN实战指南-AI智能范式网

PyTorch实现车牌识别：YOLOv5与CRNN实战指南

Marco Liu

1. 项目背景与核心价值

车牌识别作为计算机视觉领域的经典应用场景，在智慧交通、停车场管理、违章抓拍等实际业务中具有广泛需求。传统方案多基于OpenCV图像处理+机器学习分类器，而采用PyTorch深度学习框架能够显著提升复杂场景下的识别准确率。这个项目记录了我从零开始用PyTorch实现端到端车牌识别的完整过程，特别适合有一定Python基础但刚接触CV领域的开发者参考。

在实际工程中，车牌识别需要解决四大核心问题：车牌定位（检测）、字符分割、单字符识别以及后处理逻辑。本方案采用YOLOv5进行车牌检测，结合CRNN（CNN+RNN）处理字符识别，最终在自建数据集上达到98.7%的整牌识别准确率。下面将详细拆解各模块的技术选型依据与实现细节。

2. 环境配置与数据准备

2.1 基础环境搭建

推荐使用Python 3.8+和PyTorch 1.12+版本组合，这是经过实测最稳定的配置。通过conda创建隔离环境：

bash复制conda create -n plate_rec python=3.8
conda activate plate_rec
pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 -f https://download.pytorch.org/whl/torch_stable.html

关键依赖说明：

OpenCV：用于图像预处理（4.5.5+版本支持所有必需算子）
Albumentations：数据增强库（比torchvision.transform更丰富的CV增强）
EasyOCR：辅助生成训练标签（可选，用于初版数据标注）

注意：CUDA版本需与显卡驱动匹配，可通过nvidia-smi查询。若使用Colab，建议选择T4或V100实例以获得最佳训练速度。

2.2 数据集构建策略

优质数据集应包含以下特性：

多样性：不同光照条件（白天/夜间/逆光）、天气（雨雪雾）、拍摄角度（倾斜30°内）
真实性：包含运动模糊、部分遮挡等实际场景噪声
地域覆盖：至少包含3种以上车牌类型（如蓝牌、黄牌、新能源绿牌）

推荐数据源：

CCPD数据集：包含30万+中国车牌图像（需申请授权）
自采集数据：用手机拍摄1000+张真实场景车牌，注意覆盖不同距离和角度
数据增强：对原始数据应用以下变换：
- 高斯噪声（σ=0.1）
- 运动模糊（kernel_size=15）
- 亮度调整（±30%）
- 透视变换（最大倾斜20°）

数据目录结构示例：

code复制dataset/
├── images/
│   ├── train/
│   │   ├── plate_001.jpg
│   │   └── ...
│   └── val/
│       ├── plate_101.jpg 
│       └── ...
└── labels/
    ├── train/
    │   ├── plate_001.txt  # YOLO格式标注
    │   └── ...
    └── val/
        ├── plate_101.txt
        └── ...

3. 车牌检测模块实现

3.1 YOLOv5模型选型

对比不同版本的推理速度与精度（Tesla T4实测）：

模型版本	参数量(M)	mAP@0.5	推理时延(ms)
YOLOv5n	1.9	0.86	12.3
YOLOv5s	7.2	0.92	15.7
YOLOv5m	21.2	0.94	22.1

选择YOLOv5s作为基础模型，在精度和速度间取得平衡。关键改进点：

自适应锚框计算：

python复制from utils.autoanchor import kmean_anchors
anchors = kmean_anchors('./data/plate.yaml', 9, 640, 5.0, 1000)

注意力机制增强：
在Backbone末端添加SE注意力模块：

python复制class SEBlock(nn.Module):
    def __init__(self, c, r=16):
        super().__init__()
        self.squeeze = nn.AdaptiveAvgPool2d(1)
        self.excitation = nn.Sequential(
            nn.Linear(c, c // r),
            nn.ReLU(),
            nn.Linear(c // r, c),
            nn.Sigmoid()
        )
    
    def forward(self, x):
        b, c, _, _ = x.shape
        s = self.squeeze(x).view(b, c)
        e = self.excitation(s).view(b, c, 1, 1)
        return x * e.expand_as(x)

3.2 训练策略优化

采用两阶段训练提升小目标检测效果：

第一阶段（冻结Backbone）：

初始lr=0.01，cosine衰减
只训练Detection Head
epochs=50，batch_size=32

第二阶段（全网络训练）：

初始lr=0.001
启用Mosaic增强（概率=0.5）
epochs=150，batch_size=16

关键参数配置（hyp.yaml）：

yaml复制lr0: 0.01  # 初始学习率
lrf: 0.2   # 最终学习率 = lr0 * lrf
momentum: 0.937
weight_decay: 0.0005
warmup_epochs: 3.0
warmup_momentum: 0.8
warmup_bias_lr: 0.1

实测技巧：当验证集mAP连续3个epoch不提升时，手动将学习率减半可以突破训练瓶颈。

4. 字符识别模块设计

4.1 CRNN网络架构

采用CNN+BiLSTM+CTC的经典结构：

code复制输入图像(120x32) 
→ CNN特征提取(ResNet34变体)
→ 序列特征(24x512)  
→ BiLSTM(隐藏层256)
→ CTC解码(7字符分类)

关键代码实现：

python复制class CRNN(nn.Module):
    def __init__(self, num_chars):
        super().__init__()
        # CNN部分
        self.cnn = nn.Sequential(
            nn.Conv2d(3, 64, 3, stride=1, padding=1),
            nn.BatchNorm2d(64),
            nn.ReLU(),
            nn.MaxPool2d(2,2),
            # ... 共5个下采样层
        )
        # RNN部分
        self.rnn = nn.LSTM(512, 256, bidirectional=True, num_layers=2)
        self.fc = nn.Linear(512, num_chars + 1)  # 加1为CTC空白符
        
    def forward(self, x):
        # 特征提取
        conv = self.cnn(x)
        b, c, h, w = conv.size()
        assert h == 1, "高度必须压缩到1"
        # 序列处理
        conv = conv.squeeze(2).permute(2, 0, 1)  # [w, b, c]
        outputs, _ = self.rnn(conv)
        # 分类输出
        return self.fc(outputs)

4.2 数据预处理技巧

字符识别需要特殊的图像标准化方法：

高度归一化：保持宽高比，高度统一为32px：

python复制def keep_ratio_resize(img, target_height=32):
    h, w = img.shape[:2]
    ratio = target_height / h
    return cv2.resize(img, (int(w*ratio), target_height))

灰度化增强：在RGB三通道上分别做直方图均衡化：

python复制def channel_wise_equalize(img):
    channels = cv2.split(img)
    eq_channels = []
    for ch in channels:
        eq_channels.append(cv2.equalizeHist(ch))
    return cv2.merge(eq_channels)

弹性形变：模拟车牌弯曲效果（参数需谨慎调整）：

python复制from scipy.ndimage import interpolation

def elastic_transform(image, alpha=30, sigma=5):
    random_state = np.random.RandomState(None)
    shape = image.shape
    dx = gaussian_filter((random_state.rand(*shape) * 2 - 1), 
                        sigma, mode="constant") * alpha
    dy = gaussian_filter((random_state.rand(*shape) * 2 - 1), 
                        sigma, mode="constant") * alpha
    x, y = np.meshgrid(np.arange(shape[1]), np.arange(shape[0]))
    indices = np.reshape(y+dy, (-1, 1)), np.reshape(x+dx, (-1, 1))
    return interpolation.map_coordinates(image, indices, order=1).reshape(shape)

5. 工程落地优化

5.1 推理加速方案

方案对比测试（1080p图像）：

优化方法	耗时(ms)	内存占用(MB)
原始模型	156.2	1024
TensorRT FP16	43.7	512
ONNX Runtime	67.3	768
TorchScript量化	89.5	640

推荐部署流程：

导出ONNX模型：

python复制torch.onnx.export(model, 
                 dummy_input, 
                 "plate_rec.onnx",
                 opset_version=11,
                 input_names=['input'],
                 output_names=['output'])

使用TensorRT加速：

bash复制trtexec --onnx=plate_rec.onnx \
        --saveEngine=plate_rec.engine \
        --fp16 \
        --workspace=2048

5.2 后处理逻辑

车牌识别特有的纠错规则：

省份简称校验：首字符必须在{"京","津","冀"...}等集合内
车牌类型匹配：
- 蓝牌：第2位为字母，后面5位含至少1数字
- 新能源：第2位字母必须为"D"或"F"
易混淆字符处理：
- '0'与'D'：根据相邻字符判断
- '1'与'I'：参考省份简称规则

实现示例：

python复制def plate_correction(text):
    # 省份简称白名单
    provinces = {"京","津","冀","晋","蒙","辽","吉","黑",
                "沪","苏","浙","皖","闽","赣","鲁","豫",
                "鄂","湘","粤","桂","琼","川","贵","云",
                "渝","藏","陕","甘","青","宁","新"}
    
    if len(text) < 2:
        return text
    
    # 强制首字符为省份
    if text[0] not in provinces:
        for p in provinces:
            if p in text:
                text = p + text.replace(p, "", 1)
                break
    
    # 新能源车牌校验
    if len(text) >= 2 and text[1] in ['D', 'F']:
        if not any(c.isdigit() for c in text[2:]):
            text = text[:1] + ('D' if random.random() > 0.5 else 'F') + text[2:]
    
    return text

6. 常见问题与解决方案

6.1 检测模块典型问题

问题1：小尺寸车牌漏检

现象：距离较远的车牌无法检测

解决方案：

修改YOLOv5的anchor比例：

yaml复制anchors:
  - [5,6, 8,14, 15,11]  # P3/8 (小目标层)
  - [19,27, 42,33, 40,58]  # P4/16
  - [72,111, 138,97, 132,188]  # P5/32

增加输入图像分辨率（从640提升到1280）

问题2：倾斜车牌误检

现象：将非车牌区域识别为车牌
解决方案：
1. 数据增强时增加旋转角度范围（±45°）
2. 添加IoU-aware分支提升定位精度

6.2 识别模块典型问题

问题1：字符粘连导致识别错误

现象：如"京A12345"识别为"京A1234S"
解决方案：
1. 在CRNN训练数据中人工添加10%的字符间距压缩样本
2. 引入注意力机制强化字符边界感知

问题2：光照不均影响识别

现象：夜间车牌识别率骤降

解决方案：

添加Retinex预处理模块：

python复制def retinex_enhance(img, sigma_list=[15,80,250]):
  h, w = img.shape[:2]
  img = img.astype(np.float32) / 255.0
  result = np.zeros_like(img)
  
  for sigma in sigma_list:
      blur = cv2.GaussianBlur(img, (0,0), sigma)
      result += np.log10(img + 1e-6) - np.log10(blur + 1e-6)
  
  result = result / len(sigma_list)
  result = np.power(10, result)
  return np.clip(result * 255, 0, 255).astype(np.uint8)

在数据集中增加低光照样本比例

7. 效果评估与调优

7.1 评估指标设计

除常规准确率外，需关注：

端到端识别率：从原始图像到最终车牌号的正确率
单字符准确率：对识别错误的样本分析错字位置
鲁棒性测试：
- 模糊度（高斯模糊σ=3）
- 亮度变化（±50%）
- 遮挡测试（随机遮挡20%区域）

7.2 模型压缩方案

在保持98%+准确率的前提下：

压缩方法	模型大小(MB)	推理速度(FPS)	准确率(%)
原始模型	186.5	45	98.7
通道剪枝(30%)	112.3	68	98.2
知识蒸馏	92.7	72	98.5
量化(INT8)	46.8	120	97.9

推荐组合策略：

先用通道剪枝减少参数量
再用知识蒸馏恢复精度
最后进行TensorRT INT8量化

核心代码片段：

python复制# 通道剪枝示例
from torch.nn.utils import prune
parameters_to_prune = [
    (model.backbone.conv1, 'weight'),
    (model.head.linear, 'weight')
]
prune.global_unstructured(
    parameters_to_prune,
    pruning_method=prune.L1Unstructured,
    amount=0.3  # 剪枝30%
)

# 知识蒸馏
teacher_model = load_pretrained_teacher()
distill_loss = nn.KLDivLoss(reduction='batchmean')
...
student_output = student_model(inputs)
teacher_output = teacher_model(inputs).detach()
loss = 0.7 * ce_loss(student_output, labels) + \
       0.3 * distill_loss(
           F.log_softmax(student_output/T, dim=1),
           F.softmax(teacher_output/T, dim=1)
       ) * (T**2)

8. 项目扩展方向

多车牌同帧检测：
- 修改YOLOv5输出层支持多个检测头
- 添加NMS时考虑车牌类型分组
视频流实时处理：
- 结合DeepSort实现跨帧跟踪
- 设计缓存机制避免重复识别
特种车牌适配：
- 军牌：修改字符集包含"军","空","海"等
- 使馆车牌：增加"使"字识别
边缘设备部署：
- 移植到树莓派（需改用MobileNetV3主干）
- 开发Android端APP（使用NNAPI加速）

实际开发中发现，当处理1080P视频流时，在Jetson Xavier NX上优化后的模型能达到35FPS的实时性能。关键是将识别任务拆分为检测（每帧处理）和识别（隔帧处理）两个异步流水线，通过共享内存传递ROI区域。这种设计可将系统吞吐量提升2-3倍。