工业质检中的YOLOv5与无监督学习应用实践

兔尾巴老李

1. 工业质检的痛点与挑战

在制造业生产线上，质量检测环节往往面临着几个典型痛点。这些问题就像压在质检工程师肩上的"四座大山"，让自动化质检系统的落地变得异常艰难。

首先是样本数量不足的问题。很多产线在初期部署质检系统时，往往只能提供几十到几百张缺陷样本。这对于需要大量训练数据的深度学习模型来说简直是杯水车薪。我见过一个汽车零部件厂商，他们最严重的一类缺陷在半年内只出现了17次，收集到的有效样本还不到10张。

其次是样本不平衡的困扰。正常品和缺陷品的比例常常严重失衡，有些微小缺陷的出现概率可能只有0.1%甚至更低。这种极端不平衡会导致模型严重偏向多数类。去年我们测试的一个电路板检测项目中，正常样本占比高达99.8%，模型训练后把所有输入都预测为正常品也能达到99.8%的"高准确率"——这显然不是我们想要的结果。

第三个痛点是"拍不全"的问题。产线上的工件往往有复杂的立体结构，而固定安装的工业相机很难捕捉到所有关键部位。比如发动机缸体的内壁缺陷、齿轮的齿根裂纹等，常规拍摄角度很难完整覆盖。我们曾统计过，在典型的机加工场景中，单相机系统平均会漏掉23%的关键检测区域。

最后是数据导入速度的瓶颈。传统方案需要将产线图像先传输到服务器进行处理，这个传输过程常常成为系统瓶颈。一个汽车焊接车间的案例显示，当检测分辨率要求达到2000万像素时，单台相机的图像传输就需要近1秒，根本无法满足实时产线节拍。

2. 技术方案设计思路

面对这些挑战，我们设计了一套结合YOLO目标检测和无监督学习的组合方案。这个方案的核心思想是：用少量标注样本+大量无标注样本进行半监督学习，同时优化整个检测流水线的效率。

2.1 YOLOv5的改进与适配

我们选择YOLOv5s作为基础框架，主要考虑到它在速度和精度间的平衡。针对工业场景做了几处关键改进：

输入分辨率调整为1536x1536，这是经过大量测试后确定的平衡点——既能捕捉微小缺陷，又不会过度增加计算负担。具体计算公式为：
```
code复制最佳分辨率 = max(缺陷最小尺寸×8, 1024)
```
比如当最小缺陷为0.2mm时，0.2×8×1000（典型工业相机分辨率）=1600，我们取最接近的1536。

修改了anchor box的设置。工业缺陷通常具有特定的形状特征（如裂纹呈线状、气泡呈圆形等），我们通过k-means聚类重新计算了anchor：

python复制from sklearn.cluster import KMeans
# 加载所有标注框的宽高
boxes = load_annotations()
kmeans = KMeans(n_clusters=3)
kmeans.fit(boxes)
anchors = kmeans.cluster_centers_

在neck部分增加了CBAM注意力模块，这能让模型更聚焦于缺陷区域。实测表明，在表面划痕检测任务中，CBAM能提升约5%的mAP。

2.2 无监督数据增强策略

针对样本少的问题，我们开发了一套基于无监督学习的数据增强流程：

首先使用StyleGAN2-ADA对稀有缺陷样本进行生成。关键是要控制生成多样性：

python复制# 控制生成器的噪声输入
z = torch.randn(1, 512).cuda()
# 调节风格混合概率
truncation = 0.7  # 避免生成过于离群的样本

然后应用物理模拟的缺陷生成方法。比如对于金属表面裂纹，我们使用有限元分析(FEA)模拟应力分布，再结合Perlin噪声生成逼真的裂纹图案。
最后通过CutMix将生成的缺陷"粘贴"到正常样本上。这里有个重要技巧——要模拟真实产线中缺陷的分布规律：

注意：缺陷位置不是随机的，比如焊接缺陷多出现在焊缝处，铸造缺陷多在壁厚突变区

2.3 多视角成像系统设计

为了解决"拍不全"的问题，我们设计了一套动态成像系统：

使用2-4个工业相机组成阵列，安装角度经过精心计算：
```
code复制最佳夹角 = arctan(工件高度/相机间距) × 2
```

开发了基于点云配准的多视角融合算法。先将各视角图像转换为深度图，再用ICP算法对齐：

python复制import open3d as o3d
# 创建点云对象
pcd1 = o3d.geometry.PointCloud.create_from_depth_image(depth1)
pcd2 = o3d.geometry.PointCloud.create_from_depth_image(depth2)
# 执行配准
reg_p2p = o3d.pipelines.registration.registration_icp(
    pcd1, pcd2, max_correspondence_distance=0.05)

在边缘设备部署时，我们改用轻量化的MVSNet网络实现实时深度估计，将计算耗时控制在50ms以内。

3. 系统实现与优化

3.1 模型训练技巧

在实际训练过程中，我们发现几个关键技巧能显著提升效果：

渐进式冻结策略：先训练backbone的浅层，再逐步解冻深层。典型配置：

code复制第1-50轮：只训练detection head
第51-100轮：解冻最后3个C3模块
第101轮后：解冻全部网络

困难样本挖掘：每个epoch后，用当前模型预测所有训练样本，选出loss最高的20%样本，在下个epoch中给这些样本3倍的采样权重。
使用Focal Loss解决类别不平衡：
```
python复制criterion = FocalLoss(alpha=[0.1, 0.9], gamma=2)
```
其中alpha根据类别频率设置，gamma控制困难样本的权重。

3.2 边缘计算架构

为了突破数据传输瓶颈，我们设计了如下的边缘计算方案：

硬件选型对比：

设备推理速度(ms) 功耗(W) 成本适用场景

Jetson Xavier NX 45 15 中高精度需求

Coral TPU 28 2 低量化模型

AMD EPYC嵌入式 32 25 高多相机系统
图像传输优化：
- 使用JPEG XS编码，压缩比达10:1时仍保持视觉无损
- 采用ZeroMQ实现相机与边缘设备的直连，省去中间服务器

设备	推理速度(ms)	功耗(W)	成本	适用场景
Jetson Xavier NX	45	15	中	高精度需求
Coral TPU	28	2	低	量化模型
AMD EPYC嵌入式	32	25	高	多相机系统

模型量化部署：

python复制# 训练后量化
model = torch.quantization.quantize_dynamic(
    model, {torch.nn.Linear}, dtype=torch.qint8)
# 转换为TensorRT引擎
trt_model = torch2trt(model, [input_tensor])

4. 实际效果与案例分析

在某汽车零部件厂商的试点项目中，这套方案取得了显著成效：

4.1 性能指标对比

指标	传统方案	我们的方案	提升幅度
漏检率	8.7%	0.3%	96%↓
误检率	15.2%	2.1%	86%↓
处理速度	1.2s/件	0.25s/件	4.8倍↑
样本需求	5000+	50+	99%↓

4.2 典型缺陷检测效果

微米级划痕检测：
- 传统方法：只能检出>50μm的划痕
- 我们的方案：可稳定检出20μm级划痕
- 关键点：使用了高频增强算法+亚像素边缘检测

装配缺件检测：

挑战：缺件位置随机，且可能被其他部件遮挡
解决方案：结合了3D点云分割与2D检测

实现代码片段：

python复制def check_missing_part(point_cloud, rgb_image):
    # 3D分割
    seg_result = pointnet2(point_cloud)
    # 2D检测
    det_result = yolov5(rgb_image)
    # 结果融合
    return fusion_algo(seg_result, det_result)

表面污渍检测：
- 难点：污渍与正常纹理相似度高
- 突破：采用频域分析与空间注意力结合
- 处理流程：
```
code复制原始图像 → FFT变换 → 频域滤波 → 逆变换 → 
空间注意力 → 缺陷分割
```

5. 实施经验与避坑指南

在实际部署过程中，我们积累了一些宝贵经验：

5.1 数据收集建议

光照条件控制：
- 使用同轴光源检测光滑表面
- 低角度光源凸显划痕
- 多光谱成像识别油污等特殊缺陷
标注规范：
- 对于微小缺陷，标注框应外扩2-3个像素
- 模糊边界的缺陷（如渐变色污渍）应采用软标签
数据多样性：
- 收集不同班次、不同设备、不同原料批次的数据
- 包含环境变化（温度、湿度）导致的正常变异

5.2 模型调优技巧

学习率设置：
- 初始lr=0.01，采用余弦退火衰减
- 对backbone使用1/10的学习率
早停策略改进：
- 不仅监控验证集loss，还要跟踪漏检率
- 设置双重早停条件：
```
python复制if val_loss_not_improve > 10 and miss_rate > target:
    early_stop()
```
测试时增强(TTA)：
- 对不确定样本进行多尺度+多角度预测
- 只对低置信度样本启用TTA，平衡速度与精度