YOLOv8在KITTI数据集上的目标检测实践与优化

RIDERPRINCE

1. 项目背景与目标

最近在KITTI自动驾驶数据集上复现YOLOv8模型时，遇到了一些环境配置和测试脚本的坑。经过一周的折腾，终于把整个流程跑通了。这里把我的复现过程、测试脚本以及环境配置细节完整分享出来，希望能帮到同样想用YOLOv8做目标检测的朋友们。

KITTI数据集是自动驾驶领域最常用的基准测试集之一，包含7481张训练图像和7518张测试图像，标注了车辆、行人、自行车等8类目标。YOLOv8作为Ultralytics公司最新推出的实时目标检测模型，在精度和速度上都有显著提升。但官方文档主要针对COCO数据集，要适配KITTI需要做一些调整。

2. 环境配置详解

2.1 基础环境搭建

我使用的是Ubuntu 20.04系统，显卡为RTX 3090。以下是经过验证可用的环境配置：

bash复制# 创建conda环境
conda create -n yolov8_kitti python=3.8
conda activate yolov8_kitti

# 安装PyTorch（CUDA 11.7版本）
pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 --extra-index-url https://download.pytorch.org/whl/cu117

# 安装Ultralytics YOLOv8
pip install ultralytics==8.0.196

注意：PyTorch和CUDA版本必须严格匹配，否则会遇到各种奇怪的报错。建议先通过nvidia-smi查看显卡驱动支持的CUDA版本。

2.2 依赖库安装

除了核心的PyTorch和YOLOv8，还需要以下辅助库：

bash复制pip install numpy==1.23.5 matplotlib==3.7.1 tqdm==4.65.0 opencv-python==4.7.0.72
pip install pycocotools==2.0.6  # 用于评估指标计算

2.3 数据集准备

KITTI数据集需要转换为YOLO格式。目录结构应如下：

code复制kitti/
├── images/
│   ├── train/
│   └── val/
└── labels/
    ├── train/
    └── val/

每个标签文件对应同名的图像文件，内容格式为：

code复制<class_id> <x_center> <y_center> <width> <height>

其中坐标值是归一化后的（0-1之间）。

3. 测试脚本解析

3.1 基础测试代码

以下是经过验证可用的测试脚本核心部分：

python复制from ultralytics import YOLO
import numpy as np
import matplotlib.pyplot as plt
from pathlib import Path
import json
from tqdm import tqdm
import cv2

def visualize_detections(image, boxes, scores, classes, class_names):
    """可视化检测结果"""
    for box, score, cls in zip(boxes, scores, classes):
        x1, y1, x2, y2 = box
        label = f"{class_names[int(cls)]} {score:.2f}"
        cv2.rectangle(image, (int(x1), int(y1)), (int(x2), int(y2)), (0, 255, 0), 2)
        cv2.putText(image, label, (int(x1), int(y1)-10), 
                   cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 255, 0), 1)
    return image

# 加载模型
model = YOLO("yolov8n.pt")  # 也可以替换为你训练好的KITTI权重

# 测试单张图像
img_path = "kitti/images/val/000001.png"
results = model(img_path)

# 解析结果
boxes = results[0].boxes.xyxy.cpu().numpy()
scores = results[0].boxes.conf.cpu().numpy()
classes = results[0].boxes.cls.cpu().numpy()

# 可视化
img = cv2.imread(img_path)
img = visualize_detections(img, boxes, scores, classes, model.names)
cv2.imwrite("result.png", img)

3.2 批量测试与指标计算

对于完整的KITTI验证集测试，可以使用以下扩展代码：

python复制def evaluate_on_kitti(model, val_path="kitti/images/val/"):
    image_files = list(Path(val_path).glob("*.png"))
    results = []
    
    for img_file in tqdm(image_files):
        result = model(str(img_file))
        boxes = result[0].boxes.xyxy.cpu().numpy()
        scores = result[0].boxes.conf.cpu().numpy()
        classes = result[0].boxes.cls.cpu().numpy()
        
        results.append({
            "image_id": img_file.stem,
            "boxes": boxes.tolist(),
            "scores": scores.tolist(),
            "classes": classes.tolist()
        })
    
    # 保存结果用于后续评估
    with open("kitti_results.json", "w") as f:
        json.dump(results, f)
    
    return results

4. 训练配置与调优

4.1 数据增强配置

在data/kitti.yaml中配置：

yaml复制train: kitti/images/train
val: kitti/images/val

names:
  0: Car
  1: Van
  2: Truck
  3: Pedestrian
  4: Person_sitting
  5: Cyclist
  6: Tram
  7: Misc

4.2 训练参数优化

针对KITTI数据集的特点，建议调整以下参数：

python复制from ultralytics import YOLO

model = YOLO("yolov8n.yaml")  # 从零开始训练
# model = YOLO("yolov8n.pt")  # 迁移学习

results = model.train(
    data="data/kitti.yaml",
    epochs=100,
    imgsz=640,
    batch=16,
    lr0=0.01,
    lrf=0.01,
    momentum=0.937,
    weight_decay=0.0005,
    warmup_epochs=3,
    hsv_h=0.015,
    hsv_s=0.7,
    hsv_v=0.4,
    degrees=10,
    translate=0.1,
    scale=0.5,
    flipud=0.0,
    fliplr=0.5,
    mosaic=1.0,
    mixup=0.0
)

经验：KITTI中车辆目标通常较大，可以适当减少mosaic和mixup增强的概率，避免小目标过度增强导致训练不稳定。

5. 常见问题与解决方案

5.1 CUDA内存不足

如果遇到CUDA out of memory错误，可以尝试：

减小batch_size（建议从16开始尝试）
降低图像分辨率imgsz（最低可到320）
使用更小的模型（如yolov8s.yaml）

5.2 评估指标异常

如果mAP等指标异常低：

检查标签文件格式是否正确（必须是YOLO格式）
确认class_id是否与kitti.yaml中的定义一致
验证数据增强是否过度（特别是小目标数据集）

5.3 训练不收敛

如果损失值波动大或不下降：

检查学习率是否合适（建议初始lr0=0.01）
尝试关闭mosaic和mixup增强
验证数据标注质量（可用官方工具检查）

6. 性能优化技巧

6.1 TensorRT加速

将训练好的模型导出为TensorRT格式可以显著提升推理速度：

python复制model.export(format="engine", device=0)  # 需要提前安装TensorRT

6.2 多尺度测试

KITTI评估通常使用多尺度测试：

python复制results = model.predict(img, imgsz=[640, 960], augment=True)

6.3 自定义后处理

对于自动驾驶场景，可以添加基于距离的后处理过滤：

python复制def filter_by_distance(boxes, scores, classes, max_width=300):
    """过滤掉图像中过远的目标（宽度小于阈值）"""
    keep = []
    for i, box in enumerate(boxes):
        w = box[2] - box[0]
        if w > max_width:
            keep.append(i)
    return boxes[keep], scores[keep], classes[keep]