YOLO系列算法演进与海洋动物检测实战

倩Sur

1. YOLO算法演进与原理分析

1.1 YOLO系列算法发展历程

YOLO（You Only Look Once）系列算法的发展历程堪称计算机视觉领域的一个经典案例。2016年，Joseph Redmon等人首次提出YOLOv1，彻底改变了目标检测的范式。传统方法如R-CNN系列需要先生成候选区域再进行分类，而YOLO创新性地将检测任务转化为单次回归问题，实现了端到端的训练和预测。

YOLOv2（YOLO9000）在2017年推出，主要贡献包括：

引入锚框（anchor boxes）机制，显著提升了对不同尺度目标的检测能力
采用Darknet-19作为骨干网络，在速度和精度之间取得更好平衡
提出多尺度训练策略，使模型能够适应不同分辨率的输入

2018年的YOLOv3进一步优化了网络结构：

使用Darknet-53作为特征提取器
引入FPN（特征金字塔网络）实现多尺度预测
采用逻辑回归代替softmax进行类别预测，支持多标签分类

2020年出现的YOLOv4由Alexey Bochkovskiy团队开发，主要创新点包括：

在数据增强方面引入Mosaic和CutMix
采用CSPDarknet53作为骨干网络
添加SPP（空间金字塔池化）模块
使用PANet（路径聚合网络）进行特征融合

YOLOv5虽然并非官方版本，但由于其易用性和出色的性能，成为工业界最受欢迎的版本：

完全基于PyTorch实现，大幅简化了训练流程
提供多种预定义模型尺寸（n/s/m/l/x）
引入自动学习锚框尺寸的功能
优化了数据加载和训练管道

YOLOv8由Ultralytics公司开发，主要改进包括：

新的骨干网络和损失函数设计
无锚框（anchor-free）的检测头
更高效的训练策略
支持分类、检测和分割任务

最新的YOLOv10进一步优化了精度与速度的平衡：

采用更高效的网络结构设计
改进的特征融合策略
优化的训练策略和损失函数

1.2 YOLO核心原理

1.2.1 边界框预测

YOLO的核心思想是将图像划分为S×S的网格，每个网格负责预测中心落在该区域的物体。对于每个网格，模型会预测：

B个边界框（bounding box）
每个边界框的置信度（confidence score）
C个类别概率

边界框的预测包含5个值：(x, y, w, h, confidence)。其中：

(x, y)表示边界框中心相对于网格单元的偏移
(w, h)表示边界框的宽度和高度相对于整个图像的比例
confidence反映边界框包含目标的可能性以及预测框的准确度

在YOLOv2及之后的版本中，引入了锚框机制。预先定义一组不同长宽比的锚框，模型预测的是相对于这些锚框的偏移量，这使得模型更容易学习到合理的边界框形状。

1.2.2 损失函数

YOLO的损失函数由多个部分组成，确保模型能够同时优化定位和分类性能。典型的YOLO损失函数包括：

边界框坐标损失：
- 使用均方误差（MSE）计算预测框中心点(x,y)与真实框的差异
- 对宽度和高度使用平方根处理，减轻大框和小框之间的尺度差异
置信度损失：
- 包含目标的边界框应该预测高置信度
- 不包含目标的边界框应该预测低置信度
- 使用二元交叉熵损失
类别损失：
- 使用交叉熵损失计算预测类别与真实类别的差异
- 在YOLOv3及以后版本中，使用独立的逻辑回归代替softmax，支持多标签分类

在YOLOv8和v10中，损失函数进一步优化：

引入CIoU（Complete IoU）损失，更好地衡量边界框的重叠程度
采用标签分配策略，动态调整正负样本比例
使用focal loss处理类别不平衡问题

1.3 YOLOv5、v8、v10的改进点

YOLOv5的核心改进

网络结构：
- 采用CSPNet（跨阶段部分网络）结构，减少计算量的同时保持特征提取能力
- 使用SPPF（快速空间金字塔池化）模块替代传统的SPP模块
- 引入Focus结构，在下采样前先进行切片操作，减少信息损失
训练优化：
- 自动学习锚框尺寸，适应不同数据集的特点
- 采用Mosaic数据增强，将4张训练图像组合成1张
- 实现自适应图片大小训练，自动选择最佳输入尺寸
工程实现：
- 提供完整的训练、验证、测试和导出流程
- 支持TensorRT加速和ONNX导出
- 完善的日志记录和可视化工具

YOLOv8的创新之处

骨干网络：
- 采用新的C2f模块替代C3模块，增强特征融合能力
- 使用更高效的跨阶段连接策略
- 引入RepVGG风格的重新参数化技术
检测头：
- 无锚框设计，直接预测边界框偏移量
- 解耦的分类和回归分支
- 动态标签分配策略
任务扩展：
- 统一框架支持分类、检测和分割
- 更灵活的多任务学习能力
- 改进的模型导出和部署流程

YOLOv10的最新进展

效率优化：
- 采用更轻量级的网络设计
- 改进的特征提取和融合策略
- 减少冗余计算，提升推理速度
精度提升：
- 更精确的边界框预测方法
- 改进的损失函数设计
- 增强的特征表示能力
训练策略：
- 优化的数据增强组合
- 更有效的正则化方法
- 改进的学习率调度策略

2. 海洋动物数据集准备与处理

2.1 数据集收集与标注

构建海洋动物检测系统的第一步是准备高质量的数据集。理想的数据集应该包含多种海洋动物类别，并在不同环境条件下（如光照、水质、角度等）采集图像。

数据来源

公开数据集：
- Fish4Knowledge：包含23种热带鱼类的图像
- DeepFish：澳大利亚水域的鱼类数据集
- SeaCLEF：海洋生物识别挑战赛提供的数据
网络爬取：
- 从Flickr、YouTube等平台获取海洋生物视频和图像
- 使用Bing、Google图片搜索特定物种
- 注意版权问题，仅用于研究目的
实地采集：
- 使用水下相机或潜水设备拍摄
- 考虑不同深度、光线条件下的样本
- 记录拍摄时的环境参数（如温度、深度等）

数据标注

使用LabelImg或CVAT等工具进行标注，保存为YOLO格式的txt文件。每个标注文件对应一张图像，包含多行记录，每行格式为：

code复制<class_id> <x_center> <y_center> <width> <height>

其中坐标值都是相对于图像宽高的比例（0-1之间）。

标注注意事项：

确保边界框紧贴目标边缘
对遮挡或模糊的目标仍应标注，但可添加"difficult"标记
同一图像中的多个同类目标应分别标注
保持类别名称一致，建议建立类别字典

类别设计

根据实际应用需求设计类别体系，例如：

鲨鱼类：大白鲨、虎鲨、鲸鲨等
珊瑚鱼类：小丑鱼、蝴蝶鱼、天使鱼等
海洋哺乳类：海豚、鲸鱼、海豹等
其他：海龟、章鱼、水母等

类别数量不宜过多（通常10-30类），相近物种可以合并。对于稀有物种，确保每类至少有50-100个样本。

2.2 数据预处理代码

完整的数据预处理流程包括图像读取、标注解析、尺寸调整和归一化等步骤。以下是使用Python的实现示例：

python复制import os
import cv2
import numpy as np
from sklearn.model_selection import train_test_split

class YOLODataset:
    def __init__(self, img_dir, label_dir, classes, img_size=640):
        self.img_dir = img_dir
        self.label_dir = label_dir
        self.classes = classes
        self.img_size = img_size
        self.class_to_idx = {name: i for i, name in enumerate(classes)}
        self.image_files = [f for f in os.listdir(img_dir) if f.endswith(('.jpg', '.png'))]
        
        # Split dataset
        self.train_files, self.val_files = train_test_split(
            self.image_files, test_size=0.2, random_state=42)
    
    def __len__(self):
        return len(self.image_files)
    
    def load_image(self, img_path):
        img = cv2.imread(img_path)
        img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
        h, w = img.shape[:2]
        img = cv2.resize(img, (self.img_size, self.img_size))
        img = img / 255.0  # Normalize to [0,1]
        return img, (w, h)
    
    def load_labels(self, label_path, original_size):
        w, h = original_size
        labels = []
        if os.path.exists(label_path):
            with open(label_path, 'r') as f:
                for line in f.readlines():
                    parts = line.strip().split()
                    class_id = int(parts[0])
                    x_center = float(parts[1]) * self.img_size
                    y_center = float(parts[2]) * self.img_size
                    box_w = float(parts[3]) * self.img_size
                    box_h = float(parts[4]) * self.img_size
                    
                    # Convert to corner coordinates
                    x_min = x_center - box_w / 2
                    y_min = y_center - box_h / 2
                    x_max = x_center + box_w / 2
                    y_max = y_center + box_h / 2
                    
                    labels.append([class_id, x_min, y_min, x_max, y_max])
        return labels
    
    def __getitem__(self, idx):
        img_file = self.image_files[idx]
        img_path = os.path.join(self.img_dir, img_file)
        label_path = os.path.join(self.label_dir, img_file.replace('.jpg', '.txt').replace('.png', '.txt'))
        
        img, original_size = self.load_image(img_path)
        labels = self.load_labels(label_path, original_size)
        
        return img, np.array(labels)

2.3 数据增强策略

数据增强是提升模型泛化能力的关键。针对水下图像的特点，应采用适合的数据增强方法：

基础增强

几何变换：
- 随机水平翻转（p=0.5）
- 小角度随机旋转（±15度）
- 随机缩放（0.8-1.2倍）
- 随机裁剪（保持目标完整性）
颜色变换：
- 随机调整亮度（±30%）
- 随机调整对比度（±30%）
- 随机调整饱和度（±30%）
- 随机调整色相（±15度）

水下图像特有增强

模拟水下光学效应：
- 添加蓝色/绿色色偏
- 模拟光线衰减（顶部亮底部暗）
- 添加颗粒噪声模拟悬浮物
模糊和失真：
- 模拟水体湍流效果
- 添加气泡遮挡
- 模拟镜头上的水滴效果

Mosaic增强

YOLOv5采用的Mosaic增强将4张训练图像拼接为1张，大幅提升小目标检测能力：

python复制def mosaic_augmentation(dataset, idx, img_size=640):
    indices = [idx] + [random.randint(0, len(dataset)-1) for _ in range(3)]
    images, labels = [], []
    
    # Create mosaic canvas
    mosaic_img = np.zeros((img_size*2, img_size*2, 3), dtype=np.float32)
    mosaic_labels = []
    
    # Center coordinates for each sub-image
    centers = [(img_size//2, img_size//2),
               (3*img_size//2, img_size//2),
               (img_size//2, 3*img_size//2),
               (3*img_size//2, 3*img_size//2)]
    
    for i, (center_x, center_y) in enumerate(centers):
        img, label = dataset[indices[i]]
        h, w = img.shape[:2]
        
        # Place image in mosaic
        x1a, y1a = max(0, center_x - w//2), max(0, center_y - h//2)
        x2a, y2a = x1a + w, y1a + h
        x1b, y1b = w//2 - (center_x - x1a), h//2 - (center_y - y1a)
        x2b, y2b = x1b + min(w, img_size), y1b + min(h, img_size)
        
        mosaic_img[y1a:y2a, x1a:x2a] = img[y1b:y2b, x1b:x2b]
        
        # Adjust labels
        if len(label) > 0:
            label[:, [1,3]] = (label[:, [1,3]] + x1a) / (img_size * 2)
            label[:, [2,4]] = (label[:, [2,4]] + y1a) / (img_size * 2)
            mosaic_labels.append(label)
    
    if len(mosaic_labels) > 0:
        mosaic_labels = np.concatenate(mosaic_labels, axis=0)
    
    # Random perspective transform
    mosaic_img, mosaic_labels = random_perspective(
        mosaic_img, mosaic_labels, degrees=10, translate=0.1, scale=0.5)
    
    return mosaic_img, mosaic_labels

混合增强（MixUp）

MixUp将两张图像线性混合，鼓励模型学习更平滑的决策边界：

python复制def mixup_augmentation(img1, labels1, img2, labels2, alpha=0.5):
    """
    img1: first image
    labels1: first image's labels
    img2: second image
    labels2: second image's labels
    alpha: beta distribution parameter
    """
    lam = np.random.beta(alpha, alpha)
    mixed_img = lam * img1 + (1 - lam) * img2
    
    mixed_labels = np.concatenate([labels1, labels2], axis=0)
    
    return mixed_img, mixed_labels

3. YOLOv5模型训练与优化

3.1 YOLOv5模型结构

YOLOv5的网络结构可以分为三个主要部分：骨干网络（Backbone）、颈部（Neck）和检测头（Head）。

骨干网络（Backbone）

YOLOv5的骨干网络基于CSPDarknet53，主要特点包括：

Focus模块：
- 输入图像先经过Focus切片操作，将空间信息转换为通道信息
- 例如，将640x640x3的图像切片为320x320x12，再通过卷积降维到320x320x32
- 这种设计减少了下采样带来的信息损失
CSP结构：
- 跨阶段部分网络（Cross Stage Partial Network）
- 将特征图分为两部分，一部分直接传递，另一部分经过多个卷积层
- 最后合并两部分特征，增强梯度流动
SPPF模块：
- 空间金字塔池化快速版（Spatial Pyramid Pooling - Fast）
- 使用多个最大池化核并行处理，捕获不同尺度的特征
- 比传统SPP模块更高效

颈部（Neck）

颈部网络负责特征融合，YOLOv5采用PANet（Path Aggregation Network）结构：

自顶向下路径：
- 将深层语义信息传递到浅层
- 通过上采样和拼接操作实现
自底向上路径：
- 将浅层位置信息传递到深层
- 通过下采样和拼接操作实现
特征金字塔：
- 输出三个不同尺度的特征图
- 分别用于检测小、中、大尺寸目标

检测头（Head）

YOLOv5的检测头基于锚框机制，每个尺度的特征图预测：

边界框：
- 每个网格预测3个锚框
- 预测框中心偏移量(x,y)和宽高缩放(w,h)
- 预测置信度（是否有目标）
类别概率：
- 使用独立的逻辑回归代替softmax
- 支持多标签分类（一个目标可以属于多个类别）

3.2 训练配置与代码

YOLOv5提供了完整的训练脚本和配置文件。以下是关键训练配置：

数据配置文件（data.yaml）

yaml复制# Paths
train: ../datasets/marine_animals/train/images
val: ../datasets/marine_animals/val/images
test: ../datasets/marine_animals/test/images

# Classes
names:
  0: shark
  1: dolphin
  2: turtle
  3: jellyfish
  4: clownfish
  5: stingray
  6: octopus
  7: whale
  8: seal
  9: crab

模型配置文件（yolov5s.yaml）

yaml复制# YOLOv5 🚀 by Ultralytics, GPL-3.0 license

# Parameters
nc: 10  # number of classes
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.50  # layer channel multiple

# Anchors
anchors:
  - [10,13, 16,30, 33,23]  # P3/8
  - [30,61, 62,45, 59,119]  # P4/16
  - [116,90, 156,198, 373,326]  # P5/32

# YOLOv5 backbone
backbone:
  # [from, number, module, args]
  [[-1, 1, Focus, [64, 3]],     # 0-P1/2
   [-1, 1, Conv, [128, 3, 2]],  # 1-P2/4
   [-1, 3, C3, [128]],
   [-1, 1, Conv, [256, 3, 2]],  # 3-P3/8
   [-1, 9, C3, [256]],
   [-1, 1, Conv, [512, 3, 2]],  # 5-P4/16
   [-1, 9, C3, [512]],
   [-1, 1, Conv, [1024, 3, 2]], # 7-P5/32
   [-1, 1, SPPF, [1024, 5]],    # 9
  ]

# YOLOv5 head
head:
  [[-1, 1, Conv, [512, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 6], 1, Concat, [1]],  # cat backbone P4
   [-1, 3, C3, [512, False]],  # 13

   [-1, 1, Conv, [256, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 4], 1, Concat, [1]],  # cat backbone P3
   [-1, 3, C3, [256, False]],  # 17 (P3/8-small)

   [-1, 1, Conv, [256, 3, 2]],
   [[-1, 14], 1, Concat, [1]],  # cat head P4
   [-1, 3, C3, [512, False]],  # 20 (P4/16-medium)

   [-1, 1, Conv, [512, 3, 2]],
   [[-1, 10], 1, Concat, [1]],  # cat head P5
   [-1, 3, C3, [1024, False]],  # 23 (P5/32-large)

   [[17, 20, 23], 1, Detect, [nc, anchors]],  # Detect(P3, P4, P5)
  ]

训练命令

bash复制python train.py --img 640 --batch 16 --epochs 100 --data data/marine_animals.yaml --cfg models/yolov5s.yaml --weights yolov5s.pt --name marine_animals_detection

关键参数说明：

--img 640: 输入图像尺寸
--batch 16: 批次大小（根据GPU内存调整）
--epochs 100: 训练轮次
--data: 数据配置文件路径
--cfg: 模型配置文件路径
--weights: 预训练权重路径
--name: 实验名称

3.3 训练优化技巧

学习率策略

YOLOv5使用余弦退火学习率调度器，配合线性热身：

热身阶段（前3个epoch）：
- 学习率从0线性增加到初始学习率
- 帮助模型稳定初始化
余弦退火阶段：
- 学习率按余弦曲线下降
- 公式：lr = lr_final + 0.5*(lr_initial - lr_final)*(1 + cos(π*epoch/epochs))
推荐初始学习率：
- 对于小模型（yolov5s）：0.01
- 对于大模型（yolov5l/x）：0.001

数据增强调优

根据数据集特点调整增强参数（在hyp.scratch.yaml中配置）：

yaml复制# Hyperparameters for marine animals detection
lr0: 0.01  # initial learning rate
lrf: 0.2   # final learning rate (lr0 * lrf)
momentum: 0.937
weight_decay: 0.0005
warmup_epochs: 3.0
warmup_momentum: 0.8
warmup_bias_lr: 0.1
box: 0.05  # box loss gain
cls: 0.5   # cls loss gain
cls_pw: 1.0  # cls BCELoss positive_weight
obj: 1.0   # obj loss gain
obj_pw: 1.0  # obj BCELoss positive_weight
iou_t: 0.20  # IoU training threshold
anchor_t: 4.0  # anchor-multiple threshold
fl_gamma: 0.0  # focal loss gamma

# Data augmentation
hsv_h: 0.015  # image HSV-Hue augmentation (fraction)
hsv_s: 0.7    # image HSV-Saturation augmentation (fraction)
hsv_v: 0.4    # image HSV-Value augmentation (fraction)
degrees: 10.0  # image rotation (+/- deg)
translate: 0.1  # image translation (+/- fraction)
scale: 0.5     # image scale (+/- gain)
shear: 0.0     # image shear (+/- deg)
perspective: 0.0  # image perspective (+/- fraction), range 0-0.001
flipud: 0.0    # image flip up-down (probability)
fliplr: 0.5    # image flip left-right (probability)
mosaic: 1.0    # image mosaic (probability)
mixup: 0.1     # image mixup (probability)
copy_paste: 0.0  # segment copy-paste (probability)

模型尺寸选择

YOLOv5提供不同大小的预定义模型：

YOLOv5n（Nano）：
- 最小最快的版本
- 适用于移动端或嵌入式设备
- 参数量约1.9M
YOLOv5s（Small）：
- 平衡速度和精度
- 参数量约7.2M
- 推荐大多数应用场景
YOLOv5m（Medium）：
- 中等规模
- 参数量约21.2M
- 精度更高但速度较慢
YOLOv5l（Large）：
- 大规模模型
- 参数量约46.5M
- 适用于高性能GPU
YOLOv5x（Extra Large）：
- 最大最精确的版本
- 参数量约86.7M
- 适用于需要最高精度的场景

训练监控与调优

使用TensorBoard监控训练过程：

bash复制tensorboard --logdir runs/train

关键指标解读：
- 损失曲线：box_loss（定位损失）、obj_loss（目标性损失）、cls_loss（分类损失）
- mAP@0.5：IoU阈值为0.5时的平均精度
- mAP@0.5:0.95：IoU阈值从0.5到0.95的平均精度
早停策略（Early Stopping）：
- 监控验证集mAP，当连续若干epoch不提升时停止训练
- 在YOLOv5中可通过--patience参数设置
模型选择：
- 选择在验证集上表现最好的模型
- 考虑精度和速度的平衡

模型微调技巧

冻结骨干网络：
- 对于小数据集，可以先冻结骨干网络只训练检测头
- 训练若干epoch后再解冻全部网络
类别不平衡处理：
- 使用Focal Loss减轻类别不平衡问题
- 在数据增强时对稀有类别过采样
锚框优化：
- 使用K-means算法在自定义数据集上重新计算锚框尺寸
- 修改模型配置文件中的anchors参数
测试时增强（TTA）：
- 在推理时应用多种增强（翻转、缩放等）
- 综合多个预测结果提升精度
- 会增加计算量，谨慎使用

4. YOLOv8模型训练与优化

4.1 YOLOv8模型改进

YOLOv8在架构和训练策略上进行了多项创新，使其在精度和速度上都有显著提升。

架构改进

无锚框（Anchor-Free）设计：
- 不再依赖预定义的锚框
- 直接预测边界框中心偏移量和宽高
- 简化了模型设计，减少了超参数
新的骨干网络：
- 采用改进的CSP结构（C2f模块）
- 引入RepVGG风格的重新参数化技术
- 更高效的跨阶段连接策略
解耦的检测头：
- 分类和回归任务使用独立的分支
- 每个任务有专门的特征提取路径
- 减少任务间的干扰
动态标签分配：
- 根据预测质量动态分配正负样本
- 使用Task-Aligned Assigner策略
- 更好地平衡分类和定位任务

损失函数改进

分类损失：
- 使用Varifocal Loss
- 关注难样本的同时不忽略简单样本
- 更好地处理类别不平衡
回归损失：
- 采用CIoU（Complete IoU）损失
- 考虑重叠区域、中心点距离和长宽比
- 比传统的IoU损失更精确
分布焦点损失（DFL）：
- 预测边界框的分布而非单一值
- 提高定位精度，特别是对小目标

训练策略优化

马赛克增强改进：
- 更智能的图像拼接策略
- 保持更合理的上下文关系
- 减少不自然的图像组合
自对抗训练（SAT）：
- 在训练过程中生成对抗样本
- 提高模型对干扰的鲁棒性
更高效的优化器配置：
- 改进的学习率调度
- 更稳定的训练过程

4.2 YOLOv8训练代码

YOLOv8提供了更简洁的API进行训练和推理。以下是完整的训练示例：

安装YOLOv8

bash复制pip install ultralytics

训练脚本

python复制from ultralytics import YOLO

# 加载预训练模型
model = YOLO('yolov8s.pt')  # 加载官方预训练模型

# 训练模型
results = model.train(
    data='marine_animals.yaml',  # 数据配置文件路径
    epochs=100,                  # 训练轮次
    imgsz=640,                   # 输入图像尺寸
    batch=16,                    # 批次大小
    device='0',                  # 使用GPU 0
    name='marine_animals_v8',    # 实验名称
    optimizer='auto',            # 自动选择优化器
    lr0=0.01,                    # 初始学习率
    lrf=0.01,                    # 最终学习率
    momentum=0.937,              # 动量
    weight_decay=0.0005,         # 权重衰减
    warmup_epochs=3.0,           # 热身epoch数
    warmup_momentum=0.8,         # 热身动量
    warmup_bias_lr=0.1,          # 热身偏置学习率
    box=7.5,                     # 框损失权重
    cls=0.5,                     # 分类损失权重
    dfl=1.5,                     # DFL损失权重
    fl_gamma=0.0,                # Focal Loss gamma
    label_smoothing=0.0,         # 标签平滑
    nbs=64,                      # 名义批次大小
    overlap_mask=True,           # 训练时掩码重叠
    scale=0.5,                   # 图像缩放
    shear=0.0,                   # 图像剪切
    perspective=0.0,             # 图像透视
    flipud=0.0,                  # 上下翻转概率
    fliplr=0.5,                  # 左右翻转概率
    mosaic=1.0,                  # 马赛克增强概率
    mixup=0.1,                   # MixUp增强概率
    copy_paste=0.0,              # 复制粘贴增强概率
    erasing=0.4,                 # 随机擦除概率
    crop_fraction=1.0            # 图像裁剪比例
)

数据配置文件（marine_animals.yaml）

yaml复制# YOLOv8 dataset config for marine animals detection

# Paths
path: ../datasets/marine_animals  # dataset root dir
train: train/images  # train images (relative to 'path')
val: val/images      # val images (relative to 'path')
test: test/images    # test images (relative to 'path')

# Classes
names:
  0: shark
  1: dolphin
  2: turtle
  3: jellyfish
  4: clownfish
  5: stingray
  6: octopus
  7: whale
  8: seal
  9: crab

模型验证

训练完成后，可以使用验证集评估模型性能：

python复制# 加载训练好的模型
model = YOLO('runs/detect/marine_animals_v8/weights/best.pt')

# 在验证集上评估
metrics = model.val(
    data='marine_animals.yaml',
    imgsz=640,
    batch=16,
    conf=0.25,      # 置信度阈值
    iou=0.6,        # IoU阈值
    device='0',     # 使用GPU 0
    split='val',    # 在验证集上评估
    name='val'      # 评估结果保存名称
)

# 打印评估结果
print(f"mAP@0.5: {metrics.box.map}")          # mAP@0.5
print(f"mAP@0.5:0.95: {metrics.box.map50_95}")  # mAP@0.5:0.95
print(f"Precision: {metrics.box.precision}")  # 精确率
print(f"Recall: {metrics.box.recall}")        # 召回率

模型导出

YOLOv8支持导出多种格式的模型，便于部署：

python复制# 导出为ONNX格式
model.export(format='onnx', imgsz=640, simplify=True)

# 导出为TensorRT引擎
model.export(format='engine', imgsz=640, device=0)

# 导出为OpenVINO格式
model.export(format='openvino', imgsz=640)

# 导出为CoreML格式
model.export(format='coreml', imgsz=640)