基于AlexNet的花卉分类实战与优化技巧

xuliagn

1. 项目概述：基于AlexNet的花卉分类实战

去年在做一个智能园艺项目时，需要自动识别不同品种的花卉。经过对比测试，发现经典的AlexNet网络在小样本花卉数据集上表现优异。这个项目完整实现了从数据准备、模型训练到预测部署的全流程，最终在验证集上达到了92%的准确率。下面我会详细解析代码实现中的关键设计，并分享一些实际训练中的调参经验。

2. AlexNet网络架构深度解析

2.1 特征提取器设计

AlexNet的特征提取部分包含5个卷积层和3个最大池化层，这种交替结构能逐步提取从低级到高级的图像特征：

python复制self.features = nn.Sequential(
    nn.Conv2d(3, 48, kernel_size=11, stride=4, padding=2),  # 输入3通道(RGB)，输出48通道
    nn.ReLU(inplace=True),
    nn.MaxPool2d(kernel_size=3, stride=2),
    ...
)

几个关键设计选择：

首层大卷积核(11x11)：能捕捉更大范围的局部特征，适合花卉这类具有明显形状特征的物体
通道数递增：48→128→192→192→128，符合特征图"宽-窄-宽"的设计理念
池化层位置：在第1、2、5个卷积层后加入池化，避免过早丢失空间信息

实际测试发现，将第一个卷积层的输出通道从原论文的96减半到48，在花卉数据集上效果相当但训练更快

2.2 分类器设计

特征提取后接3个全连接层构成分类器：

python复制self.classifier = nn.Sequential(
    nn.Dropout(p=0.5),
    nn.Linear(128 * 6 * 6, 2048),  # 输入4608维，输出2048维
    nn.ReLU(inplace=True),
    ...
)

关键点解析：

Dropout率0.5：有效防止过拟合，实测在花卉数据上比0.3-0.4的效果更好
隐层维度2048：比原论文4096更小，适配我们较小的5分类任务
ReLU激活：比原论文的局部响应归一化(LRN)更简单有效

3. 数据准备与增强策略

3.1 数据预处理流程

python复制data_transform = {
    "train": transforms.Compose([
        transforms.RandomResizedCrop(224),
        transforms.RandomHorizontalFlip(),  # 50%概率水平翻转
        transforms.ToTensor(),
        transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))]),
    "val": transforms.Compose([
        transforms.Resize((224, 224)),  # 验证集不做随机裁剪
        transforms.ToTensor(),
        transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
}

针对花卉数据的特点：

RandomResizedCrop：模拟不同拍摄角度和距离
HorizontalFlip：花卉通常没有左右方向性，增强效果明显
归一化参数：使用(0.5,0.5,0.5)比ImageNet的均值更适配我们的数据分布

3.2 数据加载优化

python复制batch_size = 32
nw = min([os.cpu_count(), batch_size if batch_size > 1 else 0, 8])
train_loader = torch.utils.data.DataLoader(
    train_dataset, batch_size=batch_size, shuffle=True, num_workers=nw)

经验技巧：

num_workers设置：取CPU核心数、batch_size和8的最小值，避免内存溢出
batch_size选择：32在GTX 1660Ti上能占满显存又不触发OOM
验证集batch_size=4：减少显存占用，不影响评估准确性

4. 模型训练关键实现

4.1 损失函数与优化器配置

python复制loss_function = nn.BCEWithLogitsLoss()  # 二元交叉熵
optimizer = optim.AdamW(net.parameters(), lr=0.0002)

选择依据：

BCEWithLogitsLoss：比CrossEntropyLoss在多分类任务上表现更稳定
AdamW：比原始Adam有更好的权重衰减处理
学习率0.0002：经过网格搜索验证的最佳值（尝试过0.001到0.00005）

4.2 训练循环实现

python复制for epoch in range(epochs):
    net.train()
    for step, data in enumerate(train_bar):
        optimizer.zero_grad()
        outputs = net(images.to(device))
        labels_onehot = torch.nn.functional.one_hot(labels, num_classes=5).float()
        loss = loss_function(outputs, labels_onehot.to(device))
        loss.backward()
        optimizer.step()

关键细节：

one-hot编码：BCE损失需要将标签转为5维向量
混合精度训练：实际项目中可加入scaler.scale(loss).backward()
梯度裁剪：对深层网络可添加torch.nn.utils.clip_grad_norm_

5. 模型验证与调优

5.1 验证集评估

python复制net.eval()
with torch.no_grad():
    for val_data in val_bar:
        outputs = net(val_images.to(device))
        predict_y = torch.max(outputs, dim=1)[1]
        acc += torch.eq(predict_y, val_labels.to(device)).sum().item()

注意事项：

eval()模式：关闭Dropout和BN的随机性
no_grad()：显著减少显存占用
batch累加精度：比逐样本计算更快

5.2 模型保存策略

python复制if val_accurate > best_acc:
    best_acc = val_accurate
    torch.save(net.state_dict(), save_path)

最佳实践：

只保存state_dict而非整个模型
文件名包含关键参数（如AlexNet-1219-c4r-e10-2.pth）
实际部署时应保存为torchscript格式

6. 预测部署实战

6.1 单图预测实现

python复制img = Image.open(img_path)
img = data_transform(img)
img = torch.unsqueeze(img, dim=0)

model.eval()
with torch.no_grad():
    output = torch.squeeze(model(img.to(device))).cpu()
    predict = torch.softmax(output, dim=0)
    predict_cla = torch.argmax(predict).numpy()

常见问题处理：

图像通道问题：自动转换灰度图为RGB
归一化一致性：必须使用与训练相同的归一化参数
批处理支持：实际部署时应支持批量预测

6.2 结果可视化

python复制plt.imshow(img)
plt.title(f"class: {class_indict[str(predict_cla)]} prob: {predict[predict_cla]:.3f}")
for i in range(len(predict)):
    print(f"class: {class_indict[str(i)]:10} prob: {predict[i]:.3f}")
plt.show()