Matlab实现CNN图像分类：猫狗大战实战教程

Diane Lockhart

1. 项目概述

在计算机视觉领域，图像分类是最基础也最重要的任务之一。作为一名长期从事机器学习开发的工程师，我发现很多初学者在学习卷积神经网络(CNN)时，往往会被各种框架和复杂的理论吓退。实际上，使用Matlab这个强大的数学计算平台，我们可以用相对简单的代码实现一个完整的CNN图像分类项目。

这次我们要处理的是经典的"猫狗大战"数据集，包含4000张图像（2000张猫和2000张狗）。这个项目特别适合想要入门深度学习的朋友，因为它：

展示了完整的CNN工作流程
提供了GPU和CPU两种版本
代码注释详细，可以直接运行
方便扩展到其他数据集

提示：虽然这个项目的网络结构比较简单，数据量也不大，但它的价值在于提供了一个清晰的学习模板。在实际应用中，你可以基于这个框架进行各种改进和优化。

2. 数据集准备与划分

2.1 数据集介绍与加载

猫狗大战数据集是一个经典的二分类数据集，包含猫和狗两类图像。在Matlab中，我们可以使用imageDatastore来高效地加载和管理这些图像数据。

matlab复制% 设置数据集路径
imageDir = 'path_to_cat_dog_dataset'; 

% 创建图像数据存储
imds = imageDatastore(imageDir, ...
    'IncludeSubfolders', true, ...
    'LabelSource', 'foldernames');

这里有几个关键点需要注意：

IncludeSubfolders设为true表示会包含子文件夹中的图像
LabelSource设为'foldernames'表示使用文件夹名作为类别标签
默认情况下，Matlab会保持图像原始大小，但CNN通常需要固定尺寸输入

2.2 数据集划分策略

我们将数据集划分为三部分：

训练集：70%（用于模型训练）
验证集：10%（用于调参和早停）
测试集：20%（用于最终评估）

matlab复制% 获取图像总数
numImages = numel(imds.Files);

% 生成随机排列索引
idx = randperm(numImages); 

% 划分索引
trainIdx = idx(1:round(numImages*0.7));
valIdx = idx(round(numImages*0.7)+1:round(numImages*0.8));
testIdx = idx(round(numImages*0.8)+1:end);

% 创建子数据集
trainDS = subset(imds, trainIdx);
valDS = subset(imds, valIdx);
testDS = subset(imds, testIdx);

注意：随机打乱数据非常重要，可以避免数据顺序带来的偏差。在划分前一定要先打乱顺序。

3. CNN网络架构设计

3.1 GPU版本网络结构

我们的GPU版本采用三层卷积结构，每层都包含：

卷积层
批归一化层
ReLU激活层
最大池化层

matlab复制layers = [
    % 输入层 - 假设图像已调整为224x224x3
    imageInputLayer([224 224 3])
    
    % 第一卷积块
    convolution2dLayer(3, 16, 'Padding', 'same')
    batchNormalizationLayer
    reluLayer
    maxPooling2dLayer(2, 'Stride', 2)
    
    % 第二卷积块
    convolution2dLayer(3, 32, 'Padding', 'same')
    batchNormalizationLayer
    reluLayer
    maxPooling2dLayer(2, 'Stride', 2)
    
    % 第三卷积块
    convolution2dLayer(3, 64, 'Padding', 'same')
    batchNormalizationLayer
    reluLayer
    maxPooling2dLayer(2, 'Stride', 2)
    
    % 分类头
    fullyConnectedLayer(2)  % 二分类输出
    softmaxLayer
    classificationLayer];

网络设计要点解析：

卷积核大小设为3x3，这是CNN中的常用尺寸
'same'填充保持特征图尺寸不变
滤波器数量逐层增加(16→32→64)，这是CNN的典型模式
每层后都添加批归一化，可以加速训练并提高稳定性

3.2 CPU版本网络简化

考虑到CPU计算资源有限，我们对网络做了以下简化：

减少一层卷积块
使用更小的数据集(1000张图像)
去掉验证集

matlab复制smallLayers = [
    imageInputLayer([224 224 3])
    
    % 第一卷积块
    convolution2dLayer(3, 16, 'Padding', 'same')
    batchNormalizationLayer
    reluLayer
    maxPooling2dLayer(2, 'Stride', 2)
    
    % 第二卷积块
    convolution2dLayer(3, 32, 'Padding', 'same')
    batchNormalizationLayer
    reluLayer
    maxPooling2dLayer(2, 'Stride', 2)
    
    % 分类头
    fullyConnectedLayer(2)
    softmaxLayer
    classificationLayer];

4. 训练配置与优化

4.1 GPU版本训练设置

matlab复制options = trainingOptions('adam', ...
    'MaxEpochs', 10, ...
    'InitialLearnRate', 0.001, ...
    'ValidationData', valDS, ...
    'ValidationFrequency', 30, ...
    'Verbose', false, ...
    'Plots', 'training-progress', ...
    'ExecutionEnvironment', 'auto');

关键参数说明：

优化器：Adam，适合大多数CNN任务
学习率：0.001是常用初始值
验证频率：每30个iteration验证一次
ExecutionEnvironment：'auto'会自动选择GPU(如果可用)

4.2 CPU版本训练设置

matlab复制smallOptions = trainingOptions('adam', ...
    'MaxEpochs', 10, ...
    'InitialLearnRate', 0.001, ...
    'Verbose', false, ...
    'Plots', 'training-progress', ...
    'ExecutionEnvironment', 'cpu');

主要区别：

去掉了验证集相关设置
明确指定使用CPU执行

5. 模型训练与监控

5.1 启动训练过程

GPU版本训练：

matlab复制net = trainNetwork(trainDS, layers, options);

CPU版本训练：

matlab复制smallNet = trainNetwork(smallTrainDS, smallLayers, smallOptions);

训练过程中，Matlab会显示一个训练进度窗口，包含以下重要信息：

训练准确率和损失曲线
验证准确率和损失曲线(如果有验证集)
当前epoch和iteration进度
剩余时间估计

5.2 训练过程常见问题

损失不下降：
- 检查学习率是否合适
- 确认数据加载是否正确
- 尝试增加网络深度
过拟合：
- 增加数据增强
- 添加Dropout层
- 减少网络复杂度
训练速度慢：
- 减小批量大小
- 使用GPU加速
- 简化网络结构

6. 模型评估与分析

6.1 测试集评估

GPU版本评估代码：

matlab复制% 预测测试集
YPred = classify(net, testDS);
YTest = testDS.Labels;

% 计算准确率
accuracy = sum(YPred == YTest)/numel(YTest);
fprintf('测试准确率: %.2f%%\n', accuracy*100);

% 混淆矩阵
confMat = confusionmat(YTest, YPred);
figure;
confusionchart(confMat, {'Cat', 'Dog'});
title('分类混淆矩阵');

6.2 结果分析要点

准确率解读：
- 随机猜测的基准是50%
- 我们的简单模型通常能达到70-80%的准确率
- 要同时关注两类别的表现
混淆矩阵分析：
- 对角线元素表示正确分类的数量
- 非对角线元素显示混淆情况
- 可以计算精确率、召回率等指标
改进方向：
- 增加数据量
- 使用更深的网络(如ResNet)
- 添加数据增强
- 调整超参数

7. 实际应用建议

扩展到其他数据集：
- 只需替换数据路径
- 调整全连接层的输出维度
- 可能需要调整输入图像尺寸
性能优化技巧：
- 使用预训练模型进行迁移学习
- 尝试不同的优化器和学习率策略
- 实现早停(Early Stopping)防止过拟合
部署注意事项：
- 使用saveNetwork保存训练好的模型
- 部署时注意输入数据的预处理
- 考虑使用MATLAB Compiler生成独立应用