PyTorch实战：CNN实现MNIST手写数字识别

血管瘤专家孔强

1. 从零开始构建MNIST手写数字识别模型

作为一名计算机视觉方向的工程师，MNIST手写数字识别往往是我们的第一个深度学习实战项目。这个看似简单的任务蕴含着深度学习的基础原理和关键技巧。今天我将分享自己构建卷积神经网络(CNN)识别MNIST的全过程，包括模型设计、训练技巧和性能优化。

MNIST数据集包含60,000张28x28像素的手写数字灰度图像，共10个类别(0-9)。虽然图像尺寸小，但完整实现一个识别系统需要考虑数据预处理、模型架构、训练策略等多个环节。下面我将分步骤详细解析每个环节的实现细节。

2. 环境准备与数据加载

2.1 必要的Python库导入

深度学习项目首先需要配置合适的开发环境。我们使用PyTorch框架，它提供了丰富的神经网络层实现和自动微分功能：

python复制import time
import torch
import numpy as np
import torch.nn as nn
from matplotlib import pyplot as plt
from torchvision import transforms
from torchvision import datasets
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader
import random
import os

关键库说明：

torch.nn：包含各种神经网络层和损失函数
torchvision：提供计算机视觉相关的数据集和图像变换
DataLoader：实现数据批量加载和预处理

2.2 数据预处理与加载

MNIST数据需要经过适当的预处理才能输入模型。PyTorch的torchvision.datasets模块已经内置了MNIST数据集接口：

python复制transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.1307,), (0.3081,))
])

full_dataset = datasets.MNIST(root='./data/mnist', 
                             train=True, 
                             transform=transform, 
                             download=True)
test_dataset = datasets.MNIST(root='./data/mnist', 
                             train=False, 
                             transform=transform)

预处理包含两个关键步骤：

ToTensor()：将PIL图像转换为PyTorch张量，并自动归一化到[0,1]范围
Normalize()：使用MNIST全局均值(0.1307)和标准差(0.3081)进行标准化

提示：标准化可以加速模型收敛，这些统计量是官方在完整MNIST训练集上预先计算好的。

我们将训练集进一步划分为训练集和验证集：

python复制train_size = 55000
val_size = 5000
train_dataset, val_dataset = torch.utils.data.random_split(
    full_dataset, [train_size, val_size],
    generator=torch.Generator().manual_seed(42))

使用DataLoader实现批量加载：

python复制batch_size = 64
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=batch_size, shuffle=False)
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)

注意：验证集和测试集不需要打乱(shuffle=False)，只有训练集需要随机打乱以增强泛化能力。

3. CNN模型设计与实现

3.1 模型架构设计

针对28x28的小尺寸图像，我设计了一个轻量级CNN结构：

python复制class myModel(nn.Module):
    def __init__(self, class_num=10):
        super().__init__()
        self.layer1 = nn.Sequential(
            nn.Conv2d(1, 32, 3, 1, 1),
            nn.ReLU(),
            nn.Conv2d(32, 32, 3, 1, 1),
            nn.ReLU(),
            nn.MaxPool2d(2)  # 32 * 14 * 14
        )
        
        self.layer2 = nn.Sequential(
            nn.Conv2d(32, 64, 3, 1, 1),
            nn.ReLU(),
            nn.Conv2d(64, 64, 3, 1, 1),
            nn.ReLU(),
            nn.MaxPool2d(2)  # 64 * 7 * 7
        )
        
        self.layer3 = nn.Sequential(
            nn.Linear(3136, 1024),
            nn.ReLU(),
            nn.Linear(1024, 512),
            nn.ReLU(),
            nn.Linear(512, 10)
        )

架构特点：

两个卷积块，每个包含两次卷积+ReLU激活，最后接最大池化
全连接层逐步降维到10类输出
使用ReLU激活函数避免梯度消失
卷积核尺寸3x3，步长1，padding=1保持空间尺寸

3.2 前向传播实现

python复制def forward(self, x):
    x = self.layer1(x)  # 1*28*28 -> 32*14*14
    x = self.layer2(x)  # 32*14*14 -> 64*7*7
    x = torch.flatten(x, 1)  # 展平为向量
    x = self.layer3(x)  # 全连接层
    return x

关键点：卷积到全连接层需要展平操作，否则会出现维度不匹配错误。这里使用torch.flatten(x,1)保持batch维度，只展平特征维度。

3.3 模型参数量分析

通过打印模型摘要可以看到：

code复制Layer (type)               Output Shape         Param #
=======================================================
Conv2d-1            [-1, 32, 28, 28]             320
Conv2d-2            [-1, 32, 28, 28]           9,248
MaxPool2d-3         [-1, 32, 14, 14]               0
Conv2d-4            [-1, 64, 14, 14]          18,496
Conv2d-5            [-1, 64, 14, 14]          36,928
MaxPool2d-6           [-1, 64, 7, 7]               0
Linear-7                  [-1, 1024]         3,212,288
Linear-8                   [-1, 512]           524,800
Linear-9                    [-1, 10]             5,130
=======================================================
Total params: 3,807,210
Trainable params: 3,807,210

虽然全连接层参数量较大，但卷积层通过参数共享保持了高效率。相比纯全连接网络，CNN在保持高性能的同时大幅减少了参数量。

4. 模型训练与验证

4.1 训练配置

python复制# 超参数设置
batch_size = 64
learning_rate = 0.001
momentum = 0.5
EPOCH = 20

# 设备选择
device = "cuda" if torch.cuda.is_available() else "cpu"

# 模型初始化
model = myModel(10).to(device)
loss_fn = nn.CrossEntropyLoss()
optimizer = torch.optim.AdamW(model.parameters(), lr=learning_rate, weight_decay=1e-4)

关键选择说明：

优化器：AdamW结合了Adam的优点和正确的权重衰减实现
学习率：0.001是经过实验验证的合适值
权重衰减：1e-4的正则化强度防止过拟合

4.2 学习率选择经验

在初步实验中，我对比了不同学习率的表现：

学习率	训练表现	原因分析
0.01	无法收敛	步长过大，在最优解附近震荡
0.001	稳定收敛	适合当前模型复杂度
0.0001	收敛缓慢	步长过小，训练效率低

最终选择0.001作为平衡点，既保证收敛速度又确保训练稳定性。

4.3 训练循环实现

完整的训练流程包括训练和验证两个阶段：

python复制def train_val(model, train_loader, val_loader, optimizer, loss_fn, epochs, device):
    model = model.to(device)
    history = {'train_loss': [], 'val_loss': [], 
               'train_acc': [], 'val_acc': []}
    best_acc = 0.0
    
    for epoch in range(epochs):
        # 训练阶段
        model.train()
        train_loss, train_correct = 0.0, 0
        for x, y in train_loader:
            x, y = x.to(device), y.to(device)
            
            optimizer.zero_grad()
            output = model(x)
            loss = loss_fn(output, y)
            loss.backward()
            optimizer.step()
            
            train_loss += loss.item()
            train_correct += (output.argmax(1) == y).sum().item()
        
        # 验证阶段
        model.eval()
        val_loss, val_correct = 0.0, 0
        with torch.no_grad():
            for x, y in val_loader:
                x, y = x.to(device), y.to(device)
                output = model(x)
                val_loss += loss_fn(output, y).item()
                val_correct += (output.argmax(1) == y).sum().item()
        
        # 记录指标
        train_loss /= len(train_loader)
        train_acc = train_correct / len(train_loader.dataset)
        val_loss /= len(val_loader)
        val_acc = val_correct / len(val_loader.dataset)
        
        history['train_loss'].append(train_loss)
        history['train_acc'].append(train_acc)
        history['val_loss'].append(val_loss)
        history['val_acc'].append(val_acc)
        
        # 保存最佳模型
        if val_acc > best_acc:
            torch.save(model.state_dict(), 'best_model.pth')
            best_acc = val_acc
        
        print(f'Epoch {epoch+1}/{epochs}: '
              f'Train Loss: {train_loss:.4f}, Acc: {train_acc:.4f} | '
              f'Val Loss: {val_loss:.4f}, Acc: {val_acc:.4f}')
    
    return history

关键训练技巧：

model.train()和model.eval()正确切换训练/评估模式
梯度清零、反向传播、参数更新三步顺序不能错
验证阶段使用torch.no_grad()禁用梯度计算
按照验证集准确率保存最佳模型

4.4 训练过程监控

训练过程中记录并可视化关键指标：

python复制history = train_val(model, train_loader, val_loader, 
                   optimizer, loss_fn, EPOCH, device)

plt.figure(figsize=(12, 4))
plt.subplot(1, 2, 1)
plt.plot(history['train_loss'], label='Train')
plt.plot(history['val_loss'], label='Validation')
plt.title('Loss Curve')
plt.legend()

plt.subplot(1, 2, 2)
plt.plot(history['train_acc'], label='Train')
plt.plot(history['val_acc'], label='Validation')
plt.title('Accuracy Curve')
plt.legend()
plt.show()

典型的训练曲线应显示：

训练和验证损失同步下降
准确率同步上升
没有明显的过拟合迹象（验证指标不恶化）

5. 模型评估与对比实验

5.1 测试集评估

加载最佳模型进行最终测试：

python复制model.load_state_dict(torch.load('best_model.pth'))
model.eval()

test_correct = 0
with torch.no_grad():
    for x, y in test_loader:
        x, y = x.to(device), y.to(device)
        output = model(x)
        test_correct += (output.argmax(1) == y).sum().item()

test_acc = test_correct / len(test_loader.dataset)
print(f'Test Accuracy: {test_acc:.4f}')

在MNIST测试集上，这个简单CNN通常能达到98.5%以上的准确率。

5.2 CNN与全连接网络对比

为了验证CNN的有效性，我实现了一个纯全连接网络作为对比：

python复制class FCN(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc = nn.Sequential(
            nn.Linear(28*28, 512),
            nn.ReLU(),
            nn.Linear(512, 256),
            nn.ReLU(),
            nn.Linear(256, 10)
        )
    
    def forward(self, x):
        x = torch.flatten(x, 1)
        return self.fc(x)