TensorFlow实现鞋类品牌识别的CNN模型实践

Diane Lockhart

1. 项目概述

最近在做一个挺有意思的计算机视觉项目 - 用TensorFlow搭建一个鞋类识别系统。这个项目的主要目标是区分Adidas和Nike两个品牌的鞋子图片。作为一个刚入门深度学习不久的开发者，我觉得这个项目特别适合练手，既能学习卷积神经网络(CNN)的基本原理，又能掌握TensorFlow的实际应用。

项目使用的数据集包含两类图片：Adidas和Nike，每类大约280张图片。虽然数据量不算特别大，但对于学习目的来说已经足够了。整个项目从数据准备到模型训练再到评估，完整地走了一遍深度学习项目的标准流程。

2. 环境准备

2.1 硬件与软件配置

在开始之前，我先搭建好了开发环境：

Python 3.12.7：选择这个版本是因为它稳定且兼容性好
Jupyter Notebook：交互式开发环境，特别适合做数据分析和模型调试
TensorFlow 2.21.0：当前最新的稳定版本，内置Keras API

如果你有NVIDIA显卡，强烈建议配置GPU环境。TensorFlow对GPU的支持很好，能大幅提升训练速度。我的配置代码是这样的：

python复制gpus = tf.config.list_physical_devices("GPU")
if gpus:
    gpu0 = gpus[0] 
    tf.config.experimental.set_memory_growth(gpu0, True)
    tf.config.set_visible_devices([gpu0],"GPU")

这段代码做了两件事：

启用GPU内存动态增长，避免一次性占用所有显存
指定使用哪块GPU（在多GPU环境下很有用）

注意：Windows用户可能会遇到CUDA驱动兼容性问题，建议使用WSL2或者Linux系统进行开发。

2.2 必要库的安装

除了TensorFlow，还需要安装一些辅助库：

bash复制pip install matplotlib pillow numpy

这些库分别用于：

matplotlib：数据可视化
pillow(PIL)：图像处理
numpy：数值计算

3. 数据集处理

3.1 数据集结构与统计

我的数据集目录结构是这样的：

code复制./Data/46-data/
    ├── train/
    │   ├── adidas/
    │   └── nike/
    └── test/
        ├── adidas/
        └── nike/

使用pathlib库可以很方便地统计图片数量：

python复制data_dir = pathlib.Path("./Data/46-data/")
image_count = len(list(data_dir.glob('*/*/*.jpg')))
print("图片总数为：", image_count)  # 输出578

3.2 数据加载与预处理

TensorFlow提供了方便的image_dataset_from_directory方法来自动加载图片数据集：

python复制batch_size = 32
img_height = 224
img_width = 224

train_ds = tf.keras.preprocessing.image_dataset_from_directory(
    "./Data/46-data/train/",
    seed=123,
    image_size=(img_height, img_width),
    batch_size=batch_size
)

val_ds = tf.keras.preprocessing.image_dataset_from_directory(
    "./Data/46-data/test/",
    seed=123,
    image_size=(img_height, img_width),
    batch_size=batch_size
)

这里有几个关键参数：

image_size：统一调整图片大小为224x224，这是很多预训练模型的输入尺寸
batch_size：设为32，这是一个比较通用的值
seed：固定随机种子保证可复现性

3.3 数据可视化

检查数据加载是否正确很重要，我写了个简单的可视化代码：

python复制plt.figure(figsize=(20, 10))
class_names = train_ds.class_names

for images, labels in train_ds.take(1):
    for i in range(20):
        ax = plt.subplot(5, 10, i + 1)
        plt.imshow(images[i].numpy().astype("uint8"))
        plt.title(class_names[labels[i]])
        plt.axis("off")

这段代码会显示训练集中的前20张图片及其标签，确保数据加载和标注都正确。

4. 模型构建

4.1 数据管道优化

在构建模型前，先优化数据加载管道：

python复制AUTOTUNE = tf.data.AUTOTUNE

train_ds = train_ds.cache().shuffle(1000).prefetch(buffer_size=AUTOTUNE)
val_ds = val_ds.cache().prefetch(buffer_size=AUTOTUNE)

这些操作能显著提升训练效率：

cache()：将数据集缓存到内存中
shuffle(1000)：打乱数据顺序
prefetch()：预取数据，减少I/O等待时间

4.2 CNN模型设计

我设计了一个三层的卷积神经网络：

python复制model = models.Sequential([
    layers.Rescaling(1./255, input_shape=(img_height, img_width, 3)),
    
    layers.Conv2D(16, (3, 3), activation='relu'),
    layers.AveragePooling2D((2, 2)),
    layers.Conv2D(32, (3, 3), activation='relu'),
    layers.AveragePooling2D((2, 2)),
    layers.Dropout(0.3),
    layers.Conv2D(64, (3, 3), activation='relu'),
    layers.Dropout(0.3),
    
    layers.Flatten(),
    layers.Dense(128, activation='relu'),
    layers.Dense(len(class_names))
])

模型结构解析：

输入层：Rescaling层将像素值归一化到0-1范围
卷积层：三层卷积，分别使用16、32、64个3x3的卷积核
池化层：使用2x2的平均池化
Dropout：防止过拟合，丢弃率设为0.3
全连接层：128个神经元的隐藏层
输出层：输出单元数等于类别数（这里是2）

经验分享：对于这种二分类问题，网络结构不需要太复杂。我尝试过更深的网络，但效果提升不明显，反而增加了训练时间。

4.3 模型编译配置

我使用了动态调整的学习率策略：

python复制initial_learning_rate = 0.001
lr_schedule = tf.keras.optimizers.schedules.ExponentialDecay(
    initial_learning_rate,
    decay_steps=10,
    decay_rate=0.92,
    staircase=True
)

optimizer = tf.keras.optimizers.Adam(learning_rate=lr_schedule)

model.compile(
    optimizer=optimizer,
    loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    metrics=['accuracy']
)

这里有几个关键点：

初始学习率设为0.001
使用指数衰减策略，每10个step衰减一次
衰减率为0.92（即每次乘以0.92）
使用Adam优化器，它对学习率不太敏感

5. 模型训练

5.1 训练配置

我设置了两个重要的回调函数：

python复制checkpointer = ModelCheckpoint(
    'best_model.weights.h5',
    monitor='val_accuracy',
    verbose=1,
    save_best_only=True,
    save_weights_only=True
)

earlystopper = EarlyStopping(
    monitor='val_accuracy',
    min_delta=0.001,
    patience=20,
    verbose=1
)

ModelCheckpoint：只保存验证集准确率最高的模型权重
EarlyStopping：如果验证集准确率在20个epoch内提升小于0.001，就提前停止训练

5.2 训练过程

开始训练：

python复制epochs = 50
history = model.fit(
    train_ds,
    validation_data=val_ds,
    epochs=epochs,
    callbacks=[checkpointer, earlystopper]
)

训练过程中观察到：

训练准确率最高达到约90%
验证准确率稳定在73%左右
在第37个epoch时触发了早停

避坑指南：如果验证准确率明显低于训练准确率，可能是过拟合了。可以尝试增加Dropout率、使用数据增强或减少模型复杂度。

6. 模型评估

6.1 训练曲线分析

绘制训练过程中的准确率和损失曲线：

python复制acc = history.history['accuracy']
val_acc = history.history['val_accuracy']
loss = history.history['loss']
val_loss = history.history['val_loss']

plt.figure(figsize=(12, 4))
plt.subplot(1, 2, 1)
plt.plot(acc, label='Training Accuracy')
plt.plot(val_acc, label='Validation Accuracy')
plt.legend(loc='lower right')
plt.title('Accuracy')

plt.subplot(1, 2, 2)
plt.plot(loss, label='Training Loss')
plt.plot(val_loss, label='Validation Loss')
plt.legend(loc='upper right')
plt.title('Loss')
plt.show()

从曲线可以看出：

训练准确率持续上升，但验证准确率在后期波动不大
没有明显的过拟合现象，但模型可能还有提升空间

6.2 模型测试

加载最佳模型权重进行测试：

python复制model.load_weights('best_model.weights.h5')

img = Image.open("./Data/46-data/test/adidas/1.jpg")
image = tf.image.resize(img, [img_height, img_width])
img_array = tf.expand_dims(image, 0)

predictions = model.predict(img_array)
print("预测结果为：", class_names[np.argmax(predictions)])

测试结果正确识别出了Adidas的鞋子图片。