PyTorch实战：构建新冠感染人数预测模型-AI智能范式网

PyTorch实战：构建新冠感染人数预测模型

我说老李你说黑

1. 项目背景与目标

这个项目来源于Kaggle上的一个经典机器学习竞赛任务，目标是建立一个能够预测新冠感染人数的回归模型。作为一名长期从事机器学习实战的工程师，我认为这类时间序列预测问题在实际工作中非常具有代表性。医疗资源调配、公共卫生政策制定等领域都需要这类预测模型的支持。

在本次实战中，我们将使用PyTorch框架构建一个完整的回归模型流水线。与分类问题不同，回归任务需要预测连续数值，这对数据预处理、模型设计和评估指标都提出了特殊要求。通过这个项目，你不仅能掌握基础的深度学习建模流程，还能学到处理真实世界数据的关键技巧。

2. 数据准备与预处理

2.1 数据集划分策略

在机器学习项目中，合理划分数据集是确保模型泛化能力的基础。我们通常将数据分为三个互斥的子集：

训练集：用于模型参数学习的主要数据集。在这个项目中，我们采用了约80%的数据作为训练集。关键点在于要确保数据分布的多样性，覆盖各种可能的输入情况。
验证集：用于在训练过程中监控模型表现。我们采用了"逢五取一"的简单划分方法（即每5个样本取1个作为验证集）。虽然这种方法不如随机抽样严谨，但在数据量较大且分布均匀时仍可接受。
测试集：完全独立于训练过程，用于最终评估模型性能。在真实项目中，测试集应该来自与训练数据不同时间段的样本，以检验模型的时序泛化能力。

注意事项：在实际应用中，我强烈建议使用sklearn的train_test_split函数进行随机划分，并设置固定random_state以保证可复现性。对于时间序列数据，更应该按时间顺序划分，避免未来信息泄露。

2.2 数据标准化处理

原始数据通常包含多个特征，这些特征可能具有不同的量纲和取值范围。如果不进行处理，数值范围大的特征可能会主导模型训练。我们采用了Z-score标准化方法：

python复制self.X = (X - X.mean(dim=0, keepdim=True)) / X.std(dim=0, keepdim=True)

这种方法的优势在于：

将数据转换为均值为0、标准差1的标准正态分布
保留了原始数据的分布形状
对异常值有一定的鲁棒性

在实际操作中，需要注意：

只能使用训练集的均值和标准差来标准化验证集和测试集
对于稀疏数据或含有异常值的数据，可以考虑使用RobustScaler
分类特征需要进行独热编码等其他处理

2.3 Dataset类实现细节

PyTorch的Dataset类是我们处理数据的核心工具。下面详细解析代码中的关键点：

python复制class CovidDataset(Dataset):
    def __init__(self, file_path, mode):
        # 读取CSV文件并转换为numpy数组
        with open(file_path, "r") as f:
            ori_data = list(csv.reader(f))
            csv_data = np.array(ori_data)[1:, 1:].astype(float)
        
        # 根据模式选择数据索引
        if mode == "train":
            indices = [i for i in range(len(csv_data)) if i % 5 != 0]
        elif mode == "val":
            indices = [i for i in range(len(csv_data)) if i % 5 == 0]
        
        # 分离特征和目标
        X = torch.tensor(csv_data[indices, :93])
        if mode != "test":
            self.Y = torch.tensor(csv_data[indices, -1])
        
        # 标准化处理
        self.X = (X - X.mean(dim=0, keepdim=True)) / X.std(dim=0, keepdim=True)

几个值得注意的实现细节：

使用Python的csv模块读取文件比pandas更轻量
切片操作[1:, 1:]跳过了首行(标题)和首列(可能是ID)
将数据转换为torch.Tensor时自动实现了内存共享，比后续转换更高效
在GPU训练时，可以考虑在Dataset中就将数据转移到GPU

3. 模型架构设计

3.1 基础网络结构

我们构建了一个简单的全连接神经网络，结构如下：

python复制class myModel(nn.Module):
    def __init__(self, inDim):
        super(myModel, self).__init__()
        self.fc1 = nn.Linear(inDim, 128)  # 输入层到隐藏层
        self.relu1 = nn.ReLU()            # 激活函数
        self.fc2 = nn.Linear(128, 1)      # 隐藏层到输出层

    def forward(self, x):
        x = self.fc1(x)
        x = self.relu1(x)
        x = self.fc2(x)
        return x

这个结构虽然简单，但包含了深度学习模型的几个关键组件：

全连接层(nn.Linear)：实现特征的线性变换
激活函数(nn.ReLU)：引入非线性，增强模型表达能力
前向传播方法(forward)：定义数据流动路径

对于回归任务，输出层通常不使用激活函数，因为我们需要模型能输出任意范围的数值。

3.2 关键实现细节解析

super()函数的正确使用：

python复制super(myModel, self).__init__()

这行代码确保了父类nn.Module的初始化方法被正确调用。在PyTorch中，这是必须的步骤，因为它为模型设置了基础属性和方法。

nn.Module的特性：

自动跟踪所有注册的nn.Parameter
提供parameters()方法迭代所有可训练参数
支持模型保存和加载
提供train()和eval()模式切换

ReLU激活函数的选择：

计算简单，训练速度快
缓解梯度消失问题
可能导致神经元"死亡"（输出恒为0）
对于回归任务，隐藏层使用ReLU通常效果不错

3.3 模型复杂度分析

我们的模型有两个全连接层：

第一层：输入维度93 → 128，参数数量 = 93×128 + 128 = 12,032
第二层：128 → 1，参数数量 = 128×1 + 1 = 129
总参数：12,161

这是一个非常轻量级的模型，适合作为基线模型。在实际应用中，可以根据数据量和问题复杂度调整：

增加隐藏层数量
调整每层神经元数量
添加BatchNorm层
使用Dropout防止过拟合

4. 训练流程实现

4.1 DataLoader配置

DataLoader是PyTorch中高效加载数据的工具，我们的配置如下：

python复制batch_size = 16
train_loader = DataLoader(train_set, batch_size=batch_size, shuffle=True)

关键参数说明：

batch_size：影响训练速度和内存使用。太小会导致训练不稳定，太大可能降低模型性能。一般从32或64开始尝试。
shuffle：训练集必须打乱顺序，避免模型学习到数据顺序信息。
num_workers：多进程加载数据，建议设置为CPU核心数的2-4倍（本例中未使用）。

4.2 训练循环示例

一个基本的训练循环如下：

python复制model = myModel(datadim)
criterion = nn.MSELoss()  # 回归任务常用均方误差损失
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

for epoch in range(100):
    model.train()
    for x, y in train_loader:
        optimizer.zero_grad()
        pred = model(x)
        loss = criterion(pred, y)
        loss.backward()
        optimizer.step()
    
    # 验证集评估
    model.eval()
    with torch.no_grad():
        val_loss = 0
        for x, y in val_loader:
            pred = model(x)
            val_loss += criterion(pred, y)
        val_loss /= len(val_loader)
    
    print(f"Epoch {epoch}, Train Loss: {loss.item():.4f}, Val Loss: {val_loss:.4f}")

4.3 关键训练技巧

学习率选择：

从0.001开始尝试（Adam优化器的默认值）
太大可能导致震荡，太小收敛慢
可以使用学习率调度器动态调整

早停(Early Stopping)：
当验证集损失连续多个epoch不下降时停止训练，防止过拟合：

python复制best_loss = float('inf')
patience = 5
counter = 0

for epoch in range(100):
    # ...训练代码...
    
    if val_loss < best_loss:
        best_loss = val_loss
        counter = 0
        torch.save(model.state_dict(), 'best_model.pth')
    else:
        counter += 1
        if counter >= patience:
            print("Early stopping")
            break

损失函数选择：

MSE（均方误差）：对异常值敏感
MAE（平均绝对误差）：更鲁棒
Huber Loss：结合MSE和MAE优点

5. 模型评估与优化

5.1 评估指标选择

对于回归任务，常用的评估指标包括：

均方误差(MSE)：

python复制mse = nn.MSELoss()(predictions, targets)

平均绝对误差(MAE)：

python复制mae = nn.L1Loss()(predictions, targets)

R²分数：表示模型解释的方差比例

python复制from sklearn.metrics import r2_score
r2 = r2_score(targets, predictions)

在实际项目中，应该根据业务需求选择合适的指标。例如，在医疗预测中，可能更关注预测值与真实值的相对误差。

5.2 常见问题排查

问题1：损失不下降
可能原因：

学习率设置不当
数据未正确标准化
模型容量不足
特征与目标无关

解决方案：

尝试不同的学习率
检查数据预处理流程
增加模型复杂度
进行特征相关性分析

问题2：验证集损失波动大
可能原因：

batch size太小
学习率太高
验证集样本不足