泰坦尼克号生存预测：从数据预处理到深度学习模型优化

十一爱吃瓜

1. 项目概述

泰坦尼克号生存预测是数据挖掘和机器学习领域的经典入门项目。这个项目通过分析乘客数据（如年龄、性别、舱位等）来预测他们在海难中的生存概率。作为数据科学领域的"Hello World"，它完美涵盖了数据预处理、特征工程、模型训练和评估等完整流程。

我在最近的教学实践中，带领学生用Jupyter Notebook完整复现了这个项目。与常见的简单实现不同，我们深入探索了传统机器学习模型与深度学习模型的对比，并创新性地引入了注意力机制来提升预测效果。整个项目包含超过1万字的详细技术报告、完整的设计源文件以及配套讲解资料。

2. 数据理解与预处理

2.1 原始数据分析

泰坦尼克号数据集包含以下关键特征：

乘客ID
生存状态（目标变量）
舱位等级（Pclass）
姓名
性别
年龄
同船兄弟姐妹/配偶数量（SibSp）
同船父母/子女数量（Parch）
船票号码
票价
客舱号
登船港口

初始探索性分析(EDA)显示数据存在几个关键问题：

年龄字段约有20%缺失值
客舱号缺失严重（约77%）
登船港口有少量缺失
票价分布极度右偏

2.2 数据清洗策略

针对这些问题，我们实施了以下处理：

缺失值处理：

年龄：采用基于舱位和性别的中位数填充
客舱号：将缺失视为单独类别"Unknown"
登船港口：用众数"S"填充

异常值处理：

票价：对大于100的极端值进行Winsorize处理（替换为99百分位值）
年龄：将大于80的极少数值归入80+组

特征转换：

姓名：提取称呼（Mr/Mrs/Miss等）作为新特征
票价：对数变换改善分布
客舱号：提取首字母表示区域

注意：在填充年龄时，我们发现头等舱乘客的平均年龄显著高于其他舱位，因此必须分舱位进行填充，避免引入偏差。

3. 特征工程深度解析

3.1 基础特征构建

家庭规模：
```
python复制df['FamilySize'] = df['SibSp'] + df['Parch'] + 1
```
通过分析发现，中等规模家庭（2-4人）生存率最高，独身乘客和超大家庭生存率较低。
称呼提取：
```
python复制df['Title'] = df.Name.str.extract(' ([A-Za-z]+)\.', expand=False)
```
将非常见称呼归类为"Rare"，发现"Mrs"和"Miss"生存率显著高于"Mr"。
年龄段分组：
将连续年龄离散化为：
- 儿童(0-12)
- 青少年(13-19)
- 成人(20-55)
- 长者(55+)

3.2 高级特征工程

票价/舱位交互特征：
创建"票价与舱位中位数比"特征，反映乘客在其舱位中的相对消费水平。
家庭生存率编码：
计算每个姓氏在训练集中的平均生存率，作为新特征。这需要小心处理数据泄漏问题。
客舱位置推断：
对已知客舱，根据首字母推断甲板位置（A-G），未知的统一编码。

3.3 特征选择

使用递归特征消除(RFE)和基于重要性的方法，最终保留以下特征：

性别（最重要）
舱位等级
票价
年龄
家庭规模
称呼
登船港口
客舱区域

4. 模型构建与优化

4.1 传统机器学习模型

随机森林实现：

python复制from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(
    n_estimators=500,
    max_depth=6,
    min_samples_leaf=4,
    class_weight='balanced',
    random_state=42
)

关键参数选择依据：

n_estimators：通过早停法确定500棵树足够
max_depth=6：防止过拟合
min_samples_leaf=4：确保每个叶节点有足够样本
class_weight：处理生存率不平衡(约38:62)

SVM实现要点：

使用RBF核函数
标准化所有特征
通过网格搜索优化C和gamma参数

BP神经网络架构：

输入层：12个特征
隐藏层：2层，每层64个神经元，ReLU激活
输出层：Sigmoid激活
Dropout率：0.3
优化器：Adam(lr=0.001)

4.2 深度学习模型创新

基础LSTM模型：

将每个乘客视为时间序列中的一个时间步
嵌入层处理类别特征
32单元LSTM层
最终准确率：82.3%

注意力机制增强：

python复制class AttentionLayer(tf.keras.layers.Layer):
    def call(self, inputs):
        query = tf.keras.layers.Dense(64)(inputs)
        key = tf.keras.layers.Dense(64)(inputs)
        value = tf.keras.layers.Dense(64)(inputs)
        attention_scores = tf.matmul(query, key, transpose_b=True)
        attention_scores = tf.nn.softmax(attention_scores, axis=-1)
        return tf.matmul(attention_scores, value)

多头注意力LSTM(MHA-LSTM)：

输入嵌入层
4头注意力机制
64单元LSTM
全连接层
最终准确率提升至84.7%

5. 模型评估与对比

5.1 评估指标选择

除常规准确率外，我们更关注：

召回率（实际生存者中被正确预测的比例）
精确率（预测为生存者中实际生存的比例）
F1分数（召回与精确的调和平均）
AUC-ROC曲线

5.2 性能对比

模型	准确率	召回率	精确率	F1分数	AUC
随机森林	82.1%	75.3%	80.2%	77.6%	0.872
SVM	79.8%	70.1%	78.9%	74.2%	0.843
BP神经网络	81.5%	73.8%	79.6%	76.6%	0.861
基础LSTM	82.3%	76.1%	80.9%	78.4%	0.879
MHA-LSTM	84.7%	79.2%	83.1%	81.1%	0.901

5.3 关键发现

注意力机制有效提升了模型对重要特征的关注度
性别和舱位始终是最具预测力的特征
深度学习模型在大型数据集上优势更明显
传统模型在小样本场景下表现稳定

6. 完整实现流程

6.1 Jupyter Notebook环境配置

推荐使用Anaconda创建专用环境：

bash复制conda create -n titanic python=3.8
conda activate titanic
pip install jupyter pandas scikit-learn tensorflow matplotlib seaborn

6.2 代码结构组织

code复制titanic-project/
├── data/
│   ├── train.csv
│   └── test.csv
├── notebooks/
│   ├── 1_eda_preprocessing.ipynb
│   ├── 2_feature_engineering.ipynb
│   ├── 3_model_training.ipynb
│   └── 4_evaluation.ipynb
├── models/
│   ├── random_forest.pkl
│   └── mha_lstm.h5
└── reports/
    └── final_report.pdf