酒店推荐系统实战：机器学习算法与工程实践

爱过河的小马锅

1. 项目背景与核心价值

作为一名在推荐系统领域摸爬滚打多年的工程师，我见过太多"纸上谈兵"的毕业设计项目。今天要分享的这个酒店推荐系统，是我指导过的一个真实本科毕业设计案例，它成功融合了机器学习算法与工程实践，最终获得了校级优秀论文奖。不同于市面上那些只跑通Demo就交差的毕设，这个项目从数据采集、特征工程到线上部署都经过了完整闭环验证。

为什么酒店推荐值得用机器学习来做？传统基于规则的推荐（比如按价格排序）存在三个致命缺陷：一是无法捕捉用户潜在偏好（比如某用户总选健身房好的酒店但从不主动筛选）；二是难以处理多维特征组合（价格+位置+设施的综合考量）；三是冷启动问题严重。而机器学习模型通过分析用户历史行为数据，能自动学习到"商务旅客偏好安静房间"、"家庭用户关注儿童设施"等隐藏规律。

这个项目的技术栈选择也很有代表性：

前端：Bootstrap + ECharts（快速构建可视化界面）
后端：Django REST Framework（提供API服务）
算法层：Scikit-learn + Surprise（经典机器学习库）
数据处理：Pandas + NumPy（数据清洗必备工具）
数据库：MySQL + Redis（关系型+缓存组合）

提示：选择Django而非Flask是因为毕业设计需要展示完整的MVC架构，且Admin后台能快速生成数据管理界面，方便答辩演示。

2. 系统架构设计解析

2.1 整体架构设计

系统采用典型的三层架构，但针对推荐场景做了特殊优化：

code复制用户层
├─ 前端展示（Bootstrap）
├─ 交互逻辑（jQuery）
└─ 可视化（ECharts）
　　
服务层
├─ 推荐API（Django REST）
├─ 用户认证（JWT）
└─ 日志收集（Celery）
　　
数据层
├─ 特征存储（MySQL）
├─ 实时缓存（Redis）
└─ 模型文件（HDF5）

这种架构的优势在于：

前后端完全解耦，便于单独扩展（比如APP端复用相同API）
推荐服务与主业务分离，通过Redis减轻数据库压力
异步任务处理用户行为日志，避免阻塞主流程

2.2 数据流设计

推荐系统的核心在于数据流动效率。我们设计的流水线包含四个关键环节：

离线训练（每日凌晨执行）
- 从MySQL导出用户行为数据
- 使用Pandas进行特征工程
- 训练XGBoost模型和协同过滤模型
- 模型评估后存入HDF5文件

在线推荐（实时响应）

python复制def recommend_hotels(user_id):
    # 从Redis读取实时特征
    user_features = redis.get(f'user:{user_id}')
    # 加载预训练模型
    model = load_model('xgb_20230515.h5')
    # 生成推荐得分
    scores = model.predict(user_features)
    # 混合协同过滤结果
    cf_scores = cf_model.recommend(user_id)
    return hybrid_sort(scores, cf_scores)

反馈收集（异步处理）
- 用户点击、收藏、预订等行为通过Celery异步队列写入数据库
- 重要特征实时更新到Redis
AB测试（关键创新点）
- 采用Bandit算法动态分配推荐策略
- 新用户30%走热门推荐，70%走特征匹配

3. 核心算法实现细节

3.1 特征工程实战

酒店推荐的特征构建比想象中复杂，我们最终确定了7大类特征：

特征类型	示例字段	处理方式
用户静态特征	年龄、职业、会员等级	One-Hot编码
用户动态特征	最近点击品类、价格敏感度	滑动窗口统计
酒店属性特征	星级、设施、位置评分	标准化处理
上下文特征	季节、节假日、当前城市	人工分段离散化
交互特征	用户-酒店历史评分	矩阵分解降维
交叉特征	商务客×会议室面积	特征积+分箱
图关系特征	相似用户偏好传播	Graph Embedding >

处理技巧：

对价格类特征做对数变换缓解长尾分布
使用Target Encoding处理高基数类别特征
通过聚类生成酒店相似度特征

3.2 模型训练要点

我们对比了三种经典算法：

协同过滤（Surprise库实现）

python复制from surprise import SVD
from surprise import Dataset
from surprise.model_selection import cross_validate

data = Dataset.load_builtin('ml-100k')
algo = SVD(n_factors=100, n_epochs=20, lr_all=0.005, reg_all=0.1)
cross_validate(algo, data, measures=['RMSE'], cv=5, verbose=True)

优势：不需要特征工程，适合行为数据丰富场景
劣势：冷启动问题严重，难以解释推荐结果

XGBoost分类模型

python复制import xgboost as xgb

params = {
    'max_depth': 6,
    'learning_rate': 0.1,
    'subsample': 0.8,
    'colsample_bytree': 0.8,
    'objective': 'binary:logistic',
    'eval_metric': 'auc'
}
dtrain = xgb.DMatrix(X_train, label=y_train)
model = xgb.train(params, dtrain, num_boost_round=200)

关键参数说明：
- max_depth：控制树复杂度，防止过拟合
- subsample：样本采样比例，增强泛化能力
- colsample_bytree：特征采样比例

Wide & Deep混合模型
- Wide部分：记忆用户明确偏好（如特定品牌）
- Deep部分：挖掘潜在兴趣（如装修风格偏好）
- 实现方案：Keras Functional API

最终采用XGBoost+协同过滤的混合方案，线上A/B测试显示CTR提升23.7%。

4. 工程实现关键问题

4.1 冷启动解决方案

针对新酒店和新用户的冷启动问题，我们设计了三级降级策略：

新用户：
- 第一步：收集基本信息（出行目的、预算等）
- 第二步：展示热门酒店+问卷调查
- 第三步：用相似用户画像初始化特征

新酒店：

sql复制-- 计算酒店相似度
SELECT 
  h2.hotel_id,
  AVG(similarity(h1.features, h2.features)) AS sim_score
FROM hotels h1, hotels h2
WHERE h1.hotel_id = [新酒店ID]
GROUP BY h2.hotel_id
ORDER BY sim_score DESC
LIMIT 10;

全局兜底：
- 基于地理位置的热门推荐
- 季节性主题推荐（如暑期亲子酒店）

4.2 实时推荐优化

为提高响应速度，我们采用以下优化手段：

特征缓存：
- 用户特征：Redis String结构（更新频率≤5min）
- 酒店特征：Redis Hash结构（更新频率≤1h）

模型分片加载：

python复制# 按地域加载模型
def get_regional_model(city_code):
    model_key = f'model_{city_code[:2]}'
    if not cache.has_key(model_key):
        with h5py.File(f'/models/{model_key}.h5', 'r') as f:
            cache.set(model_key, pickle.load(f['model']))
    return cache.get(model_key)

结果预计算：
- 每晚离线生成TOP100热门推荐
- 为活跃用户预生成个性化列表

5. 可视化与效果评估

5.1 推荐效果可视化

使用ECharts实现三类核心图表：

用户偏好雷达图

javascript复制option = {
    radar: {
        indicator: [
            { name: '价格敏感度', max: 1},
            { name: '设施要求', max: 1},
            { name: '位置偏好', max: 1},
            { name: '服务重视', max: 1}
        ]
    },
    series: [{
        data: [{
            value: [0.7, 0.5, 0.9, 0.6],
            name: '当前用户'
        }]
    }]
};

推荐多样性热力图
- X轴：酒店类别
- Y轴：用户分群
- 颜色深浅：推荐频次
AB测试对比柱状图
- 对比不同算法的CTR、转化率等核心指标

5.2 评估指标设计

除常规的准确率、召回率外，我们特别关注：

惊喜度（Serendipity）
- 推荐结果中用户未接触过但感兴趣的比例

多样性（Diversity）

python复制def diversity(recommendations):
    categories = [h.category for h in recommendations]
    return len(set(categories)) / len(categories)

商业价值
- 推荐酒店的平均佣金率
- 用户预订后的取消率

最终在测试集上达到：

AUC: 0.812
平均响应时间: 78ms
推荐多样性: 0.65

6. 避坑指南与经验总结

在项目开发过程中，我们踩过几个典型的坑：

数据泄露问题
- 错误做法：用全部数据做特征编码
- 正确做法：划分训练集后再做Target Encoding
- 症状：离线评估AUC=0.9，线上只有0.7
特征存储误区
- 错误案例：将用户最近100次点击记录完整存储
- 优化方案：只存储统计特征（如各类别点击占比）
- 效果：Redis内存占用从8GB降到1.2GB
模型更新策略
- 初期：全量每天重训练
- 优化：增量更新+周粒度全量
- 训练时间：从4h缩短到40min