推荐系统多任务建模：原理、挑战与工程实践

长沮

1. 推荐系统中的多任务建模：从动机到 Loss 融合

在工业级推荐系统的演进过程中，多任务学习（Multi-Task Learning, MTL）已经从可选技术演变为核心架构范式。这种转变背后是推荐系统面临的两个根本性挑战：用户行为信号的稀疏性和单一指标的局限性。早期独立建模每个业务指标的做法虽然直观，但在规模化场景下会遭遇样本偏差和优化目标偏离用户真实需求的结构性问题。

1.1 单任务建模的结构性缺陷

1.1.1 信号稀疏与样本选择偏差

以电商场景的转化率（CVR）预测为例，典型的用户行为漏斗呈现金字塔结构：亿级曝光、千万级点击、百万级购买。若仅用转化样本训练CVR模型，正样本的极度稀疏会导致模型难以捕捉有效的泛化模式。常见的补救方案是将未点击样本标记为负例，但这会引入样本选择偏差（Sample Selection Bias, SSB）——模型从未见过"曝光但未点击"的样本分布，却在线上要对所有曝光商品进行预测。

阿里巴巴的ESMM模型通过将CVR分解为CTR×CTCVR，在全量曝光样本空间联合训练，既利用了CTR任务的丰富样本，又避免了直接标注CVR标签的偏差问题。

1.1.2 单一指标的局限性

即使用户行为信号充足，单目标优化仍面临根本困境：任何单一行为指标都只是用户真实满意度的局部投影。Goodhart定律在此显现——当指标成为优化目标后，系统会找到在该指标上得分高但实际损害用户体验的路径：

仅优化CTR：标题党内容被高估
仅优化完播率：短视频过度推荐
仅优化互动率：情绪化内容泛滥

1.2 多任务建模的核心价值

多任务学习的本质是通过多个行为指标的联合建模，逼近无法被单一指标完整描述的用户价值。其优势体现在三个维度：

特征表示增强：共享底层特征使稀疏任务能利用相关任务的监督信号
计算效率提升：单模型预测多个目标，降低线上服务成本
业务目标对齐：多维度行为信号共同约束模型优化方向

2. 多任务建模的三大核心挑战

2.1 任务关系设计

2.1.1 任务拓扑结构

根据任务间的依赖关系，可分为三种典型模式：

任务类型	特点	典型案例
并行任务	同样本多目标	点击、完播、点赞
级联任务	样本空间递进	曝光→点击→购买
主辅任务	辅助目标不参与预测	对比学习辅助loss

2.1.2 相关性量化方法

梯度余弦相似度：

python复制def gradient_cosine_sim(grad_i, grad_j):
    return np.dot(grad_i, grad_j) / (np.linalg.norm(grad_i)*np.linalg.norm(grad_j))

持续负相关的任务对应考虑参数隔离。

AUC差异矩阵：
ΔAUC_i→j = AUC_j^MTL - AUC_j^STL
正值表示任务i对j有正向迁移。

2.2 网络架构演进

2.2.1 Hard Sharing Baseline

共享底层+独立任务头的结构简单高效，但面临"跷跷板效应"——相关任务相互拉扯导致效果不如单任务模型。

2.2.2 MMoE创新

Google提出的MMoE引入专家混合机制：

N个专家网络共享
每个任务有自己的门控网络
动态组合专家输出

但所有专家仍被所有任务共享，难以处理强冲突任务。

2.2.3 PLE突破

腾讯的PLE在MMoE基础上增加：

共享专家(Shared Experts)
任务专属专家(Task-specific Experts)
门控网络仅混合共享专家和本任务专家，实现更精细的参数隔离。

2.3 Loss融合策略

2.3.1 固定权重加权

总Loss = Σ w_iL_i
权重初始化建议：
w_i⁽⁰⁾ = L_base⁽⁰⁾/L_i⁽⁰⁾

2.3.2 动态权重方法对比

方法	核心思想	计算开销	适用场景
GradNorm	平衡任务学习速率	中(需梯度范数)	任务收敛速度差异大
Uncertainty Weighting	学习任务噪声水平	低(仅标量参数)	标签噪声分布均匀
PCGrad	投影冲突梯度	高(O(N²))	任务数较少(<10)

2.3.3 工程实践建议

优先验证固定权重+精细样本mask
小规模场景可尝试Uncertainty Weighting
超参敏感方法(GradNorm)需充分验证

3. 评估体系设计

3.1 专属评估集构建

每个目标应在自己的有效样本空间评估：

正样本：触发该行为条件的记录
负样本：同分布下的未触发样本

3.2 多任务AUC矩阵

评估新增目标需同时检查：

主目标AUC不下降(红线)
现有辅助目标整体无显著退化
新目标在其专属集上AUC提升

3.3 离线-线上指标对齐

典型成功模式：

离线：主目标AUC持平，高价值用户子集AUC↑
线上：长期留存、时长等核心指标↑

4. 实战经验与避坑指南

4.1 样本处理技巧

级联任务使用ESMM结构避免样本空间偏差
稀疏目标采用importance sampling
样本权重与loss权重解耦设计

4.2 参数共享策略

Embedding层全共享
底层MLP部分共享(PLE结构)
任务头完全独立

4.3 训练调优要点

学习率需针对加权总loss调整
早停标准应监控多个目标
梯度裁剪阈值需放大√N倍(N为任务数)

4.4 线上服务优化

分任务AB实验验证增量价值
动态权重模型需定期reload
计算图优化重点处理专家网络

在实际业务中，我们发现在视频推荐场景采用PLE+固定权重方案，在12个任务联合训练时，相比单任务模型：

服务成本降低60%
主目标CTR保持稳定
长尾目标AUC提升15-30%
用户7日留存提升2.3pp

关键成功因素是构建了完善的专属评估体系，确保每个新增目标都经过：

梯度相似度分析 → 架构设计
AUC差异验证 → 权重调整
小流量实验 → 线上效果确认

这种严谨的迭代流程避免了"离线提升但线上无效"的常见陷阱。

已经到底了哦