1. 项目概述
在联盟营销生态中,推广者的价值评估一直是个关键难题。传统方法只关注推广者直接带来的销量(Self-sales),却忽视了他们在社交网络中的链式传播价值。这种"直接贡献"评估范式导致资源配置不合理和激励机制不公平。阿里妈妈技术团队提出的DNTS框架,通过创新的两阶段解耦预测方法,实现了从"直接贡献"评估到"传播价值"评估的范式迁移。
这个框架的核心创新点在于:不再直接预测难以捕捉的传播规模(Propagation Scale),而是将其拆解为两个更稳定的子任务——基础信号(自销量)预测和动态网络结构预测。这种解耦思路巧妙地规避了传统方法在处理高度动态网络和非平滑信号时的局限性。
2. 核心问题解析
2.1 传统评估范式的局限性
在联盟营销场景中,推广者通过社交网络传播商品信息,形成复杂的推广链路。传统评估方法只计算推广者直接带来的销量,这种"原子化"视角存在明显缺陷:
- 价值衡量偏差:无法识别具有关键传播价值的"播种者"节点
- 资源分配失准:过度倾斜资源给"收割者",忽视生态建设者
- 激励错位:长期会损害生态的多元性和健康度
举个例子,某个推广者可能自身销量不高,但他的分享行为激活了下游多个推广者,最终带来大量间接销量。传统方法会完全忽视这类推广者的价值。
2.2 传播规模的定义与挑战
传播规模(Propagation Scale)定义为:推广者直接或间接参与促成的所有订单销量总和。要准确预测这个指标面临两大核心挑战:
- 信号不平滑:受整个下游网络影响,波动剧烈
- 网络高度动态:每天推广网络结构都在变化
传统时序预测方法(如GNN-based)假设静态图结构,难以应对这种动态场景。这也是DNTS框架采用两阶段解耦方法的关键原因。
3. DNTS框架设计
3.1 整体架构
DNTS框架包含三个核心组件:
- 基础信号预测通路:预测推广者未来的自销量
- 结构预测通路:预测未来的推广网络结构
- 合成模块:将前两个预测结果组合成最终传播规模
这种架构设计源于一个重要发现:自销量比传播规模更容易预测,且网络结构的变化有其内在规律。
3.2 基础信号预测
采用改进的时间卷积网络(TCN)来预测自销量:
- 使用多尺度卷积核(Inception策略)捕捉不同时间模式
- 引入门控机制融合多尺度特征
- 输出未来时间步的自销量预测值
这种方法相比传统RNN结构,能更好处理长期依赖和不同时间尺度的模式。
3.3 结构预测通路
3.3.1 局部动态编码
- 使用DFS算法预处理获取每个推广者的潜在后代集合
- 基于注意力机制聚合后代信息
- 使用GRU捕捉时序模式
这种设计避免了直接预测整个网络的高计算成本,转而聚焦于关键的后代关系。
3.3.2 全局动态编码
- 将同一天所有商品的推广网络整合为超图
- 执行超图卷积捕捉跨商品推广模式
- 再次使用时序GRU建模时间依赖
超图表示有效解决了数据稀疏问题,同时捕捉了推广者的跨商品行为模式。
3.4 合成模块设计
合成模块的核心是一个可微分的矩阵运算:
- 预测后代关系概率矩阵
- 预测节点自销量激活率矩阵
- 使用Gumbel-Softmax采样有效后代集合
- 通过矩阵乘法聚合得到最终传播规模
这种设计确保只有同时满足"有自销量"和"被激活"的后代才会被计入,提高了预测准确性。
4. 工业级挑战与解决方案
4.1 数据稀疏性挑战
在真实业务场景中:
- 商品数量达亿级
- 每个商品的推广者只占很小比例
解决方案:
- 构建商品级推广者子表
- 所有图计算限定在相关子集内
- 动态维护子表更新机制
这种方法将计算复杂度从O(N²)降到O(k²),其中k≪N。
4.2 高波动性挑战
推广活动常呈现:
- 短期爆发(运营活动驱动)
- 长期沉默(常态)
解决方案:
- 增加推广者激活预测辅助任务
- 使用预测的激活状态作为门控
- 过滤掉沉默推广者减少噪声
这种设计使模型能更好适应真实业务中的非平稳特性。
5. 实验验证
5.1 离线实验设置
- 数据集:三个不同时间跨度的工业级数据集
- 包含10万+推广者
- 600万+推广连边
- 基线模型:DCRNN、STGCN、LSGCN等SOTA方法
- 评估指标:MAPE和MSLE
5.2 离线结果分析
DNTS在三个数据集上均显著优于基线:
- 30-days数据集上MSLE相对提升11.3%
- MAPE相对提升4.1%
诊断实验验证了两阶段设计的合理性:
- 自销量预测误差显著低于直接传播规模预测
- 传统GNN方法在直接预测传播规模时几乎无效
- GNN在结构预测任务中表现出色
5.3 在线AB测试
在阿里妈妈推荐系统部署后:
- GMV提升2.52%
- 销量提升2.40%
这些提升源于更精准的传播规模预测,使得:
- 召回质量提高
- 资源分配更合理
- 激励机制更公平
6. 实操经验与技巧
6.1 数据预处理要点
- 订单归因:确保准确追溯完整推广链路
- 使用多跳归因算法
- 处理边缘情况(如多路径归因)
- 网络构建:合理选择时间粒度
- 太粗会丢失动态信息
- 太细会增加计算负担
- 特征工程:除销量外,建议加入:
- 推广者历史行为特征
- 商品类别特征
- 时间上下文特征
6.2 模型训练技巧
- 课程学习:先训练基础信号预测,再联合训练
- 正则化策略:
- 对结构预测通路使用DropEdge
- 对时序模块使用Zoneout
- 损失函数设计:
- 主任务用MSLE损失
- 辅助任务用交叉熵损失
- 加入L2正则化
6.3 部署优化建议
- 在线服务:
- 对高频商品使用缓存策略
- 实现增量更新机制
- 计算优化:
- 对超图卷积使用采样近似
- 对矩阵运算使用稀疏优化
- 监控指标:
- 预测偏差监控
- 计算延迟监控
- 业务指标关联分析
7. 延伸应用与展望
DNTS框架的创新点不仅适用于联盟营销场景,还可以扩展到:
- 社交网络影响力预测:预测用户内容传播范围
- 流行病传播建模:预测疾病传播动态
- 信息扩散分析:预测新闻或谣言的传播路径
未来的改进方向可能包括:
- 引入更多模态数据(如文本、图像)
- 结合强化学习进行动态决策
- 探索更高效的大规模动态图表示学习方法
在实际业务中,我们已经看到DNTS框架带来的显著提升。这个案例很好地展示了如何通过创新的建模思路,将复杂的现实问题分解为可解决的子问题,最终实现业务指标的实质性提升。