1. 项目概述
在联盟营销生态中,推广者(Promoter)的价值评估一直是个关键问题。传统方法只关注推广者直接带来的销量(Self-sales),却忽视了他们在社交网络中的传播价值。这就好比只计算一个销售人员的直接业绩,而忽略了他培养的整个销售团队带来的业绩——显然会严重低估其真实贡献。
阿里妈妈技术团队提出的DNTS框架,创新性地将传播规模预测分解为两个更易处理的子任务:基础信号预测(自销量)和网络结构预测(传播关系)。这种两阶段解耦的方法,就像先分别预测天气和风向,再综合判断风筝能飞多高,比直接预测风筝高度要准确得多。
2. 核心问题解析
2.1 传统方法的局限性
当前主流的"直接贡献"评估范式存在两个致命缺陷:
-
价值衡量偏差:如图1(a)所示,推广者P1虽然直接销量不高,但通过激活P2和P3带来了大量间接销量。传统方法会将其误判为低价值推广者。
-
资源分配失准:平台资源会过度倾斜到"收割型"推广者(如P3),而忽视"播种型"推广者(如P1)。长期来看,这会导致生态失衡——就像农田只施肥给成熟的稻穗,却不管播种的秧苗。
2.2 传播规模的定义
传播规模(Propagation Scale)的创新在于:
- 通过归因分析追溯完整推广链路
- 累计推广者参与的所有链路产生的销量
- 数学定义为:PS(p) = Σ_{o∈O(p)} sales(o)
以图1(a)为例:
- P1的传播规模 = sales(o1) + sales(o2) = 1 + 2 = 3
- P2的传播规模 = sales(o2) = 2
3. 技术方案详解
3.1 整体框架设计
DNTS采用两阶段预测架构(图2):
-
基础信号预测通路:使用改进的Inception时序卷积网络预测自销量
- 多尺度卷积核捕捉不同周期模式
- 门控机制动态融合各尺度特征
-
结构预测通路:
- 局部动态编码:基于DFS的后代关系建模
- 全局动态编码:超图卷积捕捉跨商品模式
- 双重GRU网络处理时序动态性
3.2 关键技术创新
3.2.1 动态网络处理
针对推广网络的高度动态性:
-
后代关系预测:不直接预测整个网络,而是预测每个节点的潜在后代集合
- 使用DFS预处理获取候选后代
- 注意力机制聚合后代信息
-
超图卷积:将单日所有商品推广网络构建为超图
- 节点:推广者
- 超边:同一商品的推广关系
- 更新公式:
code复制e_k = σ(W·Σ_{v∈ε_k} h_v + b) h'_v = σ(W'·Σ_{k∈E_v} e_k + b')
3.2.2 合成机制设计
传播规模的合成包含三个核心矩阵:
- 后代关系矩阵R:预测存在传播关系的概率
- 激活率矩阵A:预测后代节点的活跃概率
- 自销量矩阵S:来自基础信号预测
最终传播规模计算:
code复制PS = (R ⊙ A) · S
其中⊙表示Hadamard积。这种设计确保:
- 只有同时满足"有传播关系"且"活跃"的后代才会被计入
- 完全可微分,支持端到端训练
4. 工程实现与优化
4.1 工业级挑战解决方案
挑战1:数据稀疏性
- 推广者子表:为每个商品维护动态的推广者子集
- 稀疏矩阵优化:使用CSR格式存储邻接矩阵
- 分布式计算:基于Spark实现大规模图遍历
挑战2:高波动性
- 激活预测辅助任务:二分类模型预测推广者活跃状态
- 门控机制:用激活概率过滤噪声信号
- 鲁棒性训练:在损失函数中加入Huber loss
4.2 线上部署架构
系统采用微服务架构:
-
数据层:
- 实时数据:Flink流处理
- 离线数据:MaxCompute数仓
-
模型服务:
- 基础信号预测:TF Serving部署
- 结构预测:PyTorch模型转ONNX
-
在线推理:
- 合成模块用C++实现,延迟<50ms
- 结果缓存:Redis集群
5. 实验验证
5.1 离线实验设置
数据集:
| 数据集 | 时间跨度 | 推广者数 | 商品数 | 边数 |
|---|---|---|---|---|
| AM-15d | 15天 | 52,341 | 1.2M | 3.7M |
| AM-30d | 30天 | 108,762 | 2.8M | 8.2M |
评估指标:
- MAPE:反映相对误差
- MSLE:对异常值鲁棒
5.2 核心实验结果
表1:整体性能对比(%)
| 模型 | AM-15d (MSLE/MAPE) | AM-30d (MSLE/MAPE) |
|---|---|---|
| DCRNN | 0.342 / 18.7 | 0.318 / 17.2 |
| MTGNN | 0.329 / 17.9 | 0.301 / 16.3 |
| DNTS | 0.287 / 15.8 | 0.267 / 14.9 |
关键发现:
- DNTS在30天数据集上MSLE相对提升11.3%
- 更长的历史数据带来显著增益
5.3 消融实验
表2:组件分析(AM-30d)
| 配置 | MSLE | 相对变化 |
|---|---|---|
| 完整模型 | 0.267 | - |
| w/o 超图卷积 | 0.291 | +9.0% |
| w/o 激活预测 | 0.278 | +4.1% |
| 端到端模式 | 0.325 | +21.7% |
结论:
- 超图卷积对捕捉全局模式至关重要
- 两阶段设计比端到端模式优势明显
6. 业务影响与扩展
6.1 线上效果
经过3个月AB测试:
- GMV提升:+2.52%(p<0.01)
- 销量提升:+2.40%(p<0.01)
- 推广者满意度:+15.6%(调研数据)
6.2 应用场景扩展
-
预算分配优化:
- 根据传播价值动态调整佣金比例
- 示例:播种者奖励系数提高20%
-
推广者分级运营:
- 识别高传播价值的关键节点
- 构建推广者社交影响力图谱
-
商品冷启动:
- 预测潜在传播路径
- 精准匹配种子推广者
7. 实践建议
在实际部署DNTS时,我们总结了以下经验:
-
数据预处理:
- 对自销量做Box-Cox变换处理偏态分布
- 使用移动平均平滑处理极端波动
-
模型训练技巧:
- 采用课程学习策略,先易后难
- 在合成阶段加入梯度裁剪(max_norm=1.0)
-
线上监控:
- 建立传播规模预测偏差报警机制
- 关键指标:
- 预测与实际PS的KL散度
- 高价值推广者识别准确率
这个框架的一个巧妙之处在于,它没有试图直接预测难以把握的传播规模,而是通过分解问题找到更稳定的预测目标。就像预测一场森林大火的影响范围,与其直接猜测最终燃烧面积,不如先预测火势蔓延速度和风向变化,再综合计算——这正是DNTS方法论的精髓所在。