FM模型在推荐系统中的特征交叉实践与优化

Diane Lockhart

1. 推荐系统特征交叉的挑战与机遇

在电商平台和内容推荐场景中，我们常常面临这样的困境：用户点击了手机，系统就拼命推荐各种手机；用户买了奶粉，首页立刻被婴儿用品占领。这种简单粗暴的关联推荐，本质上是对特征交互（Feature Interaction）的浅层理解。2010年Rendle提出的因子分解机（Factorization Machines，简称FM）框架，为这个问题提供了优雅的数学解。

我曾在某跨境电商平台负责推荐算法优化，当我们将传统的逻辑回归模型替换为FM时，CTR（点击通过率）提升了27%。这背后的关键突破在于：FM通过隐向量内积的方式，自动学习二阶特征组合的重要性，特别适合处理高维稀疏特征场景。举个例子，当"女性用户"和"护肤品"这两个特征同时出现时，FM能自动捕捉到它们组合产生的特殊意义，而不需要人工设计交叉特征。

2. FM模型原理解析

2.1 数学模型拆解

FM的预测公式可以表示为：
ŷ(x) = w₀ + Σwᵢxᵢ + ΣΣ<vᵢ,vⱼ>xᵢxⱼ

其中第三项就是FM的精髓所在。每个特征xᵢ都有一个对应的k维隐向量vᵢ，两个特征的交互强度通过它们隐向量的点积<vᵢ,vⱼ>来衡量。这比直接学习参数wᵢⱼ聪明得多：

参数量从O(n²)降到O(nk)，即使特征维度n很大（比如百万级），只要k足够小（通常10-100），模型依然可训练
即使某些特征组合在训练集中从未出现（比如"凌晨3点"和"老年用户"），只要单个特征出现过，就能通过隐向量得到合理的组合预测

2.2 计算优化技巧

原始的双重求和复杂度是O(kn²)，通过数学变换可以降到O(kn)：

ΣΣ<vᵢ,vⱼ>xᵢxⱼ = ½Σ(Σvᵢxᵢ)² - Σ(vᵢxᵢ)²

这个技巧让FM能够高效处理工业级数据。我在实现时还发现几个优化点：

对稀疏特征采用懒加载策略，只处理非零特征
使用AdaGrad优化器适应不同特征的更新频率
对连续特征进行分桶离散化，提升交叉效果

3. 工业实践中的FM变种

3.1 FFM（Field-aware FM）

在广告CTR预测中，特征通常属于不同领域（Field）。比如"用户性别"属于用户域，"商品类别"属于商品域。FFM为每个特征针对不同域学习不同的隐向量，交互公式变为：

ΣΣ<vᵢ_ƒⱼ,vⱼ_ƒᵢ>xᵢxⱼ

其中ƒ表示特征所属的域。虽然参数增加到O(nkf)，但效果显著提升。我们实践发现，对于有明显领域划分的数据，FFM比FM的AUC能提高1-2个百分点。

3.2 DeepFM

将FM与DNN结合，既保留FM的低阶特征交互能力，又利用DNN捕捉高阶非线性关系。结构特点：

FM部分负责二阶特征交叉
DNN部分全连接网络自动学习高阶组合
共享相同的特征嵌入层

在某个内容推荐项目中，DeepFM相比纯FM的停留时长提升了15%。需要注意：

网络不宜过深，2-3层足够
FM部分和DNN部分的loss权重需要调优
对GPU内存消耗较大，需要做好特征筛选

4. 特征工程实践心得

4.1 特征编码策略

类别特征：必须做embedding，维度根据基数调整
- 用户ID：16-32维
- 商品类目：8-16维
连续特征：先分桶再embedding效果最好
- 价格按百分位分10档
- 时间戳转换为小时+星期几
多值特征（如用户历史点击）：用sum pooling或attention聚合

4.2 交叉特征设计

虽然FM能自动学习交叉，但人工加入关键组合仍有价值：

用户画像×物品属性（性别×品类）
上下文×用户行为（时间段×点击序列）
统计特征×实时特征（历史CTR×本次曝光位置）

在某电商场景中，我们加入了"用户价格敏感度×商品折扣力度"的人工交叉特征，GMV提升了8%。

5. 线上部署优化方案

5.1 模型轻量化

特征筛选：去除IV值<0.02的低效特征
维度压缩：对embedding矩阵做PQ量化
模型蒸馏：用大FM训练小FM

5.2 实时更新策略

增量学习：每小时更新embedding层
动态特征：通过Redis维护实时统计量
A/B测试：新旧模型分桶对比

我们实现的FM服务，在100维特征下，单机QPS能达到8000+，延迟<10ms。关键配置：

python复制class FMModel(nn.Module):
    def __init__(self, feature_size, k=20):
        self.w0 = nn.Parameter(torch.zeros(1))
        self.w = nn.Embedding(feature_size, 1)
        self.v = nn.Embedding(feature_size, k)
        
    def forward(self, x):
        # x是稀疏特征索引
        linear = self.w0 + torch.sum(self.w(x), dim=1)
        square_of_sum = torch.pow(torch.sum(self.v(x), dim=1), 2)
        sum_of_square = torch.sum(torch.pow(self.v(x), 2), dim=1)
        pairwise = 0.5 * torch.sum(square_of_sum - sum_of_square, dim=1)
        return torch.sigmoid(linear + pairwise)