LGSID技术：融合LLM与地理信息的推荐系统优化

洛裳

1. 项目背景与核心挑战

生活服务类推荐系统正面临着一个独特的困境：用户刷到心仪的餐厅或店铺时，常常因为地理位置太远而放弃消费。这种现象背后反映的是生活服务推荐与传统电商推荐的本质差异——地理位置约束成为影响用户决策的关键因素。

从数据来看，当用户与推荐店铺的距离超过3公里时，转化率会急剧下降60%以上。这意味着，一个优秀的生活服务推荐系统必须同时解决两个核心问题：

传统推荐系统主要依赖两类方法处理地理位置信息：

但这些方法存在明显局限：GeoHash等离散编码难以表达细粒度的空间相对关系（比如"两个地点虽然GeoHash不同但实际只隔一条街"），而空间约束下的兴趣建模又强依赖于人工特征工程，缺乏泛化能力。

LGSID（LLM-Aligned Geographic Semantic Item ID）的核心创新在于将大语言模型的世界知识与推荐系统的空间感知需求相结合。其技术架构包含三个关键组件：

这种设计巧妙地解决了"语义理解"与"空间感知"之间的矛盾，使得推荐结果既能匹配用户兴趣，又符合实际可达性。

我们设计了一个list-wise奖励模型来评估内容与地理位置的匹配程度。关键技术包括：

奖励模型的损失函数采用加权二元交叉熵：

code复制L = -Σ[w_i * y_i log(p_i) + (1-y_i)log(1-p_i)]

其中w_i是根据距离计算的样本权重，y_i是软标签值。

G-DPO（Geographic DPO）是对标准DPO算法的改进，关键创新点包括：

实验表明，经过G-DPO对齐后，LLM在街道级别的召回准确率从16%提升至55.8%，同时保持了90%以上的语义理解能力。

Hierarchical Geographic Item Tokenization（HGIT）的设计遵循"先地理可达，再兴趣匹配"的业务逻辑：

首层量化：
- 输入特征：经纬度+行政区划ID+内容粗粒度特征
- 聚类算法：改进的K-Means，引入地理距离约束
- 输出：稳定的地理层级锚点（如城市/商圈级别）
深层量化：
- 基于欧式距离的可学习聚类中心
- 残差量化结构：每层对前层的误差进行细化
- 熵正则化：防止码本坍塌，保持各聚类中心利用率均衡

距离感知的聚类初始化：首层聚类中心按地理密度分布初始化
层级关联的量化损失：
```
code复制L = L_recon + λ*L_entropy
```
其中重构损失L_recon确保表征质量，熵正则项L_entropy控制聚类平衡
动态码本更新：根据聚类中心利用率动态调整学习率

LGSID的线上服务架构需要考虑三个关键需求：

我们采用的解决方案是：

code复制[LLM推理层] → [量化服务层] → [特征存储] → [推荐模型]

我们在三个维度评估LGSID的效果：

地理感知能力：
- 省份召回率@5：99.05%（+11.89%）
- 城市召回率@5：95.48%（+22.06%）
- 街道召回率@5：55.84%（+39.74%）
推荐效果：
- DIN模型AUC提升1.82%
- TIGER模型NDCG@10提升2.37%
系统性能：
- 99分位延迟：<50ms
- 吞吐量：5000 QPS/机器