电商搜索重排序技术：RexRerankers模型解析与应用

如云长翩

1. RexRerankers：电商产品搜索与AI助手的SOTA重排序模型

在电商搜索和AI助手场景中，如何准确理解用户查询意图并返回最相关的商品结果是一个核心挑战。传统搜索引擎通常采用多阶段处理流程：召回（retrieval）→重排序（reranking）→后处理（post-processing）。其中，重排序环节对最终结果质量影响最大，因为它决定了用户实际看到的商品排序。

我们开发的RexRerankers系列模型专门针对现代电商搜索场景优化，通过创新的训练方法和数据架构，在商品相关性评估任务上达到了业界领先水平。本文将深入解析这套方案的技术细节、实现原理和实际应用。

提示：本文涉及的所有模型和数据集均已开源，读者可以直接在Hugging Face上获取并使用。

2. 电商搜索的独特挑战

2.1 为什么电商搜索更难？

与通用网页搜索相比，电商搜索面临几个独特挑战：

商品属性复杂性：一个"iPhone 15 Pro Max 256GB 深空黑"的查询，需要精确匹配型号、容量、颜色等多个属性维度。即使文本匹配度高，如果关键属性不符（如只有128GB版本），仍然是不相关结果。
查询意图多样性：
- 导航型查询："Nike Air Force 1"
- 属性型查询："防水登山鞋男防滑"
- 场景型查询："送女友的生日礼物 500元以内"
- 问题解决型查询："手机充电慢怎么办"
语言表达噪声：
- 缩写："mbp m3" → "MacBook Pro M3"
- 错别字："阿迪达斯" → "阿弟达斯"
- 口语化表达："能装16寸笔记本的包包"

2.2 现有解决方案的局限

传统重排序方法主要存在三个问题：

标注噪声处理不足：同一商品在不同上下文可能获得不同相关性评分，现有模型通常将标注视为绝对真理，导致过拟合。
意图覆盖不完整：公开数据集（如Amazon-ESCI）主要覆盖传统搜索查询，缺乏现代AI助手常见的长尾、多属性查询。
效率与效果难以兼顾：生成式模型效果虽好但推理成本高，小型分类模型效率高但效果欠佳。

3. 数据架构：Amazebay数据集

3.1 数据收集与清洗

我们从UC San Diego发布的Amazon 2023商品评论快照出发，构建了包含3700万商品的标准化目录：

去重处理：
- 精确去重：对标题、品牌、类目路径等字段进行规范化（Unicode NFKC、空格合并、标点去除）后哈希去重
- 近似去重：使用MinHash算法识别文本相似的商品（如仅包装描述不同的同款商品）

模式统一：

python复制class ProductSchema:
    title: str        # 商品标题
    brand: str        # 品牌
    category: str     # 类目路径
    features: List[str] # 关键属性
    description: str  # 详细描述

3.2 查询生成与采样

为覆盖多样化的购物意图，我们使用GPT-OSS-20B生成合成查询，并分为6大类：

属性丰富型："男士防水登山鞋防滑底轻便"
导航型："Apple iPhone 15 Pro Max"
礼物型："送男友的机械键盘 1000元左右"
通用型："跑步鞋"
问题解决型："手机电池耗电快怎么办"
书籍特定型："Python编程入门"

通过embedding-gemma-300M模型对生成的110万查询进行语义聚类，确保最终数据集覆盖广泛而不冗余。

3.3 相关性标注流程

采用LLM委员会投票机制进行高质量标注：

召回阶段：对每个查询，从两个索引中各取top-128候选商品
- 索引A：仅标题和品牌
- 索引B：完整文本（标题+描述+属性）

标注阶段：使用三个LLM模型并行标注

python复制council = [
    GPT-OSS-120B,
    Qwen3-32B,
    Olmo-3.1-32B
]

标注后处理：
- 移除明显不相关商品（标题完全不匹配）
- 确保训练集和评估集无重叠
- 过滤语义相近的查询（防止数据泄露）

最终得到的Amazebay-Relevance数据集包含：

600万查询-商品对
36.4万独特查询
300万独特商品
5级相关性标注（0-1连续值）

4. 模型架构与训练

4.1 分类式重排序器

4.1.1 两阶段训练法

阶段一：分布训练（处理标注噪声）

传统方法直接将相关性分数作为回归目标，忽略了标注本身的不确定性。我们创新性地将单点标签转换为概率分布：

定义11个有序区间（0-0.1, 0.1-0.2,...,0.9-1.0）

对每个标注分数s，计算其在各区间的高斯分布权重：

math复制y_i \propto \exp\Big(-\frac{(c_i - s)^2}{2\sigma^2}\Big)

动态调整σ值：
- 在决策边界附近（如s=0.2/0.5/0.8）使用较大σ，承认模糊性
- 在明确正/负样本区域使用较小σ，强化确定性

阶段二：标量对齐（适配生产环境）

移除分布预测头
添加MSE回归头
冻结主干网络，仅训练新头部

注意：这种两阶段设计既保留了分布学习对噪声的鲁棒性，又能输出生产系统需要的单一分数。

4.1.2 模型规模选择

我们基于RexBERT预训练模型，提供四个规格：

模型规格	参数量	适用场景
micro	16.8M	移动端/边缘设备
mini	68M	中小规模部署
base	149M	标准服务器
large	400M	高精度场景

4.2 生成式重排序器

基于Qwen3-Reranker-0.6B架构，我们设计了生成式版本：

输入格式：

code复制<Instruct>: 判断商品是否符合查询需求
<Query>: 送女友的生日礼物
<Document>: 施华洛世奇 天鹅项链 情人节礼物

评分机制：
- 强制模型输出"yes"/"no"
- 计算"yes"token的对数概率作为相关性分数
量化版本：
- FP8：精度损失<1%，推理速度提升10%
- MXFP4：精度损失<3%，推理速度提升15-20%

5. 评估体系：ERESS

5.1 评估集设计

传统电商评估集存在三个主要局限：

缺乏现代AI助手常见的长尾查询
困难负样本不足
未充分覆盖属性级不匹配情况

ERESS评估套件包含：

4700个独特查询
7.2万标注商品对
特别设计的困难案例：
- 语义近似但无关："牛奶"(饮品) vs "牛奶"(护肤)
- 属性不匹配："iPhone 15" vs "iPhone 15保护壳"
- 变体混淆："Kingston 16GB DDR4" vs "Kingston 32GB DDR4"

5.2 主要结果

5.2.1 生成式模型对比

模型	参数量	nDCG@5	nDCG@10
RexReranker-0.6B	0.6B	0.9794	0.9722
Qwen3-Reranker-8B	8.0B	0.9158	0.9034
jina-reranker-v3	0.6B	0.8377	0.7952

我们的0.6B小模型超越8B大模型，证明了训练方法的有效性。

5.2.2 分类式模型表现

在ERESS上的nDCG@5：

RexReranker-micro: 0.9214
RexReranker-mini: 0.9452
RexReranker-base: 0.9638
RexReranker-large: 0.9814

模型效果随规模稳定提升，表明架构具有良好的扩展性。

6. 实际应用示例

6.1 分类式模型使用

使用Hugging Face Transformers库：

python复制from transformers import AutoModelForSequenceClassification, AutoTokenizer
import torch

model_id = "thebajajra/RexReranker-base"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForSequenceClassification.from_pretrained(model_id).eval()

query = "男士商务皮鞋 防滑"
title = "金利来男士皮鞋 商务正装鞋"
description = "经典商务款式，防滑橡胶底，头层牛皮"

inputs = tokenizer(
    f"Query: {query}",
    f"Title: {title}\nDescription: {description}", 
    return_tensors="pt",
    truncation=True,
    max_length=512
)

with torch.no_grad():
    outputs = model(**inputs)
    score = outputs.logits.squeeze(-1).item()

print(f"相关性分数: {score:.4f}")

6.2 生成式模型部署

使用vLLM进行高效推理：

python复制from vllm import LLM, SamplingParams

model = LLM(
    model="thebajajra/RexReranker-0.6B",
    tensor_parallel_size=2,
    quantization="fp8"
)

sampling_params = SamplingParams(
    temperature=0,
    max_tokens=1,
    logprobs=2,
    allowed_tokens=["yes", "no"]
)

def score_query_product(query, product):
    prompt = f"""<Instruct>: 判断商品是否符合查询需求
<Query>: {query}
<Document>: {product}"""
    
    outputs = model.generate([prompt], sampling_params)
    logprobs = outputs[0].outputs[0].logprobs[0]
    
    yes_prob = math.exp(logprobs["yes"])
    no_prob = math.exp(logprobs["no"])
    
    return yes_prob / (yes_prob + no_prob)

7. 生产环境优化建议

混合部署策略：
- 第一层：小型分类模型（如RexReranker-mini）快速过滤
- 第二层：大型生成模型（RexReranker-0.6B）精细排序

缓存优化：

python复制from functools import lru_cache

@lru_cache(maxsize=10000)
def cached_scoring(query, product):
    return score_query_product(query, product)

量化部署：
- FP8量化：<1%精度损失，显存节省50%
- INT4量化：约3%精度损失，显存节省75%

异步处理：

python复制from concurrent.futures import ThreadPoolExecutor

with ThreadPoolExecutor() as executor:
    futures = [executor.submit(score_query_product, q, p) 
              for q, p in query_product_pairs]
    scores = [f.result() for f in futures]

8. 常见问题与解决方案

8.1 如何处理长文本？

RexRerankers支持最大8192token的输入，但建议通过以下方式优化：

关键信息提取：

python复制def preprocess_text(text):
    # 保留标题、品牌、关键属性
    important_parts = []
    if "Title:" in text:
        important_parts.append(text.split("Title:")[1].split("\n")[0])
    if "Brand:" in text:
        important_parts.append(text.split("Brand:")[1].split("\n")[0])
    return " ".join(important_parts)

分段处理：

python复制def chunk_text(text, chunk_size=512):
    words = text.split()
    return [" ".join(words[i:i+chunk_size]) 
            for i in range(0, len(words), chunk_size)]

8.2 冷启动问题

对于新上架商品，建议：

使用标题+品牌的稀疏特征作为初始分数
结合类目平均分作为先验
随着用户交互数据积累，逐步过渡到模型评分

8.3 在线学习

模型支持增量训练以适应数据分布变化：

python复制from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir="./retrain",
    per_device_train_batch_size=8,
    num_train_epochs=1,
    save_steps=1000
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=new_data
)

trainer.train()