稀疏检索中词汇表选择的关键作用与优化策略

暗茧

1. 词汇表在稀疏检索中的核心作用

在构建稀疏检索系统（特别是SPLADE类模型）时，词汇表远不止是简单的单词列表。它实际上定义了模型的交互空间——词汇表的大小直接决定了稀疏表示的维度。这个发现源于我在训练韩语SPLADE模型时遇到的一系列问题，这些问题最终都追溯到词汇表的选择上。

通过与sentence-transformers维护者和OpenSearch社区的讨论（参见GitHub issue #3431），我们确认了一个关键结论：在基于学习的稀疏检索中，词汇表的选择对系统性能具有决定性影响。这不同于传统的信息检索系统，在那些系统中，词汇表主要影响索引构建效率，而在现代稀疏嵌入模型中，词汇表质量直接关系到表示能力。

关键发现：当使用jhu-clsp/mmBERT-base这类多语言模型时，如果目标语言（如韩语）在词汇表中覆盖不足，会导致表示空间完全崩溃——所有激活值归零，使得检索系统彻底失效。

2. 实验设计与模型选型

2.1 骨干模型对比

我选择了四种具有不同词汇表特性的预训练模型进行对比实验，所有模型都在约90万条本地数据集上训练：

模型名称	词汇量	分词器语言特性	关键特点
klue/roberta-base	32,000	韩语专用	纯韩语优化
skt/A.X-Encoder-base	50,000	韩语+英语	双语混合
Alibaba-NLP/gte-multilingual-base	250,048	70+种语言	中等规模多语言
jhu-clsp/mmBERT-base	256,000	1800+种语言	超大规模多语言

选择这组模型的目的是验证一个假设：词汇表与目标语言的匹配度比模型规模更重要。前两个模型是韩语优化的，后两个则是通用的多语言模型，其中mmBERT-base覆盖语言最多。

2.2 训练配置细节

所有模型都采用对比学习框架训练，这是当前训练稀疏检索器最高效的方法之一。具体配置如下：

数据集结构：使用三元组格式<查询, 正例, 难负例>，通过BM25采样构建
批大小：8（受限GPU显存）
最大长度：512 tokens
正则化权重：
- 查询侧：5e-5
- 文档侧：3e-5
精度：bfloat16混合精度训练
硬件：klue/roberta-base使用4块GPU，其他模型使用8块GPU

这里特别说明正则化权重的选择：文档侧权重略低于查询侧，这是因为文档通常比查询长，需要更温和的稀疏约束以避免过度惩罚。

3. 实验结果与分析

3.1 训练动态观察

所有模型的训练损失都呈现良好收敛趋势，但出现了几个关键现象：

gte-multilingual-base的初始震荡：
- 这个模型在训练初期出现明显的正则化损失峰值
- 原因分析：其25万的大词汇量导致初始激活过于密集，模型需要时间学习如何抑制不相关语言的token
mmBERT-base的灾难性崩溃：
- 验证集Recall@10先上升后骤降
- 最终查询和文档的激活维度都归零
- 对应GitHub issue中描述的"表示崩溃"现象

实战技巧：当发现验证指标突然下跌时，应立即检查激活维度统计。如果同时出现查询和文档激活归零，很可能是词汇表不匹配导致的崩溃前兆。

3.2 最终评估表现

在MTEB-ko-retrieval基准上的测试结果如下：

模型	Recall@10	NDCG@10	MRR@10	查询激活维度	文档激活维度
A.X-Encoder-base	0.731	0.6618	0.688	284.2	279650.6541
roberta-base	0.6751	0.6234	0.659	328.3	942188.0523
gte-multilingual-base	0.61	0.5224	0.538	51115.8	5822728.6814
mmBERT-base	0.023	0.0103	0.006	0	0

几个关键发现：

韩语优化模型的优势：
- A.X-Encoder-base和roberta-base表现最佳
- 它们的激活维度适中（几百到几十万），说明学习到了有效的稀疏模式
多语言模型的挑战：
- gte-multilingual-base虽然能训练，但激活维度过高（数百万）
- 表明模型难以确定哪些token对韩语检索真正重要
完全失败的案例：
- mmBERT-base所有指标接近零
- 激活维度归零证实了表示空间的完全崩溃