在自然语言处理领域,大语言模型(LLM)的性能评估一直是研究热点。MMLU(Massive Multitask Language Understanding)作为当前最全面的基准测试之一,涵盖了57个不同学科领域,被广泛用于衡量模型的多任务理解能力。但在实际测试过程中,我们发现一个容易被忽视的细节——分隔符(delimiter)的选择,可能对最终评估结果产生显著影响。
分隔符在MMLU测试中承担着关键作用:它需要清晰区分题目中的问题、选项和上下文信息。常见的分隔符包括换行符(\n)、特殊符号(如###)或HTML标签(如
)。不同模型对这些分隔符的敏感度存在差异,可能导致同一模型在不同分隔符下的表现波动达到5-10%。
在实际测试中,我们主要考察了四类分隔符方案:
换行符方案:
text复制问题:光的折射定律是什么?
选项A:入射角等于反射角
选项B:sinθ₁/sinθ₂=n₂/n₁
符号标记方案:
text复制### 问题 ###
光的折射定律是什么?
### 选项 ###
A. 入射角等于反射角
B. sinθ₁/sinθ₂=n₂/n₁
结构化标记方案:
html复制<question>光的折射定律是什么?</question>
<options>
<option>A. 入射角等于反射角</option>
<option>B. sinθ₁/sinθ₂=n₂/n₁</option>
</options>
混合方案:
text复制[Q] 光的折射定律是什么?
[A] A. 入射角等于反射角
[B] B. sinθ₁/sinθ₂=n₂/n₁
不同分隔符对模型性能的影响主要体现在三个方面:
注意力分配:Transformer架构中的注意力机制会对特殊符号产生不同的权重分配。例如,模型可能对###这样的重复符号更敏感。
位置编码:换行符会引入额外的位置编码信息,可能干扰模型对文本结构的理解。
预训练差异:在预训练数据中,不同分隔符的出现频率不同。例如HTML标签在Common Crawl数据中更常见。
我们搭建了统一的测试平台:
除标准的准确率(Accuracy)外,我们还引入了:
测试数据显示:
| 模型 | 换行符准确率 | 符号标记准确率 | HTML准确率 | DSI |
|---|---|---|---|---|
| LLaMA-2 70B | 68.2% | 70.1% | 73.1% | 4.9 |
| GPT-3.5 | 72.5% | 73.8% | 71.9% | 1.3 |
| Claude 2 | 75.3% | 75.1% | 74.8% | 0.4 |
我们发现两种典型错误:
基于实验结果,我们建议:
在prompt中加入明确的解析指令:
text复制请按以下格式理解题目:
[问题] 问题内容
[选项A] 选项内容
[选项B] 选项内容
建议在MMLU测试中:
我们发现:
在实际项目中,我们验证了混合分隔符策略的有效性——在训练数据中随机使用不同分隔符,可以使模型的DSI降低40-60%。这个发现对构建更稳健的评估体系具有重要意义。