最近我在更新MMLU-Pro计算机科学基准测试结果时,加入了三个Phi-4变体(微软官方权重、Unsloth修复的HF和GGUF版本)、Qwen2 VL 72B Instruct和Aya Expanse 32B的新数据。作为一位长期从事AI模型评测的研究者,我想分享这次测试的详细过程和发现,希望能为同行提供有价值的参考。
MMLU-Pro是一个全面评估大语言模型能力的基准测试,覆盖计算机科学、数学、物理、化学等多个学科。与它的前身MMLU相比,MMLU-Pro将每道题的选择项从4个增加到10个,大幅降低了随机猜对的概率。同时,它更注重复杂推理能力而非单纯的事实记忆。在我的测试中,我专注于计算机科学类别的410道题目,因为这与我的日常工作环境密切相关,而且考虑到本地模型在消费级硬件上运行的时间限制——即使是较大模型的单次测试也需要数小时。
提示:所有测试都至少运行两次以确保结果一致性,这比通常只报告单次得分的基准测试更能反映模型的真实能力。
Phi-4作为微软推出的14B参数模型,在这次测试中展示了几个有趣的特点:
不同实现版本的差异:Unsloth修复的Transformers实现与原版在基准测试中表现接近,GGUF版本略微领先(67.8% vs 66.1%)。虽然差异不大,但考虑到GGUF格式通常用于量化模型,这个结果值得关注。
温度参数的影响:当温度设为0时,模型输出稳定但重复;设为1时则变得不可预测。这提示我们在实际应用中需要谨慎调整这个参数。
德语能力提升:相比前代,Phi-4的德语翻译质量有明显进步,虽然偶尔会出现过于直译的问题,但已能满足大多数使用场景。
审查规避:通过基本的提示工程技巧就能完全规避内容过滤机制,这在使用时需要特别注意。
这款72B参数的模型得分相对较低(62.2%),可能因为它基于较旧的Qwen2架构而非更先进的2.5版本。我期待未来能看到基于Qwen2.5架构的VL 72B模型,相信会有更好的表现。
虽然它在本次测试中得分最低(51.46%),但需要说明的是我只收录了得分超过50%的模型。Aya Expanse的主要优势在于支持23种语言,当您需要多语言能力且没有更好选择时,它仍然是一个可靠的选项。
MMLU-Pro通过以下几个方面确保评估的全面性和准确性:
题目设计:每道题有10个选项,随机猜对的概率从MMLU的25%降至10%,大幅提高了测试的区分度。
评分标准:不仅看最终答案是否正确,还会记录模型在回答过程中的确定性程度。当模型无法明确选择答案时,系统会随机猜测并记录这种情况的发生频率和准确率。
测试范围:虽然完整测试包含多个学科,但我专注于计算机科学类别的410道题目,因为:
所有测试都在以下硬件环境下进行:
注意:对于超过24GB显存的大型模型,使用了双RTX 3090配置(共48GB显存),通过NVLink连接。
模型准备:
测试执行:
数据收集:
结果分析:
以下是表现最好的几个模型及其关键指标:
| 模型名称 | 参数规模 | 格式 | 平均准确率 | 最佳单次得分 | Token处理速度(prompt) | Token处理速度(completion) |
|---|---|---|---|---|---|---|
| Claude 3.5 Sonnet | - | API | 82.52% | 82.93% | 362.78 tk/s | 50.90 tk/s |
| Gemini 1.5 Pro | - | API | 80.90% | 81.71% | 346.82 tk/s | 41.87 tk/s |
| QwQ-32B-Preview | 32B | EXL2 | 79.15% | 79.27% | 88.58 tk/s | 44.22 tk/s |
| Athene-V2-Chat | 72B | EXL2 | 77.64% | 79.51% | 82.11 tk/s | 17.81 tk/s |
中端梯队中有几个值得关注的模型:
测试了多种量化配置的模型,发现:
根据测试结果,我建议:
准确率波动:
显存不足:
响应速度慢:
模型大小与性能的非线性关系:670B参数的DeepSeek-V3表现与70B级别的模型相当,说明参数数量不是决定性能的唯一因素。
量化惊喜:某些模型在适度量化后表现反而略有提升,可能与优化后的推理实现有关。
API稳定性:商业API在不同时间的表现存在显著差异(如GPT-4o的版本波动),而本地部署的模型更加稳定。
语言能力差异:虽然测试聚焦英文,但观察到多语言模型在非英语任务上的表现往往与其英文得分不直接相关。
这次全面的基准测试耗时超过103小时,涵盖了当前最受关注的多种大语言模型。结果显示,模型选择需要综合考虑任务需求、硬件条件和性能期望,没有放之四海而皆准的最佳选项。对于我的日常工作场景,QwQ-32B-Preview和Phi-4 GGUF版本成为了新的常用选择,它们在性能与资源消耗间取得了良好平衡。