今天要分享的是我在MMLU-Pro CS基准测试中对三款主流大语言模型(Phi-4、Qwen2 VL 72B Instruct和Aya Expanse 32B)的对比评测结果。作为一名长期从事AI模型评测的技术博主,我发现现有的基准测试往往难以全面反映模型在计算机科学领域的真实能力,因此特别设计了这套MMLU-Pro CS扩展测试集。
这个测试最特别之处在于:
测试平台搭载:
特别注意:大模型评测对显存带宽极其敏感,建议至少使用H100或A100 80GB级别的显卡
我的MMLU-Pro CS在原始MMLU基础上新增了:
评分权重分配:
code复制| 测试维度 | 权重 |
|----------------|------|
| 概念理解 | 20% |
| 代码能力 | 30% |
| 系统设计 | 25% |
| 安全分析 | 15% |
| 数学推导 | 10% |
| 模型 | 加权得分 | 概念理解 | 代码能力 |
|---|---|---|---|
| Phi-4 | 82.3 | 85 | 83 |
| Qwen2 VL 72B | 79.1 | 81 | 77 |
| Aya Expanse 32B | 75.6 | 78 | 72 |
题目:实现快速排序并分析时间复杂度
Phi-4表现最优:
设计分布式缓存系统时:
Phi-4采用的混合专家模式在专业领域测试中展现出:
有趣的是72B的Qwen2并未显著优于32B的Aya:
在安全测试环节,所有模型都未能识别出这个SQL注入漏洞:
sql复制SELECT * FROM users WHERE id = 1 AND 1=CONVERT(int, (SELECT table_name FROM information_schema.tables))
这提示当前LLM在安全领域的局限性,也是我后续要重点研究的方