1. 研究背景与行业认知颠覆
长期以来,可验证奖励强化学习(RLVR)被视为大模型突破推理能力上限的关键技术。行业普遍认为,通过RLVR训练,模型能够发展出超越基础模型的全新推理能力。这种认知直接影响了主流大模型的研发方向——从OpenAI的o1系列到DeepSeek的R1模型,各大机构都在RLVR技术上投入重金,期待实现模型能力的"进化跃迁"。
然而,清华大学LeapLab与上海交通大学联合团队的最新研究,彻底颠覆了这一行业共识。他们通过系统性实验证明:RLVR训练实际上并未赋予大模型任何新的推理能力,它仅仅优化了模型从已有知识中"抄作业"的效率。这个发现犹如投向AI领域的一枚震撼弹,将迫使整个行业重新审视大模型能力提升的技术路线。
这个结论特别值得从业者注意:当我们为RLVR模型的单次采样准确率提升欢呼时,可能正在付出模型整体推理能力下降的代价。
2. 实验设计与核心发现
2.1 评估框架构建
研究团队设计了严谨的三维评估体系:
- 任务维度:覆盖数学推理(MATH数据集)、代码生成(LiveCodeBench)和视觉推理(VCR)三大领域
- 指标维度:采用pass@k核心指标,k取值从1到256,完整刻画模型在不同采样次数下的表现
- 对比维度:平行对比基础模型、RLVR模型和蒸馏模型的性能曲线
这种多维评估框架确保了研究结论的普适性和可靠性。特别值得注意的是pass@k指标的设计——当k=1时反映模型单次输出的准确率;随着k增大,则反映模型在多次尝试中解决问题的上限能力。
2.2 关键数据发现
研究中最具冲击力的发现来自数学推理任务(图2数据):
- 当k=1时:RLVR模型准确率38.7%,显著高于基础模型的21.3%
- 当k=64时:基础模型实现反超,达到52.1%,而RLVR模型仅为45.6%
- 当k=256时:差距进一步拉大,基础模型58.9% vs RLVR模型49.2%
这种"剪刀差"现象在代码生成和视觉推理任务中同样存在。图5显示,在代码任务中,基础模型在k=128时解题率达到50%,而RLVR模型只有42.8%;视觉推理任务中,基础模型的解题覆盖范围同样全面优于RLVR模型。
3. 现象背后的机制解析
3.1 搜索空间压缩效应
图1的搜索树对比直观揭示了RLVR的工作机制:
- 左侧搜索树显示,RLVR模型的所有有效推理路径,都完全包含在基础模型的潜在路径集合中
- 右侧训练曲线表明,随着RLVR训练进行,模型的pass@1持续提升,但pass@256却稳步下降
这说明RLVR本质上是通过调整输出分布,将模型的行为约束到已知的高奖励路径上。这种"路径依赖"虽然提高了单次采样的准确率,却付出了探索能力下降的代价——就像学生为了快速完成作业,只敢使用老师教过的方法,不再尝试其他可能的解法。
3.2 知识边界实证
表4和表5提供了更直接的证据:
- 在AIME24数学题集中,RLVR模型能解的287道题目,全部属于基础模型能解的312道题目的子集
- LiveCodeBench代码题中同样存在这种严格的包含关系
这意味着RLVR模型没有解决任何基础模型完全无法处理的题目,所谓的"能力提升"只是表象。困惑度分析(图6左)进一步证实:RLVR模型生成的回答,其困惑度分布与基础模型的低困惑度区域高度重合,说明这些回答本质上都是基础模型"熟悉"的内容。
4. 技术对比与算法局限
4.1 RLVR与知识蒸馏的差异
图6右侧展示了知识蒸馏模型的pass@k曲线全程高于基础模型,这与RLVR形成鲜明对比。这种差异源于两种技术的本质区别:
- 知识蒸馏:通过教师模型传递新的知识和推理模式
- RLVR:仅在现有知识空间内进行路径选择优化
这解释了为什么蒸馏能真正拓展模型能力边界,而RLVR只能实现局部优化。
4.2 RL算法的共性局限
研究测试了PPO、GRPO和RLOO等主流RL算法,图7显示:
- 不同算法间的性能差异不超过3%
- 所有算法都面临约40分的"采样效率缺口"
- 训练步数增加会导致推理上限持续下降
这些发现表明,当前RL算法框架本身存在根本性局限,单纯优化算法实现难以突破基础模型的能力天花板。
5. 行业影响与实用建议
5.1 研发策略调整
基于这些发现,大模型研发可能需要:
- 重新评估RLVR在能力提升方面的实际价值
- 加强基础模型的预训练质量建设
- 探索知识蒸馏等真正能扩展能力边界的技术路线
5.2 应用场景选择
在实际应用中,需要根据场景特点选择合适的技术:
- 高实时性要求场景(如对话系统):RLVR仍有价值,因其提高了单次响应质量
- 探索性任务场景(如科研辅助):应优先使用基础模型,保留更广的推理可能性
5.3 训练实践建议
对于必须使用RLVR的场景,研究建议:
- 控制训练步数,避免过度优化导致能力萎缩
- 定期评估pass@k曲线,监控模型的能力边界变化
- 采用课程学习策略,分阶段调整奖励函数设计
这项研究最深刻的启示或许是:当前大模型的"能力提升"可能需要更多基础性突破,而非对现有技术的修修补补。当我们在为单指标提升欢呼时,更需要关注模型整体能力图谱的变化——有时候,看似高效的"捷径",反而可能让我们离真正的目标更远。