DenseR：基于隐藏状态的细粒度强化学习优化方法

2021在职mba

1. GRPO的运作机制与局限性分析

GRPO（Grouped Rollout Policy Optimization）作为当前开源推理模型的主流训练方法，其核心思想简单而有效：通过采样多个生成结果，根据最终答案的正确性给予统一的奖励或惩罚。这种方法摆脱了对额外奖励模型或评论家网络的依赖，仅需模型自身的生成结果和二元判断信号即可完成训练。DeepSeek-R1等知名开源推理模型都采用了这一方法作为技术基础。

但GRPO存在一个根本性问题：它对生成文本中的所有token给予完全相同的奖励权重。举例来说，当一个模型用500个token解决数学问题并最终答对时，GRPO会平等地奖励每一个token——无论是第三行那个关键的解题洞见，还是第一行"让我逐步思考"这样的模板化表达。同样地，当一个生成结果最终答案错误时，所有token都会受到相同程度的惩罚，即使前四步的推理完全正确，只是在第五步出现了计算错误。

这种"一刀切"的奖励分配方式造成了严重的信用分配问题。让我们通过一个具体案例来说明：

code复制问题：解方程2x + 3 = 7

生成结果1（正确）：
"两边减去3：2x = 4。除以2：x = 2"

生成结果2（正确但方法不同）：
"将3移到右边：2x = 7-3=4，所以x=4/2=2"

生成结果3（错误）：
"两边减去3：2x = 10。除以2：x = 5"

生成结果4（完全错误的方法）：
"所有项除以2：x + 3 = 3.5，所以x=0.5"

在GRPO框架下：

生成结果1和2都获得+1的相同奖励
生成结果3和4都获得-1的相同惩罚

这种处理方式忽略了几个关键信息：

生成结果1和3在前几步完全一致（"两边减去3：2x = ..."），只是在"4"和"10"这个关键token出现分歧。这个分歧点正是错误发生的位置，应该受到重点惩罚，而不是均匀惩罚所有token。
生成结果2采用了与生成结果1不同的正确解法，这种独特性应该获得额外奖励，因为它提供了新的解题思路。
生成结果4从一开始就采用了完全错误的解题策略，这种错误类型与生成结果3的局部计算错误有本质区别，应该区别对待。

2. DenseR的核心思想与实现原理

2.1 基本概念与创新点

DenseR的核心洞见在于：模型在生成每个token时产生的内部表示（hidden states）包含了丰富的"思考过程"信息。当两个生成结果的推理过程相似时，它们的hidden states也会相似；当推理路径出现分歧时，hidden states会突然变得不同。这种变化点正是我们需要关注的"决策点"。

DenseR的创新性体现在：

无额外成本：完全利用模型自身在正向传播时已经计算的hidden states，不需要额外的模型或标注
细粒度奖励：将GRPO的统一奖励转化为基于token级别的精细化信号
双重信号：同时考虑跨类别差异（正确与错误生成结果间的差异）和类内独特性（同类生成结果间的差异）

2.2 权重计算机制

DenseR通过以下公式计算每个token的权重：

code复制w_i,t = β·ĉ_i,t + (1-β)

其中：

β ∈ [0,1]控制对比信号的强度（β=0退化为标准GRPO）
ĉ_i,t是归一化后的对比信号，由两部分组成：

code复制c_i,t = α_cross·d_cross_i,t + α_within·d_within_i,t

跨类别差异(d_cross)：
衡量当前token的hidden state与相反类别（正确/错误）生成结果的差异。以前面的例子来说，比较生成结果1（正确）和生成结果3（错误）的hidden states：

在"两边减去3：2x = ..."部分，hidden states几乎相同
在"=4"和"=10"处突然出现显著差异
后续部分因连锁反应而持续不同

这种差异模式能准确定位错误发生的关键位置。

类内独特性(d_within)：
衡量当前token的hidden state与同类其他生成结果的差异。例如：

生成结果1和2都是正确答案，但解法不同，这种独特性值得鼓励
生成结果3和4都是错误答案，但错误类型不同（计算错误vs策略错误），这种差异也需要区分对待

2.3 技术实现细节

在实际实现中，有几个关键考虑：

长度对齐问题：
由于生成结果长度可能不同，我们采用窗口对齐策略。具体来说，当比较两个生成结果的第t个token时，会在另一个生成结果的±5个token范围内寻找最佳匹配。例如，对于100token的生成结果中的第50个token，当与80token的生成结果比较时，会搜索第40±5个token的范围（按比例对齐）。
层选择：
实验表明，不同层的hidden states具有不同特性：

早期层（如第7层）：对表面token特征敏感，定位精确但容错性差
中间层（如第14层）：表现最差
最后层（如第28层）：在容错性和定位准确性间取得最佳平衡

因此DenseR默认使用最后一层的hidden states进行计算。

参数设置：
经过实验验证，推荐以下默认值：

α_cross = 1.0（跨类别差异权重）
α_within = 0.3-1.0（类内独特性权重，小模型取低值）
β = 0.1（对比信号混合系数）
窗口大小 = 5

3. 实验验证与效果分析

3.1 实验设置

我们在Qwen3-0.6B和4B基础模型上进行了对比实验：

训练数据：open-r1/DAPO-Math-17k-Processed中的1000个示例
训练周期：1个epoch（500个RL步骤）
每个prompt生成8个结果
硬件：2×A6000（0.6B模型）和2×H100（4B模型）
学习率：0.6B模型用1e-6，4B模型用5e-7

评估基准：

AIME26、AIME25、AIME24
MATH500
AMC23

3.2 实验结果

0.6B模型表现：

MATH500 pass@1：从32.7%提升到37.9%（+5.2%）
AMC23 pass@1：从17.2%提升到18.8%（+1.6%）
AIME24 pass@1：从0.2%提升到2.5%（12.5倍）
AIME24 pass@16：从3.3%提升到23.3%（7倍）
AIME25 pass@16：从0%提升到10%（GRPO完全无法解决）

4B模型表现：
虽然pass@1基本持平，但在更高k值时优势明显：

AIME25 pass@16：从23.3%提升到30.0%
AIME24 pass@16：从23.3%提升到33.3%

3.3 关键发现

小模型受益更大：
DenseR对0.6B模型的提升幅度显著大于4B模型，表明它能更有效地从有限模型容量中提取推理能力。
难题优势明显：
在简单任务（如MATH500）上提升适中，但在AIME系列高难度题目上提升显著，说明DenseR特别适合复杂推理任务。
多样性增加：
pass@k的提升幅度大于majority vote，说明DenseR能产生更多样化的正确解法，而不仅仅是提高单一解法的质量。

4. 深入分析与验证

4.1 诊断性实验设计

为了验证DenseR的核心假设（hidden states差异反映推理差异），我们设计了系统性测试：

合成数据集：
创建25道数学题，每道题包含5种精心设计的生成结果：

A：标准正确解法
A_paraphrase：同A但表达不同
B：与A相同但包含已知位置的计算错误
C：不同的正确解法
D：完全错误的解法

测试项目：

跨类别差异（A↔B）：能否准确定位错误发生点
跨类别差异（A↔D）：对完全错误的方法是否均匀惩罚
类内独特性（A↔A_paraphrase）：能否识别相同推理的不同表达
类内独特性（A↔C）：能否识别不同的正确策略
类内独特性（B↔D）：能否区分不同类型的错误

4.2 实验结果

错误定位能力：
在A↔B比较中（共享前缀直到错误点），hidden states差异能准确定位错误位置：

Pearson相关系数r=0.84
平均绝对误差≈5个token

差异类型区分：
不同比较对的平均差异程度（1-cosine相似度）：

比较对	类型	平均差异	解释
A ↔ B	跨类别	0.23	差异集中在错误点
A ↔ A_paraphrase	类内	0.55	相同推理，不同表达
A ↔ C	类内	0.56	不同正确策略
A ↔ D	跨类别	0.57	完全错误方法
B ↔ D	类内	0.57	不同错误类型

关键发现：

跨类别差异能有效区分错误类型（局部错误vs完全错误）
类内独特性难以区分真正的策略差异和表面表达差异
对于完全错误的方法，跨类别信号与类内噪声难以区分

4.3 窗口大小的影响

窗口大小（比较时考虑的邻近token范围）是一个关键参数：

小窗口（0-2）：
- 优点：错误定位更精确
- 缺点：对表面变化过于敏感
大窗口（3-5）：
- 优点：抑制表面噪声，增强信号对比度
- 缺点：可能模糊真正的分歧点

实验表明窗口大小=5在多数情况下取得最佳平衡。

5. 技术对比与定位

5.1 不同训练方法比较

方法	需要教师模型？	信号来源	信号密度	策略类型
离线蒸馏	是	大模型token概率	密集	离线
在线蒸馏	是	大模型token概率	密集	在线
自蒸馏	自引用	答案条件下的自身生成	密集	在线
GRPO	否	答案正确性	稀疏	在线
DenseR（本文）	否	答案正确性+生成差异	密集	在线