强化学习中的奖励函数设计与GRPO算法解析

老铁爱金衫

1. 强化学习中的奖励函数设计原理

在强化学习系统中，奖励函数扮演着"指挥棒"的角色，它决定了智能体学习的方向和质量。一个设计良好的奖励函数应该能够准确反映任务目标，同时提供足够的学习信号引导智能体逐步改进策略。在Agentic Critical Training（ACT）框架中，研究人员采用了复合奖励函数的设计思路，将多个维度的评估指标有机结合。

1.1 复合奖励函数的组成要素

ACT框架中的奖励函数由三个核心组件构成，每个组件针对不同维度的行为特征进行评估：

R(s, y) = Racc(a, a+) + Radm(a, Aadmissible) + Rfmt(y)

其中，a = extract(y)表示从完整响应y中提取的动作内容，a+是专家示范动作。这种设计考虑了语义正确性（是否做了正确的事）和形式规范性（是否以正确的方式表达）两个层面。

提示：在实际应用中，当响应中不包含有效的动作标签时，系统会将a设为∅，此时仅应用格式惩罚，语义奖励为零。这种处理方式强制模型学习正确的输出格式。

1.2 准确性奖励（Racc）的设计细节

准确性奖励评估提取动作与专家动作的匹配程度，采用二元奖励机制：

Racc(a, a+) =
{
1.0 if normalize(a) = normalize(a+)
0.0 otherwise
}

这里的normalize()函数对动作文本进行标准化处理（如去除多余空格、统一大小写等），确保比较的公平性。这种设计适用于动作空间离散且明确的场景，如ALFWorld中的"go to fridge"、"take apple from table"等具体指令。

在实现时，标准化处理需要考虑领域特定的规则。例如，在实体环境中，对象名称可能有多种表达方式（如"冰箱"与"电冰箱"），这时需要建立同义词映射表确保语义等价的动作能获得相同的奖励。

1.3 可接受动作奖励（Radm）的实用价值

对于动作空间较大或包含开放选项的环境（如自由文本搜索查询），Radm提供了有价值的中间奖励：

Radm(a, Aadmissible) =
{
0.1 if a ≠ a+ ∧ a ∈ Aadmissible
0.0 otherwise
}

这个设计体现了"次优但可行"的哲学——即使不是最佳动作，只要是有效动作就能获得部分奖励。例如在WebShop环境中，搜索"男士休闲衬衫"和搜索"男式休闲上衣"可能都能找到合适商品，虽然表达不完全匹配专家动作，但都应获得部分奖励。

值得注意的是，对于完全开放的动作空间（如自由格式搜索查询），Radm可能被禁用，因为难以明确定义所有有效动作。这种情况下系统仅依赖Racc和Rfmt。

1.4 格式奖励（Rfmt）的规范化作用

格式奖励确保模型输出符合预期的结构化格式：

Rfmt(y) =
{
0.0 if action标签存在
-0.5 otherwise
}

这种硬性规定强制模型学习正确的输出格式，在实际部署中尤为重要。例如，在ALFWorld环境中，动作必须准确包裹在标签中才能被环境解析器识别。格式错误的响应即使语义正确也无法执行，因此需要明确的负面反馈。

实验表明，格式奖励的惩罚力度需要谨慎设置。过轻（如-0.1）可能导致模型忽视格式要求；过重（如-1.0）可能使模型过度关注格式而牺牲语义质量。ACT中采用的-0.5是一个经过实证检验的平衡点。

2. GRPO算法核心技术解析

Group Relative Policy Optimization（GRPO）是ACT框架中的核心优化算法，它在PPO基础上进行了创新改进，特别适合处理具有多样化可能输出的语言模型策略优化。

2.1 GRPO的优势计算机制

传统PPO算法需要额外训练一个价值函数网络来估计优势值，而GRPO通过组内相对比较消除了这一需求。对于每个状态s，算法采样G个响应{y(1), ..., y(G)}，计算每个响应的原始奖励r(g) = R(s, y(g))，然后基于组统计量计算标准化优势：

Â(g) = (r(g) - μ_r) / (σ_r + ε)

其中μ_r和σ_r分别是组内奖励的均值和标准差，ε是数值稳定常数（通常取1e-8）。这种设计带来了三个关键优势：

自动缩放：不同任务或阶段的奖励尺度可能差异很大，组内标准化使更新步长始终保持合理范围
减少方差：相对于绝对奖励值，相对排名更稳定可靠
无需价值网络：简化了训练架构，避免了价值函数估计不准确带来的偏差

在实际实现中，组大小G是需要精心选择的重要超参数。ACT实验发现，对于Qwen3-8B模型，G=8效果最佳；而对于较小的Qwen3-4B模型，需要增大到G=16以获得足够的统计可靠性。

2.2 GRPO的目标函数设计

GRPO的优化目标结合了策略梯度和KL正则化：

L_GRPO(θ) = -E_s∼D E_y(g)∼π_θ(·|s) [
min( ρ(g)Â(g), clip(ρ(g), 1-ε_c, 1+ε_c)Â(g) )
] + β·D_KL(π_θ || π_ref)

其中：

ρ(g) = π_θ(y(g)|s) / π_θ_old(y(g)|s) 是重要性采样比率
ε_c是剪切阈值（通常取0.2）
β是KL惩罚系数
π_ref是参考策略（通常初始化为预训练模型）

KL散度项π_θ || π_ref防止策略偏离初始模型太远，保留语言模型的通用能力。ACT中选择β=0.0，即不施加额外KL约束，仅依靠clip机制控制更新幅度，这在实践中表现更好。

2.3 训练流程的关键阶段

ACT训练分为两个阶段，如算法1所示：

// 阶段1：数据收集
D_critic ← ∅
for each (s_i, a+_i) ∈ D_expert do
Sample {a^1_i, ..., a^K_i} ∼ π_θ0(·|s_i)
A_neg_i ← {a^j_i : a^j_i ≠ a+_i}
for each a-_i ∈ A_neg_i do
D_critic ← D_critic ∪ {(s_i, a+_i, a-_i)}
end for
end for

// 阶段2：GRPO训练
Initialize θ ← θ0, π_ref ← π_θ0
for each training iteration do
Sample batch B ⊂ D_critic
for each (s, a+, a-) ∈ B do
Construct ACT prompt p with randomized positions
Sample {y(1), ..., y(G)} ∼ π_θ(·|p)
Compute rewards and advantages
end for
Update θ using ∇_θ L_GRPO(θ)
end for

第一阶段通过采样构建包含正负样本的批评数据集，第二阶段使用GRPO优化策略。随机化候选动作位置（将专家动作随机放在Action 1或Action 2位置）是一个重要技巧，防止模型产生位置偏好。

3. 实际应用场景与效果分析

ACT框架在多个具有挑战性的环境中进行了验证，包括ALFWorld（实体任务）、WebShop（电商导航）和ScienceWorld（科学实验）。这些环境覆盖了封闭动作空间、开放文本动作和复杂多步推理等不同场景。

3.1 ALFWorld中的精确动作控制

ALFWorld是一个文本型实体环境，智能体需要操作家居物品完成特定任务（如"在厨房找到一个苹果并吃掉它"）。ACT在此环境中的表现显著优于传统模仿学习（IL），主要体现在：

错误恢复能力：当执行错误动作导致状态偏离专家轨迹时，ACT模型能够自我纠正
动作精确性：在需要精确对象引用的动作（如"拿起餐桌上的红苹果"）中错误率降低37%
长程依赖处理：对于需要多步准备的任务（如先打开冰箱才能取物品），成功率提高25%

关键因素在于复合奖励的细粒度反馈。例如，当任务需要"拿牛奶"而模型输出"拿果汁"时：

Racc=0（错误动作）
Radm=0.1（如果"拿果汁"是可接受动作）
Rfmt=0（如果格式正确）
这种反馈比二元对错信号更有利于学习。

3.2 WebShop中的灵活决策

WebShop环境模拟在线购物，动作空间包含自由文本搜索（如"search[男士休闲衬衫]"）和精确点击（如"click[产品A]"）。ACT解决了IL在此环境中的两个主要局限：

状态感知缺失：如图11案例所示，IL模型机械执行搜索→点击→购买流程，无视价格约束
查询僵化：IL倾向于重复使用训练中见过的固定查询，而ACT能根据当前结果调整搜索词

ACT的奖励设计在此特别关键。由于搜索查询难以枚举，禁用Radm，仅用Racc判断查询是否与专家一致，Rfmt确保动作格式正确。实验显示，这种简化设计在保持性能的同时大幅降低了实现复杂度。

3.3 ScienceWorld中的复杂推理

ScienceWorld包含30类科学实验任务，需要结合领域知识进行多步操作。ACT在此展现了强大的推理保持能力，而IL出现了严重的"推理崩溃"现象：

专注度对比：在物理问题求解中，ACT生成10，669字符的聚焦推导，而IL产生37，924字符的散漫文本
代数循环：数学问题上，IL会陷入长达80，000+字符的无效代数循环（图13）
结果质量：ACT在GPQA-Diamond上的准确率比IL高42%

这种差异源于优化目标的本质不同：ACT最大化任务奖励（最终结果正确性），而IL最小化行为差异（模仿专家动作序列）。前者保留了模型的推理能力，后者则可能因过度特化而损害通用能力。

4. 实现细节与调优经验

成功应用ACT框架需要注意一系列工程实现细节和超参数选择。基于公开的实验数据和实际部署经验，我们总结出以下关键要点。

4.1 硬件配置与训练效率

ACT实验使用4张NVIDIA GH200 GPU，采用DeepSpeed ZeRO-3优化内存使用。主要配置包括：

组件	配置详情
精度	BF16混合精度
优化器	AdamW with offload
批量大小	64
最大序列长度	4，096 tokens

使用BF16而非FP16是一个重要选择，它在几乎不增加内存消耗的情况下提供了更大的数值范围，减少了语言模型训练中的溢出风险。对于8B参数量的模型，每GPU的批量大小设置为4，通过梯度累积达到有效批量64。

4.2 关键超参数设置

表4中的超参数经过了广泛的消融实验验证，几个最敏感的配置包括：

学习率：2e-6配合余弦退火调度
- 大于5e-6会导致训练不稳定
- 小于1e-6则收敛过慢
组大小G：与模型规模相关
- Qwen3-8B使用G=8
- Qwen3-4B需要G=16
温度参数：保持1.0
- 低于0.7会降低探索性
- 高于1.2会增加噪声

一个容易被忽视但重要的细节是prompt位置随机化。在构造ACT训练样本时，专家动作应随机出现在"Action 1"或"Action 2"位置，防止模型形成位置偏见。实验显示，缺乏这种随机化会导致模型偏好第一个位置，测试时准确率下降15%。

4.3 数据收集策略

高质量的训练数据是ACT成功的关键。在数据收集阶段需要注意：

负样本质量：从初始策略π_θ0采样的负样本应具有足够多样性
- 过于简单的负样本（明显错误）提供有限学习信号
- 过于接近正样本的"困难负样本"在初期可能阻碍学习
样本平衡：每个专家动作通常收集1-3个负样本
- 太少会限制比较学习效果
- 太多可能导致训练偏向常见错误类型
历史上下文：在构造prompt时，保持适当的历史步骤数k
- ALFWorld中k=3
- WebShop中k=5
- ScienceWorld中k=2