在强化学习系统中,奖励函数扮演着"指挥棒"的角色,它决定了智能体学习的方向和质量。一个设计良好的奖励函数应该能够准确反映任务目标,同时提供足够的学习信号引导智能体逐步改进策略。在Agentic Critical Training(ACT)框架中,研究人员采用了复合奖励函数的设计思路,将多个维度的评估指标有机结合。
ACT框架中的奖励函数由三个核心组件构成,每个组件针对不同维度的行为特征进行评估:
R(s, y) = Racc(a, a+) + Radm(a, Aadmissible) + Rfmt(y)
其中,a = extract(y)表示从完整响应y中提取的动作内容,a+是专家示范动作。这种设计考虑了语义正确性(是否做了正确的事)和形式规范性(是否以正确的方式表达)两个层面。
提示:在实际应用中,当响应中不包含有效的动作标签时,系统会将a设为∅,此时仅应用格式惩罚,语义奖励为零。这种处理方式强制模型学习正确的输出格式。
准确性奖励评估提取动作与专家动作的匹配程度,采用二元奖励机制:
Racc(a, a+) =
{
1.0 if normalize(a) = normalize(a+)
0.0 otherwise
}
这里的normalize()函数对动作文本进行标准化处理(如去除多余空格、统一大小写等),确保比较的公平性。这种设计适用于动作空间离散且明确的场景,如ALFWorld中的"go to fridge"、"take apple from table"等具体指令。
在实现时,标准化处理需要考虑领域特定的规则。例如,在实体环境中,对象名称可能有多种表达方式(如"冰箱"与"电冰箱"),这时需要建立同义词映射表确保语义等价的动作能获得相同的奖励。
对于动作空间较大或包含开放选项的环境(如自由文本搜索查询),Radm提供了有价值的中间奖励:
Radm(a, Aadmissible) =
{
0.1 if a ≠ a+ ∧ a ∈ Aadmissible
0.0 otherwise
}
这个设计体现了"次优但可行"的哲学——即使不是最佳动作,只要是有效动作就能获得部分奖励。例如在WebShop环境中,搜索"男士休闲衬衫"和搜索"男式休闲上衣"可能都能找到合适商品,虽然表达不完全匹配专家动作,但都应获得部分奖励。
值得注意的是,对于完全开放的动作空间(如自由格式搜索查询),Radm可能被禁用,因为难以明确定义所有有效动作。这种情况下系统仅依赖Racc和Rfmt。
格式奖励确保模型输出符合预期的结构化格式:
Rfmt(y) =
{
0.0 if action标签存在
-0.5 otherwise
}
这种硬性规定强制模型学习正确的输出格式,在实际部署中尤为重要。例如,在ALFWorld环境中,动作必须准确包裹在
实验表明,格式奖励的惩罚力度需要谨慎设置。过轻(如-0.1)可能导致模型忽视格式要求;过重(如-1.0)可能使模型过度关注格式而牺牲语义质量。ACT中采用的-0.5是一个经过实证检验的平衡点。
Group Relative Policy Optimization(GRPO)是ACT框架中的核心优化算法,它在PPO基础上进行了创新改进,特别适合处理具有多样化可能输出的语言模型策略优化。
传统PPO算法需要额外训练一个价值函数网络来估计优势值,而GRPO通过组内相对比较消除了这一需求。对于每个状态s,算法采样G个响应{y(1), ..., y(G)},计算每个响应的原始奖励r(g) = R(s, y(g)),然后基于组统计量计算标准化优势:
Â(g) = (r(g) - μ_r) / (σ_r + ε)
其中μ_r和σ_r分别是组内奖励的均值和标准差,ε是数值稳定常数(通常取1e-8)。这种设计带来了三个关键优势:
在实际实现中,组大小G是需要精心选择的重要超参数。ACT实验发现,对于Qwen3-8B模型,G=8效果最佳;而对于较小的Qwen3-4B模型,需要增大到G=16以获得足够的统计可靠性。
GRPO的优化目标结合了策略梯度和KL正则化:
L_GRPO(θ) = -E_s∼D E_y(g)∼π_θ(·|s) [
min( ρ(g)Â(g), clip(ρ(g), 1-ε_c, 1+ε_c)Â(g) )
] + β·D_KL(π_θ || π_ref)
其中:
KL散度项π_θ || π_ref防止策略偏离初始模型太远,保留语言模型的通用能力。ACT中选择β=0.0,即不施加额外KL约束,仅依靠clip机制控制更新幅度,这在实践中表现更好。
ACT训练分为两个阶段,如算法1所示:
// 阶段1:数据收集
D_critic ← ∅
for each (s_i, a+_i) ∈ D_expert do
Sample {a^1_i, ..., a^K_i} ∼ π_θ0(·|s_i)
A_neg_i ← {a^j_i : a^j_i ≠ a+_i}
for each a-_i ∈ A_neg_i do
D_critic ← D_critic ∪ {(s_i, a+_i, a-_i)}
end for
end for
// 阶段2:GRPO训练
Initialize θ ← θ0, π_ref ← π_θ0
for each training iteration do
Sample batch B ⊂ D_critic
for each (s, a+, a-) ∈ B do
Construct ACT prompt p with randomized positions
Sample {y(1), ..., y(G)} ∼ π_θ(·|p)
Compute rewards and advantages
end for
Update θ using ∇_θ L_GRPO(θ)
end for
第一阶段通过采样构建包含正负样本的批评数据集,第二阶段使用GRPO优化策略。随机化候选动作位置(将专家动作随机放在Action 1或Action 2位置)是一个重要技巧,防止模型产生位置偏好。
ACT框架在多个具有挑战性的环境中进行了验证,包括ALFWorld(实体任务)、WebShop(电商导航)和ScienceWorld(科学实验)。这些环境覆盖了封闭动作空间、开放文本动作和复杂多步推理等不同场景。
ALFWorld是一个文本型实体环境,智能体需要操作家居物品完成特定任务(如"在厨房找到一个苹果并吃掉它")。ACT在此环境中的表现显著优于传统模仿学习(IL),主要体现在:
关键因素在于复合奖励的细粒度反馈。例如,当任务需要"拿牛奶"而模型输出"拿果汁"时:
WebShop环境模拟在线购物,动作空间包含自由文本搜索(如"search[男士休闲衬衫]")和精确点击(如"click[产品A]")。ACT解决了IL在此环境中的两个主要局限:
ACT的奖励设计在此特别关键。由于搜索查询难以枚举,禁用Radm,仅用Racc判断查询是否与专家一致,Rfmt确保动作格式正确。实验显示,这种简化设计在保持性能的同时大幅降低了实现复杂度。
ScienceWorld包含30类科学实验任务,需要结合领域知识进行多步操作。ACT在此展现了强大的推理保持能力,而IL出现了严重的"推理崩溃"现象:
这种差异源于优化目标的本质不同:ACT最大化任务奖励(最终结果正确性),而IL最小化行为差异(模仿专家动作序列)。前者保留了模型的推理能力,后者则可能因过度特化而损害通用能力。
成功应用ACT框架需要注意一系列工程实现细节和超参数选择。基于公开的实验数据和实际部署经验,我们总结出以下关键要点。
ACT实验使用4张NVIDIA GH200 GPU,采用DeepSpeed ZeRO-3优化内存使用。主要配置包括:
| 组件 | 配置详情 |
|---|---|
| 精度 | BF16混合精度 |
| 优化器 | AdamW with offload |
| 批量大小 | 64 |
| 最大序列长度 | 4,096 tokens |
使用BF16而非FP16是一个重要选择,它在几乎不增加内存消耗的情况下提供了更大的数值范围,减少了语言模型训练中的溢出风险。对于8B参数量的模型,每GPU的批量大小设置为4,通过梯度累积达到有效批量64。
表4中的超参数经过了广泛的消融实验验证,几个最敏感的配置包括:
一个容易被忽视但重要的细节是prompt位置随机化。在构造ACT训练样本时,专家动作应随机出现在"Action 1"或"Action 2"位置,防止模型形成位置偏见。实验显示,缺乏这种随机化会导致模型偏好第一个位置,测试时准确率下降15%。
高质量的训练数据是ACT成功的关键。在数据收集阶段需要注意:
对于ScienceWorld等复杂环境,由于计算资源限制,可以采用子采样策略(如从专家轨迹中随机选择10,240个状态-动作对),但需确保覆盖所有任务类型。
在实际部署ACT框架时,我们总结了以下几个典型问题及其解决方案:
奖励稀疏问题:
格式过度优化:
模式坍塌:
训练不稳定:
一个特别有用的技巧是"课程学习"——先在小规模动作空间上训练(如限制可操作物体数量),再逐步放开限制。在ALFWorld实验中,这种方法使最终性能提升了28%。
ACT框架针对模仿学习(IL)和传统强化学习(RL)的局限性提出了创新解决方案。通过系统性的实验对比,我们可以清晰地看到各方法的优缺点。
模仿学习通过直接复制专家行为来训练策略,在ACT比较实验中表现出三个主要局限:
根本原因在于IL最小化行为差异(动作分布匹配),而ACT最大化结果正确性(任务奖励)。这种差异在以下场景尤为明显:
传统RL方法(如PPO)在语言模型微调中面临两个主要挑战:
ACT通过以下创新解决了这些问题:
实验数据显示,在ScienceWorld环境中,ACT相比传统PPO训练速度提升2.1倍,最终任务成功率提高37%。特别是在需要多步推理的任务上,优势更加明显。
虽然ACT需要采样多个候选响应计算组统计量,看似增加了计算开销,但实际效率优于传统方法:
| 方法 | 每次迭代计算量 | 收敛所需迭代次数 | 总计算成本 |
|---|---|---|---|
| IL | 1x | 500k | 500k |
| PPO | 1.2x | 400k | 480k |
| ACT | 2.5x | 150k | 375k |
这种优势源于ACT更高效的学习信号。例如,在ALFWorld实验中,ACT仅需3个epoch(约150k步)就能达到IL需要10个epoch(500k步)的性能水平。
值得注意的是,ACT的内存消耗主要来自同时处理多个候选响应。使用梯度检查点技术和DeepSpeed ZeRO-3优化后,8B参数模型可在4张80GB GPU上高效训练。