强化学习中的子目标驱动框架与奖励塑形技术

硅谷IT胖子

1. 长视野任务中的子目标驱动框架解析

在强化学习领域，长视野任务(long-horizon tasks)一直是个棘手的问题。这类任务通常需要智能体执行一系列连续动作才能达成最终目标，比如网页导航中的多步骤操作，或是机器人完成复杂装配流程。传统强化学习方法在这类场景下表现不佳，主要原因在于奖励稀疏性(reward sparsity)——智能体只有在最终完成任务时才能获得正向奖励，而在漫长的中间过程中缺乏有效的学习信号。

1.1 核心挑战与解决思路

长视野任务主要面临三个关键挑战：

信用分配问题：在包含数十个动作的轨迹中，如何确定哪些动作真正贡献于最终成功？
探索效率低下：随机探索难以发现那些隐藏在长动作序列后的有效策略。
训练不稳定性：稀疏奖励导致梯度信号微弱，策略容易陷入局部最优。

子目标驱动框架通过将复杂任务分解为一系列可管理的中间里程碑(subgoals)来应对这些挑战。这种"分而治之"的策略源于人类解决问题的方式——我们不会试图一次性解决复杂问题，而是将其分解为多个可完成的子任务。

以WebArena环境中的"在GitLab创建项目并添加成员"任务为例：

导航到项目创建页面
填写项目信息并设置可见性
完成项目创建
添加指定成员

每个子目标都标记着任务推进的关键节点，为智能体提供了中间学习信号。

1.2 潜在函数与奖励塑形

奖励塑形(Reward Shaping)是解决稀疏奖励问题的经典方法，其核心思想是在环境提供的原生奖励之外，设计额外的塑形奖励来引导智能体学习。传统奖励塑形面临的主要难题是如何设计这些额外奖励才能保证策略不变性(policy invariance)——即塑形后的最优策略与原问题最优策略一致。

潜在函数(Potential Function)Φ(s,g)的引入解决了这一难题。基于势能的奖励塑形定义如下：

R̃(s,a,s',g) = R(s,a,s',g) + γΦ(s',g) - Φ(s,g)

其中γ是折扣因子。Ng等人(1999)证明了当塑形奖励采用这种形式时，可以保证原始MDP与塑形后MDP的最优策略一致。

在MiRA框架中，潜在函数Φ(s,g)被实现为潜在批评家(Potential Critic)Pψ(s,g)，它通过学习来预测当前状态s相对于目标g的进度。这种设计有两大优势：

避免了手工设计势能函数的困难
能够自动适应不同任务的结构特点

2. MiRA框架技术实现细节

2.1 整体架构设计

MiRA框架包含三个核心组件：

子目标生成器：基于Gemini-2.5-pro等大型语言模型的视觉-语言理解能力，将用户指令分解为4个固定数量的子目标。这种固定数量的设计确保了不同复杂度的任务具有可比的时间粒度。
潜在批评家：一个经过监督训练的回归模型，输入为当前状态和目标，输出为0到1之间的进度预测值。它的训练数据仅来自成功轨迹，确保学习到的进度信号与真实任务完成度相关。
策略执行器：基于强化学习的主策略网络，接收环境观察并输出动作。其奖励函数结合了环境提供的稀疏奖励和潜在批评家提供的塑形奖励。

2.2 关键算法实现

2.2.1 潜在批评家训练

潜在批评家的训练遵循算法3的流程：

收集成功轨迹数据集D
对每条轨迹τ∈D：
- 提取子目标完成向量z_t
- 识别子目标完成的关键时间步t_1,...,t_K
- 通过线性插值计算连续进度标签p*_t
使用MSE损失进行监督训练：
L_P(ψ) = E_(s_t,g,p*_t)[(P_ψ(s_t,g) - p*_t)^2]

这种设计确保了进度预测的平滑性和单调性，为策略学习提供了稳定的梯度信号。

2.2.2 策略优化

策略优化采用KL正则化的强化学习目标：

max_π E_π[r(s,a) - βlog(π(a|s)/π_ref(a|s))]

其闭式解为：
π*(a|s) = 1/Z(s) π_ref(a|s) exp(Q*(s,a)/β)

在实际实现中，我们使用近端策略优化(PPO)算法进行训练，结合以下奖励函数：

r_total = r_env + α(r_aux)

其中辅助奖励r_aux = α[P_ψ(s_{t+1},g) - P_ψ(s_t,g)]，α是塑形系数，实验中确定最佳值为0.3。

2.3 动态思考预算机制

MiRA引入了"思考预算"(Thinking Budget)的概念——即允许模型在每一步决策时使用的计算资源(以token数衡量)。研究发现(图14)：

思考预算与任务成功率呈非线性关系
过小的预算(256 tokens)导致成功率仅24.3%
最佳静态预算(8192 tokens)达到32.5%成功率
过大的预算(16384 tokens)反而降低至26%

动态调整机制能够自动平衡计算成本与决策质量，实现32.12%的成功率，同时将平均推理时间控制在16.74秒。

3. 实验分析与调优策略

3.1 奖励塑形系数α的影响

表7展示了不同α值对任务成功率的影响：

α值	成功率(%)
0.0	30.9
0.1	31.5
0.3	36.4
0.5	28.5
0.8	25.5

从数据可以看出：

完全不使用奖励塑形(α=0)时性能基准为30.9%
适度塑形(α=0.3)带来最大提升至36.4%
过度塑形(α>0.3)反而损害性能

这种现象符合预期——适度的塑形奖励帮助智能体在稀疏奖励环境中学习，但过强的塑形信号会淹没真正的环境奖励，导致策略偏离最优。

3.2 数据过滤策略分析

表8展示了不同困惑度(perplexity)过滤区间对性能的影响：

Rank Score区间	成功率(%)
(0.9,1.0]	27.9
[0.5,0.9]	36.4
[0.0,0.5)	23.6
[0.0,1.0]	29.1

关键发现：

过于"简单"的数据(rank>0.9)提供有限学习价值
过于"困难"的数据(rank<0.5)包含太多噪声
中等难度数据([0.5,0.9])最有利于学习
不过滤的数据集表现平庸

这验证了课程学习(curriculum learning)的原则——从适度挑战性的样本中学习效果最佳。

4. 实战应用与部署建议

4.1 WebArena环境部署

在WebArena网页导航环境中部署MiRA框架时，需注意以下要点：

观察空间设计：
- 用户指令：自然语言目标描述
- 动作历史：过去50个动作的序列记录
- 网页HTML：简化后的DOM结构，交互元素带有唯一ID

动作空间设计：

python复制def do(action, argument, element):
    """支持的基础动作类型"""
    # action ∈ ["Click","Type","Hover","Scroll","Select Dropdown"]
    # element: DOM元素ID

def exit(message):
    """任务终止并返回结果"""

def go_backward():
    """返回上一页面"""

系统提示设计：
必须严格限制智能体输出格式，防止幻觉行为：

code复制规则：
- 每次只执行一个动作
- 不能虚构不可见元素
- 使用"# Element"注释指明目标元素
- 避免循环，仅在必要时使用条件判断

4.2 调优经验分享

在实际部署中，我们总结了以下关键经验：

子目标数量选择：
- 固定4个子目标是一个较好的平衡点
- 太少会导致每个子目标过于复杂
- 太多会增加规划复杂度
- 可通过验证集调整特定任务的最佳数量
潜在批评家训练：
- 仅使用成功轨迹数据
- 确保进度标签的严格单调性
- 初始训练时使用较大的学习率(2e-5)
- 采用3个训练epoch防止过拟合
策略微调技巧：
- 从SFT模型初始化策略网络
- 初期侧重塑形奖励(α=0.3)
- 随着训练进展逐步降低α值
- 使用KL惩罚(β=0.1)防止策略偏离参考策略过多