在强化学习领域,奖励建模(Reward Modeling)一直是指导智能体行为优化的核心技术瓶颈。传统方法通常面临两个根本性挑战:一是人工设计的奖励函数难以覆盖复杂任务的全部维度;二是静态规则缺乏对任务上下文的自适应能力。Rubric-ARM的创新之处在于将评分标准(Rubric)生成转化为一个可学习的隐式动作空间,通过交替强化学习实现动态奖励建模。
框架采用双模块协同设计:
markdown复制1. 回应必须直接回答拇指战争是否构成暴力 [硬性规则]
2. 回应需同时考虑暴力的生理和心理层面 [硬性规则]
3. 回应应准确定义相关概念以确保清晰度 [原则性标准]
两模块通过交替更新机制协同训练:固定生成器参数时优化评判器,固定评判器时优化生成器。这种设计在理论上被证明能降低梯度方差(见论文定理5.5)。
与传统rubric方法相比,Rubric-ARM的评分标准具有三个显著特征:
关键经验:在实现时需要注意硬性规则的表述必须绝对明确。我们曾遇到因规则描述模糊(如"适当长度")导致评判不一致的情况,后改为"精确包含2个段落"等可量化标准。
采用Group Relative Policy Optimization (GRPO)作为基础算法,相比标准PPO有两个改进:
python复制# 伪代码示例
advantages = rewards - rewards.mean(axis=0) # 组内归一化
clipped_ratio = torch.clamp(ratio, 1-ε_low, 1+ε_high)
loss = -torch.min(ratio*advantages, clipped_ratio*advantages)
通过三个关键设计解决交替训练的不稳定性:
实际训练中,使用8×A100显卡,每个交替迭代约需12小时。关键超参数见表9:
| 模块 | 批大小 | 学习率 | 迭代次数 |
|---|---|---|---|
| Rubric生成器 | 288 | 1e-6 | 2 |
| 评判器 | 224 | 1e-6 | 2 |
在RewardBench的"拇指战争"案例中(表8),基线模型表现如下:
这种优势在需要多约束同时满足的场景尤为明显。例如在写作评估中(表12),Rubric-ARM在"剧本"类别取得80分,比第二名高4分,主要得益于能同时评估格式、创意和主题契合度。
传统奖励模型常受响应顺序影响(表13):
这归功于两个设计:
尽管使用两个8B模型,通过以下优化实现33.5秒的快速推理:
在实际部署中我们遇到的主要问题及解决方案:
python复制# 冲突解决示例
if "长度限制" in rubric:
prioritize(rules["长度限制"])
在Tulu3-70B的后续训练中,使用Rubric-ARM替代人工标注:
该方法使指令跟随准确率提升12%,且显著降低有害输出率。
当前正在适配图像生成任务,例如:
markdown复制1. 必须包含指定物体 [硬性规则]
2. 构图应符合三分法 [原则性标准]
3. 色彩搭配需和谐 [原则性标准]
初步测试显示在COCO基准上比CLIP-score提升8.2%的评估准确率。