在数学推理领域,传统强化学习方法面临一个根本性困境:每个问题都被当作独立事件处理,成功解题策略在完成后即被丢弃。这就像每次考试都从零开始复习,无法积累解题经验。ARISE框架的突破在于将生物界的"技能进化"理念引入强化学习,构建了一个会自主积累数学解题技巧的智能体系统。
这个系统的核心是一个双通道技能循环机制:
特别值得注意的是其分层奖励设计(R∈{0,1,2}),不仅区分答案对错,还奖励技能的有效使用。这种设计产生了类似"自然选择"的效果:有用的技能被频繁调用而强化,无效技能则逐渐淘汰。
ARISE最具创新性的设计是让同一个神经网络策略πθ同时扮演两个角色:
管理者(Manager):负责技能库的"新陈代谢"
工作者(Worker):负责具体解题过程
这种设计实现了真正的端到端优化——技能选择的好坏会直接影响策略梯度更新。实验显示,这种一体化设计比传统检索式方法(如EvolveR)在AIME竞赛题上的准确率高出2.3%。
ARISE的技能库采用类似计算机缓存的设计:
python复制class SkillLibrary:
def __init__(self):
self.cache = [] # 活跃技能池(容量Cc=10)
self.reservoir = [] # 技能储备池(容量Cr=100)
def update(self, skill, reward):
# 效用值指数移动平均更新
skill.utility = 0.9*skill.utility + 0.1*reward
库维护涉及五种核心操作:
这种机制确保了技能库始终保持"适者生存"的进化状态。在Omni-MATH基准测试中,这种动态管理使技能复用率达到73%,远超静态库的45%。
这个阶段就像学生的"基础课学习",重点培养通用解题能力。实验发现,适当的预热步数(Nw)对后续性能至关重要——过短会导致技能库贫乏,过长则延迟技能优化。
此时出现有趣的"马太效应":表现好的技能获得更多使用机会,进而产生更优质的新技能。如图3(b)所示,库大小在约1500步后趋于稳定,但准确率持续提升,说明后期优化主要来自技能选择精度的提高而非数量增长。
在Qwen3-4B模型上的测试结果:
| 方法 | AMC23 | AIME24 | Omni-MATH |
|---|---|---|---|
| GRPO | 72.9 | 54.1 | 23.9 |
| DAPO | 74.2 | 55.3 | 25.3 |
| ARISE(本文) | 75.4 | 56.4 | 26.8 |
特别值得注意的是分布外泛化能力——在未见过的Omni-MATH题型上,ARISE相对GRPO提升2.9%,证明其确实学会了"举一反三"的数学思维。
通过关键模块的禁用测试,我们得到以下发现:
这些结果验证了ARISE设计假设:技能质量与选择机制同样重要,而二者的协同进化才是性能提升的关键。
技能文档标准化是基础
code复制技能名:指数方程同底法
适用:指数方程求根
步骤:
1. 化为同底数
2. 比较指数
3. 验算定义域
超参数调优建议
计算资源规划
这个框架的潜力不仅限于数学推理。任何需要长期规划和多步骤推理的领域——如代码生成、科学计算等——都可以尝试移植这套"技能进化"范式。关键在于三点:定义好技能表示、设计合理的分层奖励、建立技能的质量反馈机制。