在传统强化学习框架中,智能体的训练严重依赖精心设计的奖励函数。然而,现实世界中的许多任务要么难以量化奖励(如开放式对话),要么奖励信号稀疏延迟(如多步网页导航)。早期经验范式(Early Experience Paradigm)突破这一限制,通过智能体自身的行为探索生成监督信号,在完全无外部奖励的条件下实现策略优化。
这个范式的核心洞见在于:智能体在环境中的每次交互都会产生(状态,动作,新状态)的三元组,这些数据本身就蕴含着环境动态规律和行动效果信息。通过设计特定的学习目标,我们可以将这些"免费"的体验转化为有价值的训练信号。这种方法特别适合语言智能体(Language Agents)的预训练阶段,因为:
隐式世界建模(IWM)要求智能体学习预测给定状态-动作对后的环境响应。具体实现时,我们在语言模型的架构上添加一个轻量级的预测头,其训练目标是最小化以下损失函数:
code复制L_IWM = E_(s,a,s')~D [||f_θ(s,a) - s'||^2]
其中f_θ是预测网络,D是智能体探索得到的经验数据集。这个看似简单的目标产生了三个关键效果:
在Web导航任务WebArena中的实验表明,经过IWM训练的智能体在链接点击准确率上比纯模仿学习基线提升14.8%,这是因为模型已经内化了网页状态转移的潜在规律。
自我反思(SR)机制通过对比智能体自身轨迹与专家示范的差异来修正策略。其核心是一个两阶段循环:
这个过程产生的监督信号用于微调策略网络,其损失函数可表示为:
code复制L_SR = E_(s,a*,a-)~D [max(0, γ + Q(s,a-) - Q(s,a*))]
其中a*是专家动作,a-是负面样本,Q是动作价值评估函数。在科学实验环境ScienceWorld中,SR使多步实验设计的成功率从47.1%提升至51.0%,主要纠正了试剂添加顺序等逻辑错误。
关键发现:IWM在状态转移稳定的环境中表现更优(如网页导航),而SR更擅长修正推理和规划错误(如实验设计)。两者结合时可获得互补优势。
有效的早期经验依赖于高质量的探索数据收集。我们设计了分层采样策略:
专家引导探索:在专家轨迹的每个状态s_t,执行以下操作:
状态增强:对每个真实轨迹,通过以下方式生成变体:
在WebShop任务中,这种策略使收集到的数据覆盖了92%的关键状态转移,远超纯随机探索的37%。
针对不同规模的语言模型,我们设计了适配方案:
| 模型规模 | IWM实现方案 | SR实现方案 | 显存优化策略 |
|---|---|---|---|
| 3B | 全参数微调 | 全参数微调 | 梯度检查点 |
| 8B | LoRA(r=64) | 前缀调优(prefix_len=32) | 8-bit量化 |
| 70B | 适配器(Adapter) | 提示调优(prompt_len=10) | 张量并行+ZeRO-3 |
实验显示,LoRA在8B模型上实现了全参数微调97%的性能,但仅需15%的训练资源。对于超大规模模型,适配器层的位置选择尤为关键——我们发现在注意力FFN之后插入效果最佳。
采用两阶段训练流程:
阶段一:课程学习
阶段二:混合训练
交替进行:
在ALFWorld环境中,这种策略使训练效率提升2.3倍,因为避免了早期低质量数据对模型的干扰。
我们在8个基准环境进行了系统测试,关键结果如下:
| 环境 | 指标 | 模仿学习 | +IWM | +SR | 提升幅度 |
|---|---|---|---|---|---|
| WebShop | 成功率 | 47.3% | 58.6% | 58.2% | +11.3% |
| ALFWorld | 成功率 | 80.5% | 85.9% | 85.2% | +5.4% |
| SearchQA | F1分数 | 47.1% | 49.6% | 51.0% | +3.9% |
| ScienceWorld | 完成度 | 39.8% | 44.8% | 48.0% | +8.2% |
为测试鲁棒性,我们在三个环境设置了领域外(OOD)测试集:
结果显示早期经验方法显著提升了OOD性能:
code复制ALFWorld OOD:
- 模仿学习: 64.1%
- +IWM: 70.3% (+6.2)
- +SR: 71.1% (+7.0)
SearchQA OOD:
- 模仿学习: 40.5%
- +IWM: 45.4% (+4.9)
- +SR: 44.0% (+3.5)
特别值得注意的是,在某些情况下OOD提升甚至超过领域内提升(如ALFWorld +7.0 vs +5.4),这表明早期经验帮助模型学习了更通用的环境规律而非简单记忆轨迹。
当环境最终提供奖励信号时,早期经验预训练的模型展现出独特优势。我们在WebShop、ALFWorld和SearchQA上测试了GRPO算法从不同初始化开始的性能演变:

关键发现:
这证实了早期经验作为"预训练"阶段的价值——它提供了:
问题1:探索不足
问题2:灾难性遗忘
IWM预测粒度:
SR对比样本数K:
训练批次构建:
渐进式上线:
持续学习:
计算资源规划:
当前方法在以下场景展现特殊价值:
高风险环境预训练:
多模态智能体开发:
终身学习系统:
最迫切的改进方向包括:
在实际部署Web导航智能体时,我们采用早期经验预训练+少量人工反馈微调的方案,使客户支持工单减少了43%,同时首次交互成功率从68%提升至82%。这证实了该方法在真实业务场景中的实用价值。