在检索增强生成(RAG)系统中,检索模型的质量直接决定了最终生成答案的准确性。传统方法通常采用通用嵌入模型(如E5、BGE)作为检索器,这些模型虽然在标准检索基准上表现良好,但在复杂的多跳问答场景中往往力不从心。问题的核心在于:通用模型仅依赖语义相似度进行检索,而忽略了生成任务对文档效用的特定需求。
Agentic-R的创新之处在于将检索过程建模为一个动态优化问题。与静态的一次性检索不同,它通过强化学习框架,使检索器能够根据生成模型的反馈实时调整检索策略。具体来说,在HotpotQA数据集上的实验显示,当问题需要串联多个文档中的信息时(例如"约翰·特拉沃尔塔第三部主演电影中的酒吧创始人是谁"),传统方法容易在中间步骤引入无关信息,而Agentic-R通过迭代优化将准确率提升了7.12个百分点。
关键洞察:文档的"检索价值"不应仅由其与查询的表面相关性决定,而应该考虑它是否真正支持生成正确答案。这正是Agentic-R通过生成反馈机制实现的核心突破。
Agentic-R采用双模型协同设计:
两者的训练采用交替迭代策略:
这种设计使得检索器能够学习到任务特定的文档效用模式。例如在表6的案例中,当搜索"约翰·特拉沃尔塔第三主演角色"时,传统E5返回的文档包含其全部演艺生涯,而Agentic-R精准定位到了《Urban Cowboy》这部关键电影。
我们以E5-base-v2为起点进行对比学习训练,技术细节值得关注:
实验发现三个关键因素显著影响效果:
在PPO训练中,我们遇到两个典型问题及解决方案:
问题1:检索token的梯度干扰
问题2:价值函数过拟合
实战建议:使用FSDP+CPU offloading时,将micro_batch_size设为64可避免OOM,同时保持总batch_size=512的训练稳定性。
表3展示了不同基础模型上Agentic-R的表现:
| 骨干模型 | HotpotQA | TriviaQA | 平均提升 |
|---|---|---|---|
| E5-base | 40.44 | 65.80 | +2.62 |
| BGE-base | 40.28 | 64.00 | +2.81 |
| E5-large | 41.49 | 66.26 | +3.02 |
关键发现:
表5揭示了一个反直觉结论:加入历史查询{q1...qi-1}反而降低效果,特别是在R1-Searcher上平均下降2.84分。分析表明:
这解释了为什么Agentic-R最终采用(Q, qi)的简洁输入格式。
基于8×A800 80G的实测数据:
针对不同场景推荐配置:
yaml复制# 高精度场景(医疗/法律)
retriever:
backbone: e5-large
temperature: 0.005
batch_size: 64
agent:
learning_rate: 5e-7
sequence_length: 4096
# 通用场景
retriever:
backbone: bge-base
temperature: 0.01
batch_size: 32
我们总结了三种常见错误及应对方案:
实验发现固定τ=0.01在训练后期会导致收敛缓慢。我们测试了线性衰减策略:
code复制τ = max(0.01, 0.05*(1 - current_step/total_steps))
这使最终EM分数额外提升0.8,尤其改善了对困难样本的区分度。
将Agentic-R与传统BM25结合:
该方法在PopQA上达到46.33分,比纯神经检索高1.58分。
通过知识蒸馏将Qwen2.5-7B代理压缩到1.8B参数:
这种方案适合资源受限的边缘计算场景,如在移动设备上运行本地化问答系统。