AT2PO框架：多轮代理强化学习的技术突破

李放放

1. AT2PO框架概述：多轮代理强化学习的新范式

在当今人工智能领域，大型语言模型(LLM)代理已成为处理复杂多轮任务的重要工具。这些代理通过交替进行内部推理和外部工具交互来完成任务，但如何有效优化其行为策略仍是一个关键挑战。AT2PO(Agentic Turn-based Policy Optimization via Tree Search)框架应运而生，为这一领域带来了突破性进展。

AT2PO的核心创新在于将树搜索结构与轮级策略优化相结合，系统性地解决了多轮代理强化学习中的三大难题：

探索效率低下：传统方法往往采用随机或启发式扩展策略，无法有效识别和探索高潜力决策点
信用分配稀疏：多轮任务中奖励通常只在最终结果时提供，难以准确评估中间步骤的贡献
策略优化失配：现有方法将多轮交互视为扁平序列处理，忽视了轮次结构的特殊性

实际应用中发现，传统方法在复杂多轮任务中经常出现早期策略崩溃或训练不稳定的问题，而AT2PO通过其独特的轮级优化机制显著提升了训练鲁棒性。

2. 核心组件与技术原理

2.1 熵引导的树扩展策略

AT2PO的树结构构建采用两阶段策略：

初始化阶段：

对每个提示(prompt)生成M条独立轨迹作为初始分支
构建共享根节点，存储初始状态
每个非根节点保存中间状态和对应动作

python复制# 伪代码示例：树初始化过程
def initialize_tree(prompts, M, policy):
    trees = []
    for x in prompts:
        root = Node(state=x)
        for _ in range(M):
            trajectory = rollout(policy, x)
            add_branch(root, trajectory)
        trees.append(root)
    return trees

动态扩展阶段：

计算各节点的策略熵值，量化决策不确定性
选择熵值最高的K个节点进行分支扩展
引入分支惩罚系数α防止单一节点过度扩展
从选定节点生成新轨迹并添加到树中

数学上，节点熵值计算采用蒙特卡洛估计：
H_π(n) ≈ (1/|y_k|) Σ [-log π(y_t|x,y_<k)]
其中y_k表示存储在节点n的第k轮轨迹片段

2.2 轮级信用分配机制

传统方法仅依赖最终结果奖励，导致学习信号稀疏。AT2PO通过树结构实现细粒度的奖励传播：

价值估计：递归计算节点价值
- 叶节点：使用标准化结果奖励
- 内部节点：基于子节点熵值加权平均
V_n = {
̂r_n, if n是叶节点
Σ w_c V_c, otherwise
}
w_c = H_π(c)/ΣH_π(c')
优势计算：直接使用节点价值作为优势估计
A_n = V_n

实验表明，这种简单直接的方法比复杂的差分优势计算(如TD或全局优势)效果更好，在多跳问答任务中可获得48.81%的平均准确率。

2.3 轮级策略优化(ATPO)

ATPO创新性地将策略更新粒度与多轮交互结构对齐：

重要性采样：在轮级别而非token或序列级别计算
s_turn = (π_θ(y_i,t)/sg[π_θ(y_i,t)]) * sg[(π_θ(y_k)/π_θ_old(y_k))^(1/|y_k|)]
目标函数：
J_ATPO(θ) = E[1/G Σ Σ M_i,t min(s_turn A_i,t, clip(s_turn,1-ε_l,1+ε_r)A_i,t)]

关键特性：

保留工具响应token的掩码机制(M_i,t)
使用停止梯度操作(sg)稳定训练
较小的裁剪阈值(ε_l=3e-3, ε_r=4e-3)

3. 实现细节与实验配置

3.1 基准测试与评估设置

实验涵盖七大数据集，分为两类：

多跳问答：
- HotpotQA：需要多文档推理
- 2WikiMultihopQA：维基百科多跳推理
- MuSiQue：通过问题组合构建
- Bamboogle：对抗性干扰下的搜索
单跳问答：
- Natural Questions(NQ)：真实用户问题
- TriviaQA：知识问答
- PopQA：流行文化问答