在当今人工智能领域,大型语言模型(LLM)代理已成为处理复杂多轮任务的重要工具。这些代理通过交替进行内部推理和外部工具交互来完成任务,但如何有效优化其行为策略仍是一个关键挑战。AT2PO(Agentic Turn-based Policy Optimization via Tree Search)框架应运而生,为这一领域带来了突破性进展。
AT2PO的核心创新在于将树搜索结构与轮级策略优化相结合,系统性地解决了多轮代理强化学习中的三大难题:
实际应用中发现,传统方法在复杂多轮任务中经常出现早期策略崩溃或训练不稳定的问题,而AT2PO通过其独特的轮级优化机制显著提升了训练鲁棒性。
AT2PO的树结构构建采用两阶段策略:
初始化阶段:
python复制# 伪代码示例:树初始化过程
def initialize_tree(prompts, M, policy):
trees = []
for x in prompts:
root = Node(state=x)
for _ in range(M):
trajectory = rollout(policy, x)
add_branch(root, trajectory)
trees.append(root)
return trees
动态扩展阶段:
数学上,节点熵值计算采用蒙特卡洛估计:
H_π(n) ≈ (1/|y_k|) Σ [-log π(y_t|x,y_<k)]
其中y_k表示存储在节点n的第k轮轨迹片段
传统方法仅依赖最终结果奖励,导致学习信号稀疏。AT2PO通过树结构实现细粒度的奖励传播:
价值估计:递归计算节点价值
V_n = {
̂r_n, if n是叶节点
Σ w_c V_c, otherwise
}
w_c = H_π(c)/ΣH_π(c')
优势计算:直接使用节点价值作为优势估计
A_n = V_n
实验表明,这种简单直接的方法比复杂的差分优势计算(如TD或全局优势)效果更好,在多跳问答任务中可获得48.81%的平均准确率。
ATPO创新性地将策略更新粒度与多轮交互结构对齐:
重要性采样:在轮级别而非token或序列级别计算
s_turn = (π_θ(y_i,t)/sg[π_θ(y_i,t)]) * sg[(π_θ(y_k)/π_θ_old(y_k))^(1/|y_k|)]
目标函数:
J_ATPO(θ) = E[1/G Σ Σ M_i,t min(s_turn A_i,t, clip(s_turn,1-ε_l,1+ε_r)A_i,t)]
关键特性:
实验涵盖七大数据集,分为两类:
多跳问答:
单跳问答:
评估指标:精确匹配(EM)准确率
基础模型:
超参数:
基线方法:
在Qwen3-4B模型上的表现:
| 方法 | 多跳平均 | 单跳平均 | 综合提升 |
|---|---|---|---|
| ReAct | 30.01 | 41.31 | - |
| GRPO | 46.02 | 54.97 | +19.67 |
| DAPO | 46.65 | 56.33 | +20.66 |
| GSPO | 45.69 | 54.28 | +19.29 |
| AEPO | 46.95 | 55.20 | +20.83 |
| AT2PO | 48.81 | 56.44 | +22.93 |
关键发现:
逐步添加组件的性能变化:
| 配置 | 多跳平均 |
|---|---|
| ReAct基线 | 30.01 |
| 随机树搜索+GRPO损失 | 45.42 |
| 随机树搜索+ATPO损失 | 47.75 |
| +熵引导树扩展 | 48.33 |
| +轮级信用分配(完整AT2PO) | 48.81 |
各组件贡献:
熵值演变:
收敛速度:
轮次分布:
计算资源权衡:
工具集成:
监控指标:
信用分配调整:
探索增强:
策略优化:
当前AT2PO的主要限制:
有前景的改进方向:
在实际电商客服系统中的应用测试表明,AT2PO可将多轮对话任务完成率提升22%,同时减少无效工具调用达35%。这种性能提升主要来自于更精准的轮级决策和更有效的探索策略。