在当今AI领域,大型语言模型(LLM)代理已成为解决复杂任务的重要工具。这些代理通过多轮交互(multi-turn interaction)与环境进行动态交流,每轮交互通常包含三个关键组成部分:思维链(Chain-of-Thought, CoT)推理、具体行动执行以及环境观察反馈。然而,这种交互模式存在一个显著问题——随着交互轮次的增加,冗余的思维过程和累积的环境观察会急剧膨胀上下文长度,导致计算资源的大量浪费。
传统解决方案如MEM-Agent和ReSum采用"一刀切"的策略,对整个交互轨迹进行均等压缩或总结。这种方法存在明显缺陷:它忽视了不同交互轮次中思维必要性和观察效用的动态变化。就像人类在解决问题时,初期需要深入思考制定计划,而后期可能只需执行简单操作;同样,早期观察对后续决策可能已不再重要。
Agent-Omit的创新之处在于首次提出了量化分析框架,通过蒙特卡洛模拟(Monte Carlo rollout)证明:在保持任务准确性的前提下,选择性省略特定轮次的冗余内容可显著降低token消耗。基于这一发现,该框架通过两阶段训练(冷启动数据合成与省略感知的强化学习)使代理学会动态识别并省略非关键内容。
关键突破点:传统方法压缩整个轨迹如同将整本书总结为摘要,而Agent-Omit更像熟练的读者,知道哪些章节可以跳过而不影响理解故事主线。
通过WebShop环境下的定量分析(使用Qwen3-8B模型),我们发现代理的token消耗主要来自两个源头:
相比之下,行动执行仅占2.7%,说明效率瓶颈主要在于推理过程和观察管理,而非操作本身。这揭示了优化潜力最大的方向。
通过逐轮次的蒙特卡洛分析,我们观察到三个重要现象:
思维必要性差异:初期规划(如搜索策略制定)对任务成功至关重要(Pass@8显著提高),而后续具体执行步骤的思维贡献度迅速下降,甚至低于Pass@1基线。例如在旅行规划中,一旦确定"先查机票再订酒店"的策略,后续具体查询步骤的思考就显得冗余。
观察效用衰减:早期观察(如前几轮的搜索结果)在最终答案汇总阶段往往成为噪声。就像拼图游戏,初期需要查看所有碎片,但后期只需关注特定位置的几块。
安全省略窗口:如图3所示,中间轮次(Turns 3-6)存在明显的"灰色区域"——在此处省略思维或观察可减少20-35%的token消耗,而准确性几乎不受影响。这为动态省略提供了理论依据。
为教会代理"何时省略"和"如何继续",我们构建了层次化的合成数据集:
单轮省略样本:通过特定系统提示指导代理学习两种行为:
<think></think><omit tool response N>指令多轮省略轨迹:将原始轨迹中的冗余内容替换为省略行为,迫使代理在缺失上下文的情况下保持推理连续性。例如在购物任务中,当省略价格比较的中间步骤时,代理仍需能直接给出最终选择。
针对传统RL在省略策略训练中的"上下文变更"问题,我们提出创新解决方案:
双采样机制:
混合奖励设计:
python复制def calculate_reward(trajectory):
task_reward = check_accuracy(trajectory)
if task_reward > 0:
saved_tokens = omitted_thought_tokens / total_tokens
+ omitted_observation_tokens / total_tokens
omission_reward = min(saved_tokens, 1.0) # 归一化处理
else:
omission_reward = 0 # 防止奖励黑客行为
return (1-μ)*task_reward + μ*omission_reward # μ=0.2
多目标策略优化:采用GRPO算法平衡KL散度约束与奖励最大化,确保策略更新既高效又稳定。
通过建立语义Lipschitz连续性假设,我们证明学习策略与最优策略的偏差受KL散度上界约束:
d(y*, y) = ||ϕ(y*) - ϕ(y)||code复制|E[R(y*)] - E[R(y)]| ≤ δr + K'r·KL(π*||πθ)
|E[C(y*)] - E[C(y)]| ≤ δc + K'c·KL(π*||πθ)
这意味着随着RL训练最小化KL散度,代理的准确性和token消耗将收敛到最优省略边界,仅受近似误差δ的限制。
我们在五个代表性环境中进行严格评估:
| 环境 | 任务类型 | 最大轮次 | 关键挑战 |
|---|---|---|---|
| DeepSearch | 信息检索 | 8 | 知识密集型查询 |
| WebShop | 电商导航 | 12 | 多页面状态转换 |
| TextCraft | 游戏合成 | 20 | 长序列配方记忆 |
| BabyAI | 具身控制 | 10 | 空间推理 |
| SciWorld | 科学实验 | 10 | 复杂仪器操作 |
Agent-Omit-8B-RL在保持竞争力的同时显著降低token消耗:
| 模型 | WebShop Pass@1 | Avg Tokens | 相对节省 |
|---|---|---|---|
| DeepSeek-R1 | 19.37% | 11,308 | - |
| Qwen3-32B | 11.31% | 11,872 | - |
| Agent-Omit | 23.57% | 8,764 | ↓22.5% |
在Qwen3-8B基础上,我们的方法全面超越三类基线:
Agent-Omit在SciWorld上实现18.45%的Pass@1,同时token消耗仅为9,643,达到最佳效能-效率平衡。
训练后的代理展现出智能的省略模式:
在实际部署Agent-Omit时,我们总结了以下关键经验:
yaml复制SFT阶段: 5e-6 # 快速收敛
RL阶段: 5e-7 # 稳定策略更新
过度省略:
保守策略:
训练震荡:
Agent-Omit的核心理念可扩展至多个领域:
未来工作将探索:
通过这项技术,我们正朝着构建"思考经济型"AI代理迈出关键一步——在正确的时间进行必要的思考,而非无差别地消耗计算资源。这种能力对LLM在边缘设备部署和实时系统应用具有重要意义。