AgentFold：长视野Web智能体的高效上下文管理技术

jean luo

1. AgentFold：重新定义长视野Web智能体的上下文管理范式

在信息爆炸的数字时代，我们正见证着基于大型语言模型(LLM)的Web智能体如何重塑人类获取知识的方式。这类智能体能够不知疲倦地浏览网页、筛选信息并执行复杂任务，理论上可以极大提升信息检索的效率。然而，当我深入实际应用场景时，发现一个根本性矛盾：智能体需要在长期任务中保持上下文连贯性，却又不得不面对"信息过载"与"关键细节丢失"的双重困境。

传统ReAct架构的智能体就像一位从不做笔记的侦探——每个推理-行动-观察的循环都被完整记录，导致百轮交互后上下文可能膨胀至数万token，关键线索被淹没在噪声中。而另一种极端方案则像过度精简的会议纪要——每一步都强制压缩全部历史，重要细节可能在早期就被不可逆地丢弃。这两种方法在BrowseComp等长视野基准测试中表现欠佳，准确率往往难以突破30%。

1.1 人类认知的启示：动态工作记忆

AgentFold的创新灵感源自对人类认知机制的深度观察。当我们解决复杂问题时，大脑会主动管理"工作记忆"：无关步骤被及时清理，中间结论被适当抽象，关键洞察则被强化保留。这种动态的"回顾性整合"能力，正是当前AI智能体所欠缺的。

我在实际测试中发现，传统智能体在50步交互后就会因上下文混乱而性能骤降。而采用AgentFold架构的智能体，即使进行到第100步，其上下文仍能保持在7k tokens左右（仅为ReAct的8%），这得益于其革命性的"折叠"机制。

2. AgentFold核心技术解析：双尺度上下文管理

2.1 动态认知工作区设计

AgentFold将上下文明确划分为四个组件：

用户问题：作为不变的任务锚点
可用工具：定义行动边界
多尺度状态摘要：结构化长期记忆
最新交互：高保真工作记忆

这种设计模拟了人类的问题解决模式：既有稳定的目标指引（用户问题），又有分层次的知识存储（从具体细节到抽象结论），还有即时的情境感知（最新交互）。

python复制# 上下文数据结构示例
context = {
    "question": "寻找在墨西哥和加州都有分店的特食品店...",
    "tools": ["search", "visit_url"],
    "state_summaries": [
        "[1-3步] 确认了加州Northgate Market举办过感恩节插花课",
        "[4-7步] 验证了Mercado González无墨西哥分店"
    ],
    "latest_interaction": {
        "thought": "需要获取墨西哥城麦当劳的GPS坐标",
        "action": "search('麦当劳 Polanco坐标')",
        "observation": "未找到精确坐标，但确认地址正确"
    }
}

2.2 折叠操作的双重模式

细粒度压缩：
将最新单步交互转化为简洁摘要。例如：

"[步骤15] 确认Bazaar del Mundo在圣地亚哥有店，但未发现墨西哥分店"

深度合并：
将连续多个步骤抽象为战略级结论。如将6-16步失败尝试合并为：

"[步骤6-16] 多次尝试获取麦当劳坐标未果，需改变策略"

在实际部署中，我发现深度合并特别适用于以下场景：

子任务完成时（如完成一个事实验证）
遇到死胡同时（如连续搜索无果）
上下文接近长度限制时

2.3 训练数据生成管道

由于现有数据集缺乏战略性的上下文管理示范，团队开发了Fold-Generator流水线。其核心是通过拒绝采样机制，确保每个训练样本都展示出：

精确的工具调用
合理的折叠决策
完整的思维链

我们使用Qwen3-30B作为基础模型，发现即使强大如GPT-4，仅靠提示工程也难以稳定生成符合要求的多部分响应。通过严格的格式验证和轨迹过滤，最终构建了高质量的监督微调数据集。

3. 实战表现：小模型击败巨无霸

3.1 基准测试结果对比

模型	BrowseComp	BrowseComp-ZH	WideSearch	GAIA
AgentFold-30B	36.2%	47.3%	62.1%	67.0%
DeepSeek-V3.1-671B	30.0%	49.2%	-	63.1%
OpenAI o4-mini	28.3%	44.3%	-	-

令人惊讶的是，这个参数量仅为30B（实际激活3B）的模型，在BrowseComp上超越了671B的DeepSeek-V3.1。更值得注意的是，其性能甚至超过了OpenAI的专有模型o4-mini。

3.2 上下文效率的量化优势

在100步交互的轨迹中：

ReAct的上下文线性增长至约84k tokens
AgentFold仅增至7k tokens（节省92%）
内存占用减少约7GB/实例

这种效率优势随着步数增加而放大。在500步的极端测试中，AgentFold的上下文仍能维持在20k tokens以下，且会主动压缩失败的分支。

4. 实施指南与避坑经验

4.1 部署配置建议

基于实际部署经验，推荐以下配置：

yaml复制# 推理配置示例
inference_params:
  max_turns: 100  # 最大交互轮次
  temperature: 0.3  # 平衡创造性与稳定性
  folding_threshold: 0.7  # 折叠置信度阈值
  summary_ratio: 0.3  # 摘要压缩比例