大模型Agent系统中的上下文工程实践

小猪佩琪168

1. 上下文工程：Agent系统的隐形骨架

在构建基于大模型的Agent系统时，开发者往往把注意力集中在模型选择、工具集成和提示词优化上，却忽视了一个更为基础的问题：模型每次推理时究竟看到了什么？这个问题看似简单，却直接决定了Agent系统的稳定性和可靠性。

想象一下，你正在训练一位新入职的助理。这位助理非常聪明，学习能力极强，但有一个特殊的工作方式：每次决策时，你都只能给他一张A4纸的信息量。这张纸上写什么、怎么写、保留哪些内容、舍弃哪些内容，将直接影响他的工作质量。上下文工程，就是为Agent系统设计这张"信息纸"的完整方法论。

1.1 从原型到生产的鸿沟

很多团队在开发Agent原型时都有过这样的体验：Demo阶段效果惊艳，一旦进入真实生产环境，系统表现却迅速恶化。常见症状包括：

短对话表现良好，但长任务链中关键约束被遗忘
工具调用结果明明返回成功，模型却重复执行相同操作
RAG检索到了正确答案，模型却基于无关片段生成回复
会话越长，响应越慢，token消耗越高，但质量不升反降

这些表面看似不同的问题，实际上都指向同一个根源：上下文管理不善。模型不是在思考真实世界，而是在思考你给它的那个经过筛选和组织的"局部世界"。当这个局部世界的信息不完整、过时或混乱时，再强大的模型也会做出错误决策。

1.2 上下文与提示词的本质区别

在单轮问答场景中，提示词工程（Prompt Engineering）确实是核心技能，因为prompt几乎构成了模型的全部输入。但在多轮交互、工具调用和复杂任务处理的Agent场景中，prompt已经降格为上下文的一个子集。

现代Agent系统的典型上下文可能包含：

系统提示和角色定义
用户当前输入和历史对话
RAG检索结果
工具执行返回值
任务状态和进度
长期记忆和用户偏好
权限控制和合规要求

这种复杂性使得传统的prompt优化技巧显得力不从心。上下文工程关注的是更系统性的问题：什么信息应该进入工作集？以什么形式呈现？保留多久？如何更新？出现冲突如何解决？

2. 上下文工程的三大核心层级

2.1 瞬时层：精准制导的战术信息

瞬时层服务于模型当前的单次决策，是上下文中最敏感也最关键的组成部分。它通常包括：

用户本轮输入
必要的任务节点指令
最近一次工具调用结果
当前阶段必须的状态变量
本轮最相关的知识片段

瞬时层的设计原则是"精准制导"：

严格预算控制：通常限制在2-4k token以内
零噪声容忍：无关信息坚决排除
高结构清晰度：关键信息突出呈现
强时效性：过时信息立即失效

在实际工程中，我们经常使用"上下文门控"机制来实现瞬时层的精准控制。例如，在客服工单系统中，当处理"退款申请"节点时，系统会自动注入：

当前工单状态（已核实商品问题）
用户订单详情（仅相关字段）
公司退款政策（当前适用条款）
必要工具接口说明（退款API参数）

这种高度定向的信息供给，可以显著降低模型的认知负荷，提高决策准确性。

2.2 会话层：任务连贯性的保障

会话层负责维护单次任务或连续对话的上下文连贯性。与简单保存原始对话历史不同，有效的会话层管理需要：

结构化快照：

markdown复制1. [任务状态]
   - 当前阶段：产品配置确认
   - 已确认参数：
     * 型号：Pro-3000 
     * 存储：1TB
     * 交付日期：2024-06-15
   - 待决问题：
     * 是否需要延长保修
     * 付款方式确认

2. [对话脉络]
   - 用户明确拒绝了标准配置中的软件包
   - 用户询问过教育优惠但不符合条件
   - 两次确认过交付时间不可提前

动态摘要策略：

每3-5轮对话生成一次增量摘要
关键决策点保存完整状态快照
使用提取式摘要保留精确数据
对模糊表述添加系统注解

会话层的一个高级技巧是"状态锚点"设计。我们在电商客服Agent中实践发现，当系统显式维护如下锚点时，任务连续性显著提升：

已确认事实（用户明确同意的内容）
待解决问题（开放事项列表）
约束条件（用户设定的限制）
临时假设（需要后续验证的内容）

2.3 长期层：持续学习的知识资产

长期层管理跨会话的持久性信息，是企业Agent形成"个性"和"记忆"的关键。但不同于简单的聊天历史存档，生产级长期记忆需要严谨的治理策略：

记忆写入标准：

只保存用户明确确认的事实
工具系统返回的权威数据
经过三次以上重复验证的偏好
业务规则要求的持久记录

分层存储设计：

mermaid复制graph TD
    A[原始交互日志] -->|事件提取| B(事实型记忆)
    A -->|模式分析| C(偏好型记忆)
    B --> D[业务实体知识图谱]
    C --> E[用户画像向量库]
    D --> F[经过验证的企业知识]
    E --> G[个性化服务策略]

记忆保鲜机制：

自动过期策略（如促销政策半年失效）
版本控制（政策条款按时间戳区分）
冲突检测（当新记忆与旧记忆矛盾时触发复核）
来源追踪（记录每条记忆的生成上下文）

在金融客服场景中，我们发现有效的长期记忆管理能使解决效率提升40%，同时将合规风险降低75%。关键在于区分哪些信息值得长期保存，以及以什么形式保存。

3. 上下文操作系统的架构设计

3.1 核心组件与数据流

成熟的上下文操作系统通常包含以下关键组件：

code复制1. 上下文组装器
   - 需求分析模块（根据当前节点确定上下文类型）
   - 信息采集器（从各子系统拉取候选内容）
   - 优先级排序引擎
   - 结构转换器（原始数据→模型友好形式）
   - 预算分配器（token配额管理）

2. 状态管理器
   - 显式状态存储（当前任务进度）
   - 状态转移验证器
   - 版本快照（用于回滚）

3. 记忆服务
   - 记忆检索（基于当前场景召回相关记忆）
   - 记忆写入审核
   - 记忆冲突解决

4. 知识连接器
   - 多模态检索（向量+关键词+业务规则）
   - 结果重排序（基于当前节点语境）
   - 知识片段标注

5. 工具适配层
   - API结果清洗
   - 业务语义转换
   - 异常处理标准化

数据流设计示例（保险理赔场景）：

用户发起"车险理赔"请求
系统识别当前进入"事故确认"节点
上下文组装器收集：
- 保单基本信息（从CRM系统）
- 理赔政策条款（从知识库）
- 用户历史理赔记录（记忆服务）
- 事故照片分析工具说明
状态管理器注入：
- 当前步骤：事故责任认定
- 待收集材料：交警报告、维修报价
经过优先级排序和token预算分配后，生成最终上下文

3.2 可观测性设计

没有完善的观测手段，上下文系统就像黑箱。我们建议实施以下监控措施：

上下文快照日志：

json复制{
  "session_id": "sess_abc123",
  "node": "damage_assessment",
  "context_breakdown": {
    "system_prompt": 256,
    "user_input": 128,
    "rag_results": 1024,
    "tool_outputs": 512,
    "state_variables": 384,
    "memory": 256
  },
  "sources": [
    {
      "type": "policy_document",
      "id": "doc_789",
      "relevance_score": 0.87
    }
  ],
  "safety_checks": {
    "data_leak": false,
    "permission_violation": false
  }
}

关键指标看板：

上下文质量评分
- 关键信息覆盖率
- 噪声占比
- 结构合理性
资源使用效率
- Token利用率
- 冗余度
- 信息密度
效果关联指标
- 上下文质量vs任务完成率
- 信息源vs回答准确性
- 响应延迟vs上下文长度

3.3 性能优化策略

分层缓存设计：

瞬时层：内存缓存，毫秒级响应
会话层：分布式缓存，TTL=会话超时
长期层：持久化存储+向量索引

渐进式加载技术：

首轮加载：核心提示+基础状态（<1k token）
交互过程中：动态注入必要上下文
长文档处理：摘要先行，按需展开

压缩算法选型：

结构化提取（数据库记录→表格）
模板化摘要（工具结果→固定格式）
语义压缩（LLM生成简洁表述）
实体替换（长描述→标准化ID）

在电商推荐场景中，通过实施这些优化，我们实现了：

平均上下文长度减少42%
响应速度提升35%
任务完成率提高28%

4. 生产环境中的陷阱与对策

4.1 上下文膨胀综合征

症状表现：

token消耗持续增长但效果提升有限
关键信息被淹没在无关细节中
模型开始出现"注意力分散"现象

根本原因：

缺乏明确的上下文准入标准
恐惧性过度供给（"万一需要呢"心态）
信息组织层级混乱

解决方案：

markdown复制1. 建立严格的门控机制
   - 必须包含项（关键约束）
   - 按需包含项（条件触发）
   - 禁止包含项（噪声源）

2. 实施token预算分配
   - 系统提示：15%
   - 用户输入：20%
   - 状态信息：25%
   - 知识片段：30%
   - 安全边际：10%

3. 采用渐进式披露策略
   - 首轮：基础上下文
   - 后续：增量补充
   - 异常：完整诊断

4.2 记忆污染问题

典型案例：

模型假设被当作事实存储
临时偏好变成长期记忆
错误信息被不断强化

防护措施：

记忆写入验证流程：
- 事实型记忆：工具验证或用户确认
- 偏好型记忆：三次以上重复出现
- 推断型内容：禁止直接写入
记忆健康度检查：
- 定期扫描冲突记忆
- 设置记忆有效期
- 实现记忆溯源追踪
隔离策略：
- 用户记忆vs通用记忆
- 业务记忆vs流程记忆
- 稳定记忆vs临时记忆

4.3 状态丢失危机

典型场景：

跨节点参数传递失败
异常恢复后上下文断裂
多Agent协作时状态不一致

工程实践：

显式状态机设计：

python复制class ClaimState:
    CURRENT_STEP = Enum('INTAKE', 'ASSESSMENT', 'APPROVAL')
    confirmed_details = Dict
    pending_actions = List
    validation_errors = List