从RAG到上下文工程：AI应用中的注意力管理与优化

孙建华2008

1. 从RAG到上下文工程：AI应用的新挑战与解法

三年前，我们还在为AI模型的"无知"而焦虑——如何通过外挂知识库解决幻觉问题？如何在有限的上下文窗口中塞入最有效的信息？那时候，"上下文"对我们而言是稀缺资源，大家普遍认为只要给模型足够多的上下文，它就能解决一切问题。

但技术迭代的速度远超预期。如今，主流模型的上下文窗口已从8K扩展到128K甚至1M，推理成本大幅降低，支持模态也从纯文本扩展到多模态。表面上看，我们似乎只需把所有能获取的信息一股脑塞给模型就行。然而现实却给了我们一记响亮的耳光：当我们将数十个工具描述、上百页文档塞进那看似无限的Context Window时，模型并没有变得更聪明，反而开始迷失方向。

2. Agent落地难的根本原因分析

2.1 注意力稀释现象

模型的上下文窗口成为过剩资源后，真正的稀缺资源变成了模型的"注意力"。2023年业界提出的"Lost in the Middle"问题至今仍然存在：当给大语言模型提供长上下文时，模型对开头和结尾的信息利用良好，但对中间部分的信息检索和利用能力显著下降，呈现明显的"U型"性能曲线。

这种现象在开发长流程Agent时尤为致命。比如：

Deep Research功能需要基于上百篇网络文档进行研究
Coding Agent需要对整个代码库进行重构

开发者常遇到这样的诡异现象：模型能清晰记得System Prompt中的指令（开头），也能完美响应用户的最新追问（结尾），但对中间检索到的文档或执行过的步骤却视而不见。

2.2 技术底层原因剖析

2.2.1 训练数据分布偏差

模型是数据的镜像。在预训练和微调阶段，模型接触的人类自然语言文本（论文、新闻、小说等）通常呈现以下分布：

开头：摘要、定义、背景介绍（高信息密度）
结尾：结论、总结、最新进展（高信息密度）
中间：论证过程、细节描写或罗列数据

模型因此习得了"关键信息往往在开头或结尾"的先验概率分布。在指令微调阶段，Prompt的典型结构强化了这一倾向：

[System Instruction]
[Context/Documents]
[User Query]

模型被强化去响应System Instruction（最前）和User Query（最后），而中间的Context往往被被动参考。

2.2.2 Attention机制的限制

从Attention的数学原理看，softmax归一化函数要求所有输出概率之和必须等于1。无论上下文窗口是4k还是128k，这个"1"的总预算不变。研究发现存在"Attention Sink"现象：模型会将大量注意力分数分配给序列起始Token（如start token或System Prompt），作为"垃圾回收站"来安放剩余概率。

当序列长度从4k增加到128k时：

分母上的项数变多
中间Token产生的微小Attention Score在fp8/int4量化推理中容易变成噪声或被截断为0
累积误差导致中间内容更加不受关注

2.2.3 RoPE编码的长期衰减

RoPE位置编码的设计使Attention Score随相对距离增加而自然衰减。这导致：

结尾（Query）：距离最近，衰减最小，Attention权重高
开头（System Prompt）：作为整个序列的"锚点"，特定Attention Head会对其保持高权重
中间：既无近距离优势，又无锚点地位，加上距离较远，特征容易模糊

3. 上下文工程五大最佳实践

面对"资源过剩但效率低下"的窘境，上下文工程应运而生。其核心目标是对抗模型的遗忘与迷失，让模型在每个步骤获取最有价值的信息。以下是经过验证的五大实践：

3.1 上下文卸载（Offloading）

原则：不要将所有信息堆在消息历史中。

对于网页抓取结果、文档、CSV等可能带来超长上下文的内容，应存储到文件系统或沙箱环境，模型只接收文件路径或极简引用。例如：

json复制{
  "status": "success",
  "file_path": "/sandbox/data/search_results.csv",
  "preview": "已找到50家公司的财务数据"
}

当需要具体信息时，采用精确检索机制：

使用grep、cat、head/tail等shell命令
对极大文件，执行grep "关键词" /path/to/file只获取相关行
对复杂分析（如1GB日志），由Subagent在独立上下文处理后再返回精简结论

3.2 上下文压缩（Reduction）

当必须保留的信息接近"预腐败阈值"（128k-200k tokens）时，需要进行结构化压缩。不同于自由文本摘要，这里需要定义严格的Schema：

python复制from pydantic import BaseModel, Field
from typing import List, Optional

class ContextSummary(BaseModel):
    current_goal: str = Field(..., description="当前阶段主要目标")
    completed_tasks: List[str] = Field(..., description="已完成的关键任务")
    next_immediate_step: str = Field(..., description="下一步具体行动")
    key_files_modified: List[str] = Field(..., description="重要相关文件路径")
    open_questions: Optional[str] = Field(None, description="未解决的问题")

def summarize_history(message_history: list) -> ContextSummary:
    summary = llm.chat_with_structure(
        messages=message_history,
        response_model=ContextSummary,
        prompt="请根据当前对话历史，总结关键进展。必须严格遵守输出格式。"
    )
    return summary

另一种"可逆压缩"方式是剔除已写入文件的大段内容，只保留其引用路径，模型可随时通过路径重新读取。

3.3 任务隔离（Isolation）

将复杂任务分解为独立子任务，部署并行子代理。例如Deep Research Agent：

不再顺序研究文档
每个子Agent的上下文仅包含一篇文档
彻底消除上下文污染
处理第50篇文档的质量与第1篇完全一致

这种方式类似MapReduce模式，适用于无顺序依赖的任务。

3.4 分层动作空间

解决过多工具导致的"上下文混淆"问题：

Level 1 原子能力
保留10-20个核心API调用（如读写文件、执行Shell）

Level 2 沙箱工具
将复杂能力（PDF OCR、视频转码）封装为沙箱CLI接口，Agent通过--help学习用法。例如：

python复制tools = [{
    "name": "run_shell_command",
    "description": "在沙箱环境中执行Shell命令",
    "parameters": {
        "type": "object",
        "properties": {
            "command": {"type": "string"}
        }
    }
}]

# Agent使用流程：
# 1. 发现需要处理PDF，先探索用法
# run_shell_command(command="ocr-tool --help")
# 2. 根据返回的帮助文档构建具体命令
# run_shell_command(command="ocr-tool /mnt/data/report.pdf --lang chi_sim --output result.txt")