Agent记忆技术：从短期到长期的多层架构设计与实践

成为夏目

1. Agent记忆技术：从金鱼脑到智能协作伙伴的进化之路

作为一名长期从事AI产品研发的技术人，我深刻理解记忆能力对于智能体的重要性。还记得去年我们团队开发的一个电商客服Agent，用户第一次咨询时说"我想买一台适合编程的笔记本电脑"，Agent详细推荐了配置；但当用户十分钟后问"刚才说的那款有什么颜色可选"时，Agent却完全忘记了之前的对话——这种"金鱼脑"式的体验让用户非常失望。

这正是当前大模型应用面临的核心痛点之一：缺乏持续、可靠的记忆能力。传统聊天机器人只需要维护简单的对话上下文，而现代Agent要完成复杂任务，必须建立完善的记忆系统。本文将系统介绍Agent记忆技术的发展现状、实现方案和最佳实践。

2. 记忆系统架构设计：从理论到实践

2.1 记忆为何成为Agent的核心能力

在传统对话系统中，记忆往往被简化为"上下文管理"——维护最近几轮对话历史即可。但对于任务型Agent，这种设计存在严重不足：

任务连续性要求：一个复杂的多步骤任务（如旅行规划）可能跨越多个会话，需要记住已完成步骤和待办事项
用户个性化需求：长期积累的用户偏好（如"不喜欢廉价航空"）应该被记住并应用
知识沉淀机制：从历史交互中总结规律（如"用户常在周五晚上订餐"）可以提升服务质量

我们做过一个对比实验：在同一电商场景下，使用相同的大模型基础：

仅维护32K上下文窗口的Agent，任务完成率只有58%
增加向量数据库作为长期记忆后，完成率提升至89%
进一步引入记忆压缩和结构化存储，用户满意度从3.2分提高到4.5分（5分制）

2.2 三级记忆架构详解

现代Agent通常采用分层记忆设计，模仿人类记忆机制：

2.2.1 短期记忆（工作记忆）

功能：维护当前任务上下文
实现：上下文窗口管理+摘要压缩
典型容量：4K-128K tokens（取决于模型）
管理策略：动态裁剪、关键信息提取、对话摘要

2.2.2 长期记忆（情景记忆）

功能：存储跨会话的重要信息
实现：向量数据库+语义检索
存储内容：用户偏好、任务历史、关键事实
检索方式：基于相似度的最近邻搜索

2.2.3 核心记忆（语义记忆）

功能：存储持久性知识
实现：结构化数据库（SQL/NoSQL）
典型数据：用户画像、产品知识库、业务流程
特点：需要人工或半自动更新维护

3. 短期记忆管理实战技巧

3.1 上下文窗口优化策略

当对话长度超过模型上下文限制时，我们需要智能地管理历史信息。以下是经过实战检验的四种方法：

3.1.1 动态裁剪算法

python复制def dynamic_trim(history, max_tokens=8000):
    """
    智能裁剪对话历史，保留最关键信息
    策略：优先保留最近对话、系统消息和包含实体名的内容
    """
    current_length = sum(len(t) for t in history)
    while current_length > max_tokens and len(history) > 1:
        # 计算每条消息的重要性得分
        scores = []
        for i, msg in enumerate(history):
            score = 0
            if i >= len(history)-3: score += 2  # 最近消息
            if msg.startswith("系统："): score += 1  # 系统提示
            if any(e in msg for e in ["姓名","地址","订单"]): score += 1  # 关键实体
            scores.append(score)
        
        # 移除得分最低的消息
        min_idx = scores.index(min(scores))
        removed = history.pop(min_idx)
        current_length -= len(removed)
    return history

3.1.2 分层摘要技术

我们开发了一种渐进式摘要方法：

每5轮对话生成一次局部摘要
每3个局部摘要合并成全局摘要
在上下文中保留：最新原始对话+全局摘要+关键事实

python复制def generate_summary(dialogue_chunk):
    prompt = f"""请用中文生成对话摘要，要求：
    - 保留用户意图、决策和关键事实
    - 忽略寒暄和重复内容
    - 不超过100字
    
    对话内容：
    {dialogue_chunk}
    
    摘要："""
    return llm_completion(prompt)

3.2 结构化笔记实践

我们在客服Agent中实现了这样的笔记系统：

python复制class AgentNotebook:
    def __init__(self):
        self.facts = {}  # 已验证的事实 {"产品X库存": "充足"}
        self.preferences = {}  # 用户偏好 {"配送方式": "次日达"}
        self.task_state = {  # 任务进度
            "current_step": None,
            "completed": [],
            "pending": []
        }
    
    def update_from_dialogue(self, dialogue):
        # 使用LLM提取笔记更新项
        prompt = f"""从对话中提取：
        1. 新确认的事实
        2. 用户表达的偏好
        3. 任务状态变化
        
        对话：{dialogue}
        返回JSON格式"""
        
        updates = json.loads(llm_completion(prompt))
        self.facts.update(updates.get("facts", {}))
        self.preferences.update(updates.get("preferences", {}))
        
        if "task_state" in updates:
            self.task_state = updates["task_state"]

4. 长期记忆系统构建指南

4.1 向量数据库选型对比

我们测试了三种主流方案：

方案	写入速度	查询延迟	内存占用	适合场景
Chroma	快	20-50ms	低	开发原型
Weaviate	中	50-100ms	中	生产环境
Pinecone	慢	10-30ms	高	大规模部署

4.2 混合检索策略

单纯的向量搜索在业务场景中往往不够，我们采用分层检索：

先过滤：基于用户ID和时间范围
再搜索：语义相似度+关键词boost
后排序：结合时效性和重要性权重

python复制def hybrid_search(query, user_id, top_k=5):
    # 关键词提取
    keywords = extract_keywords(query)
    
    # 第一层：元数据过滤
    base_filter = {
        "user_id": user_id,
        "timestamp": {"$gte": time.time() - 30*24*3600}  # 最近30天
    }
    
    # 第二层：向量搜索
    vector_results = collection.query(
        query_texts=[query],
        where=base_filter,
        n_results=top_k*3  # 扩大召回
    )
    
    # 第三层：混合排序
    def score_doc(doc):
        # 语义分（已由向量数据库提供）
        semantic_score = doc["similarity"]  
        # 关键词分
        keyword_score = sum(1 for kw in keywords if kw in doc["text"])
        # 时效分（最近7天权重更高）
        recency = 1 - min(1, (time.time()-doc["timestamp"])/(7*24*3600))
        return 0.6*semantic_score + 0.3*keyword_score + 0.1*recency
    
    sorted_results = sorted(vector_results, key=score_doc, reverse=True)
    return sorted_results[:top_k]

4.3 记忆更新与遗忘机制

长期记忆需要定期维护，我们设计了这样的清洗规则：

自动归档：超过90天的记忆移至冷存储
重要性衰减：未被检索的记忆逐渐降低权重
冲突检测：新记忆与旧记忆矛盾时触发验证

python复制def memory_maintenance():
    # 清理过期记忆
    expired = collection.get(where={
        "timestamp": {"$lt": time.time() - 90*24*3600}
    })
    archive_to_cold_storage(expired)
    
    # 更新权重
    all_memories = collection.get()
    for mem in all_memories:
        last_accessed = mem["last_retrieved"] or mem["timestamp"]
        age_factor = 0.9 ** ((time.time()-last_accessed)/(24*3600))
        new_weight = mem["weight"] * age_factor
        collection.update(
            id=mem["id"],
            weight=new_weight
        )
    
    # 低权重记忆降级
    low_weight = collection.get(where={"weight": {"$lt": 0.1}})
    for mem in low_weight:
        if mem["importance"] < 0.5:
            collection.delete(mem["id"])

5. 超越RAG：新一代记忆技术剖析

5.1 Observational Memory实践

我们在客服系统中实现了这种方案，关键改进点：

分离观测流（用户输入）和操作流（Agent输出）
为每类操作定义压缩模板
建立双向索引：观测→操作→结果

python复制class ObservationMemory:
    def __init__(self):
        self.observation_stream = []  # 原始观测
        self.compressed_views = {
            "user_preferences": {},
            "ongoing_issues": [],
            "resolved_cases": []
        }
    
    def add_observation(self, user_input):
        self.observation_stream.append(user_input)
        
        # 触发增量压缩
        if len(self.observation_stream) % 5 == 0:
            self._compress_views()
    
    def _compress_views(self):
        # 偏好提取
        pref_updates = llm_extract_preferences(self.observation_stream[-5:])
        self.compressed_views["user_preferences"].update(pref_updates)
        
        # 问题跟踪
        new_issues = llm_detect_issues(self.observation_stream[-5:])
        self.compressed_views["ongoing_issues"].extend(new_issues)
        
        # 解决状态更新
        resolved = llm_check_resolutions(self.observation_stream[-5:])
        self.compressed_views["resolved_cases"].extend(resolved)
        self.compressed_views["ongoing_issues"] = [
            i for i in self.compressed_views["ongoing_issues"]
            if i["id"] not in {r["issue_id"] for r in resolved}
        ]

5.2 图结构记忆应用

对于复杂的客户服务场景，我们构建了知识图谱记忆：

节点类型：用户、问题、产品、解决方案
关系类型：遇到、影响、解决、升级
推理路径：例如"用户A→遇到→问题B→影响→产品C→有→解决方案D"

python复制class GraphMemory:
    def __init__(self):
        self.graph = Graph()
        self._init_schema()
    
    def _init_schema(self):
        # 定义节点和关系类型
        self.graph.schema.add_node_type("User")
        self.graph.schema.add_node_type("Issue")
        self.graph.schema.add_node_type("Product")
        self.graph.schema.add_node_type("Solution")
        
        self.graph.schema.add_relation_type("encounters", ("User", "Issue"))
        self.graph.schema.add_relation_type("affects", ("Issue", "Product"))
        self.graph.schema.add_relation_type("has_solution", ("Product", "Solution"))
    
    def add_interaction(self, user_id, dialogue):
        # 从对话提取实体和关系
        extraction_prompt = f"""从对话提取：
        - 提及的用户特征
        - 反映的问题
        - 涉及的产品
        - 提出的解决方案
        
        对话：{dialogue}
        返回JSON格式"""
        
        entities = json.loads(llm_completion(extraction_prompt))
        
        # 更新图结构
        with self.graph.transaction():
            user_node = self.graph.get_or_create("User", user_id)
            
            for issue in entities.get("issues", []):
                issue_node = self.graph.get_or_create("Issue", issue["id"])
                self.graph.create_relation(user_node, "encounters", issue_node)
                
                for product in issue.get("affected_products", []):
                    product_node = self.graph.get_or_create("Product", product["id"])
                    self.graph.create_relation(issue_node, "affects", product_node)
                    
                    for solution in product.get("solutions", []):
                        solution_node = self.graph.get_or_create("Solution", solution["id"])
                        self.graph.create_relation(product_node, "has_solution", solution_node)

6. 生产环境部署经验

6.1 性能优化要点

在真实业务场景中，我们总结了这些关键指标和优化方法：

指标	达标值	优化手段
记忆检索延迟	<200ms	分级缓存、预取策略
记忆更新吞吐量	>1000次/秒	批量写入、异步处理
记忆一致性	最终一致	版本控制、冲突解决机制
存储成本	<$0.1/用户/月	分层存储、压缩算法

6.2 容灾设计模式

我们采用的记忆系统高可用方案：

多级缓存：本地缓存→Redis集群→持久化存储
写入流水线：内存队列→WAL日志→批量提交
故障恢复：定期快照+操作日志重放

python复制class MemoryService:
    def __init__(self):
        self.cache = LRUCache(maxsize=10_000)  # 本地缓存
        self.redis = RedisCluster()  # 分布式缓存
        self.storage = VectorDB()  # 持久化存储
        self.write_queue = Queue()  # 写入队列
        
        # 启动后台处理线程
        self._start_writer_thread()
    
    def _start_writer_thread(self):
        def writer():
            batch = []
            while True:
                item = self.write_queue.get()
                batch.append(item)
                
                if len(batch) >= 100 or time.time()-last_write > 5:
                    try:
                        self.storage.batch_upsert(batch)
                        batch = []
                    except Exception as e:
                        log_error(e)
                        save_to_wal(batch)  # 写入预写日志
        
        Thread(target=writer, daemon=True).start()
    
    def add_memory(self, user_id, memory):
        # 先更新缓存
        cache_key = f"{user_id}:{memory['id']}"
        self.cache[cache_key] = memory
        self.redis.set(cache_key, memory)
        
        # 异步持久化
        self.write_queue.put(memory)