Zep：基于时间感知知识图谱的AI记忆架构创新

狭间

1. Zep：重新定义AI记忆架构

在当今AI助手日益普及的背景下，我们经常遇到一个令人沮丧的现象：你与AI进行了长达数月的深入交流，分享过工作变动、生活变迁等个人信息，但当某天你问它"我现在在哪家公司工作"时，它要么给出过时的答案，要么干脆表示不知道。这不是AI"健忘"，而是现有架构的根本缺陷。

传统基于Transformer的大语言模型存在两个致命短板：有限的上下文窗口（即使GPT-4 Turbo的128k上下文也难以容纳数月对话）和固定的知识截止日期。这些问题导致AI无法真正"记住"与用户的长期互动历史。

1.1 现有解决方案的局限性

目前主流的RAG（检索增强生成）方案在处理静态知识库（如产品手册、法律条文）时表现尚可，但在处理动态对话记忆时暴露明显缺陷：

问题类型	具体表现	根本原因
知识过时	用户已更新信息但系统仍返回旧数据	缺乏时间有效性追踪机制
实体混淆	同一实体的不同称谓被当作多个实体	缺少实体解析机制
关系丢失	知道A和B都与用户有关但不知其关系	向量检索无法建模实体间关系
时序混乱	无法区分"上周会议"和"去年会议"	丢失原始对话的时间上下文

MemGPT作为首个系统性解决LLM记忆问题的方案，采用了操作系统虚拟内存的思路，通过分层存储管理记忆：

核心记忆（Main Context）：相当于CPU缓存，保存当前对话
召回记忆（Recall Memory）：相当于内存，保存近期对话
归档记忆（Archival Memory）：相当于硬盘，保存历史对话

虽然MemGPT在Deep Memory Retrieval基准上达到93.4%准确率，但其本质仍是文本检索，无法建模实体关系和时间演变。

1.2 Zep的突破性理念

Zep团队提出了革命性的见解：对话记忆不应被视为文档检索问题，而应作为知识图谱构建问题。每个对话都包含丰富的结构化信息：

实体：人物、地点、组织、概念等
关系：社交关系、职业关系、好恶等
时间：过去、现在、未来的时间表达

通过将这些结构化信息提取到时间感知的知识图谱中，Zep能够回答诸如"张三上个月推荐的那家餐厅叫什么"这类复杂查询——这需要同时理解实体、关系和时间三个维度。

2. Graphiti引擎：时间感知的知识图谱架构

2.1 三层图谱结构设计

Zep的核心是Graphiti引擎，其记忆系统采用三层动态知识图谱架构：

code复制G = (N, E, φ)

其中N是节点集合，E是边集合，φ是关联函数。这三层从具体到抽象分别是：

2.1.1 情节子图（Episode Subgraph）Ge

作为"原始记忆"层，存储未经加工的输入数据。每个消息、文本或JSON对象都作为情节节点保存，包含：

原始内容
发言者信息
参考时间戳（处理相对时间表达的关键）

保留原始数据的三大理由：

为非损失存储提供回溯可能
支持回答溯源和引用
满足企业合规要求

2.1.2 语义实体子图（Semantic Entity Subgraph）Gs

"概念记忆"层存储结构化知识，包含两类元素：

实体节点：

规范名称（如"张三"）
摘要描述（如"AI研究员，曾就职于腾讯"）
1024维嵌入向量（用于语义检索）

事实边：

关系类型（如WORKS_FOR、IS_FRIENDS_WITH）
事实描述
四个关键时间戳（Zep的核心创新）

2.1.3 社区子图（Community Subgraph）Gc

"全局理解"层通过社区检测算法将紧密关联的实体聚类。每个社区节点包含：

成员列表
LLM生成的社区摘要
检索用关键词集合

Zep选择标签传播算法而非Leiden算法进行社区检测，因其支持增量更新——新增节点时只需：

检查邻居社区归属
投票决定新节点归属
更新社区摘要

虽然检测质量略低，但显著降低了计算开销。

2.2 实体提取与消歧流程

对话场景下的实体提取面临特殊挑战：同一实体可能有多种称谓（如"王总"、"老王"）。Zep采用三阶段混合流程：

实体提取：使用LLM从消息中识别潜在实体
候选检索：结合向量相似度搜索和全文搜索
LLM消歧：判断新实体是否与现有实体重复

python复制# 伪代码示例：实体消歧流程
def entity_disambiguation(new_entity, context):
    # 阶段1：提取
    entities = llm_extract(new_entity.text, context)
    
    # 阶段2：检索
    vector_candidates = vector_search(entities)
    text_candidates = text_search(entities)
    all_candidates = merge_candidates(vector_candidates, text_candidates)
    
    # 阶段3：消歧
    for candidate in all_candidates:
        judgment = llm_judge_similarity(new_entity, candidate, context)
        if judgment.is_duplicate:
            return merge_entities(new_entity, candidate)
    
    return create_new_entity(new_entity)

2.3 双时间模型：Zep的核心创新

传统知识图谱是静态快照，而Zep为每条事实边维护四个时间戳，形成两条独立时间线：

事务时间线T'（系统视角）：

t'_created：系统记录时间
t'_expired：系统失效时间

有效时间线T（现实视角）：

t_valid：事实生效时间
t_invalid：事实失效时间

例如用户说"我上周从腾讯离职，现在在OpenAI工作"，系统会：

创建新边：用户-[WORKS_AT]->OpenAI
- t_valid = 推算的"上周"日期
- t_invalid = NULL（当前有效）
更新旧边：用户-[WORKS_AT]->腾讯
- t'_expired = 当前时间
- t_invalid = 新边的t_valid - 1

当检测到新旧信息冲突时，Zep采用"新信息优先"策略：

用LLM识别语义冲突
自动使旧边失效（设置t_invalid = 新边的t_valid - 1）

3. 记忆检索：高效精准的三步管道

Zep的检索系统可形式化为函数f: S→S，将文本查询α转化为格式化上下文β，流程分为：

3.1 搜索阶段（φ）

目标是高召回率，采用三种互补方法：

方法	捕捉的相似性	实现基础	适用场景
余弦语义相似度	语义相似	向量数据库	"美食推荐"匹配"餐厅建议"
BM25全文搜索	词汇相似	Lucene	精确匹配人名、专有名词
广度优先图遍历	上下文相似	图遍历	发现间接关联的实体

图遍历特别适合处理"张三推荐的那家餐厅"这类查询——即使"餐厅"节点名是"海底捞"而非用户用词，也能通过关系边准确找到。

3.2 重排序阶段（ρ）

对搜索结果的精选过程，常用策略包括：

策略	原理	优点	缺点
RRF	融合多个排序列表的倒数排名	简单高效	不考虑语义
MMR	平衡相关性与多样性	避免结果冗余	需要调参
Episode-mentions	按实体提及频率排序	反映实体重要性	可能偏向高频词
Cross-encoder	用LLM对每个候选打分	精度最高	计算成本高

实际应用中通常先使用轻量级方法初筛，必要时再用Cross-encoder精排。

3.3 构造阶段（χ）

将检索结果格式化为LLM可读文本，模板示例如下：

xml复制FACTS and ENTITIES represent relevant context to the current conversation.

These are the most relevant facts and their valid date ranges.
If the fact is about an event, the event takes place during this time.
format: FACT (Date range: from - to)

<FACTS>
- 张三推荐了海底捞 (2024-01-15 - present)
- 张三和李四是同事 (2020-01-01 - present)
</FACTS>

These are the most relevant entities
ENTITY_NAME: entity summary

<ENTITIES>
- 张三: AI研究员，腾讯员工
- 海底捞: 火锅连锁餐厅
</ENTITIES>

这种结构化表示使LLM能准确理解时间敏感信息，如区分"现在"和"过去"的工作单位。

4. 性能评估与实战表现

4.1 基准测试对比

Zep在两个基准上进行评估：

DMR（Deep Memory Retrieval）：

500段对话，每段约60条消息
简单事实检索问题
Zep准确率94.8%（GPT-4-turbo），领先MemGPT 1.4%

LongMemEval（更具挑战性）：

对话平均长度115k tokens
六类复杂问题（含时间推理、知识更新等）
Zep显著优势：

指标	Full-context	Zep	提升幅度
准确率(GPT-4o)	60.2%	71.2%	+18.5%
延迟	28.9s	2.58s	-90%
上下文Tokens	115k	1.6k	-98.6%

4.2 分问题类型表现

使用GPT-4o时，Zep在不同问题类型上的表现：

问题类型	准确率提升	原因分析
单会话偏好(single-session-preference)	+184%	知识图谱显式建模"喜欢/讨厌"关系
时间推理(temporal-reasoning)	+38.4%	双时间模型的直接优势
多会话(multi-session)	+30.7%	图谱天然适合跨会话信息整合
单会话助手回复(single-session-assistant)	-17.7%	详细步骤/代码在图谱化过程中丢失