RAG系统构建指南：从原理到生产部署-AI智能范式网

RAG系统构建指南：从原理到生产部署

李管春

1. RAG系统概述：解决大语言模型的核心痛点

在当今AI技术快速发展的背景下，大语言模型(LLM)虽然展现出强大的文本生成能力，但面临着几个关键挑战：知识更新滞后、容易产生事实性错误(幻觉)、无法有效利用私有数据。这些问题严重限制了LLM在企业级应用中的落地价值。

检索增强生成(Retrieval-Augmented Generation, RAG)技术应运而生，它通过将外部知识检索与LLM生成能力相结合，构建了一个"先检索、后生成"的闭环系统。这种架构既保留了LLM强大的语言理解和生成能力，又通过外部知识库弥补了其知识局限性和幻觉问题。

提示：RAG系统的核心价值在于它能够将静态的LLM转变为动态的知识系统，通过实时检索确保生成内容的准确性和时效性。

1.1 RAG与传统LLM应用的对比

传统LLM应用存在明显的局限性：

知识更新依赖重新训练，成本高昂
无法访问训练数据之外的信息
生成内容难以追溯来源，合规风险高

相比之下，RAG系统具有以下优势：

知识实时性：通过更新知识库即可获取最新信息
可解释性：生成内容可关联到具体文档片段
数据隔离：敏感数据保留在企业内部知识库
成本效益：无需频繁重新训练大模型

1.2 RAG系统的核心组件

一个完整的工业级RAG系统通常包含以下关键模块：

模块	功能	技术挑战
文档预处理	将原始文档转化为可检索的向量表示	语义分块、向量化一致性
召回排序	从知识库中检索相关文档片段	召回率与精度的平衡
重排优化	对初步结果进行二次排序	计算效率与排序质量的权衡
上下文裁剪	适配LLM的上下文窗口限制	信息保留与压缩的平衡
LLM生成	基于检索内容生成最终回答	幻觉抑制、回答质量控制

2. 环境准备与依赖安装

2.1 系统环境配置建议

为了确保RAG系统的稳定运行，建议采用以下环境配置：

Python 3.8+ (推荐3.9或3.10版本)
至少16GB内存(处理中等规模知识库)
NVIDIA GPU(推荐RTX 3090或以上，加速向量计算)
Linux或macOS操作系统(Windows可能存在兼容性问题)

注意：虽然RAG系统可以在CPU上运行，但向量计算和LLM推理会显著变慢，建议至少使用支持CUDA的GPU。

2.2 依赖安装详细指南

创建并激活虚拟环境(强烈推荐)：

bash复制python -m venv rag-env
source rag-env/bin/activate  # Linux/macOS
# 或 rag-env\Scripts\activate  # Windows

安装核心依赖包：

bash复制# 基础工具包
pip install python-dotenv pandas numpy tqdm

# 文档处理相关
pip install langchain==0.1.10 python-markdown pypdf

# 向量计算与检索
pip install sentence-transformers==2.2.2 chromadb==0.4.22 rank-bm25

# 深度学习框架
pip install torch==2.1.2 transformers==4.38.2 sentencepiece accelerate

# 可选：用于更复杂的文档解析
pip install unstructured[all-docs]

2.3 环境验证与问题排查

安装完成后，建议运行以下验证脚本确保各组件正常工作：

python复制import torch
from sentence_transformers import SentenceTransformer

# 检查GPU可用性
print(f"CUDA可用: {torch.cuda.is_available()}")
print(f"GPU数量: {torch.cuda.device_count()}")
if torch.cuda.is_available():
    print(f"当前GPU: {torch.cuda.get_device_name(0)}")

# 测试Sentence-BERT模型
model = SentenceTransformer('all-MiniLM-L6-v2')
test_embedding = model.encode("测试文本")
print(f"向量维度: {test_embedding.shape}")  # 应为(384,)

# 测试ChromaDB
import chromadb
client = chromadb.Client()
collection = client.create_collection("test")
collection.add(ids=["1"], documents=["测试文档"])
results = collection.query(query_texts=["测试"], n_results=1)
print(f"检索测试: {results['documents'][0][0]}")

常见安装问题解决方案：

CUDA不兼容：根据GPU驱动版本选择合适的PyTorch版本
依赖冲突：使用虚拟环境隔离项目依赖
模型下载失败：手动下载模型到缓存目录(~/.cache/huggingface)
内存不足：减小分块大小或使用更轻量级的模型

3. 文档预处理与知识库构建

3.1 文档加载与清洗策略

文档预处理是RAG系统的基础，质量直接影响后续检索效果。我们支持多种文档格式：

python复制from langchain.document_loaders import (
    TextLoader,
    MarkdownLoader,
    PyPDFLoader,
    UnstructuredWordDocumentLoader
)

def load_documents(doc_dir):
    """加载目录下的所有文档"""
    documents = []
    for filename in os.listdir(doc_dir):
        file_path = os.path.join(doc_dir, filename)
        try:
            if filename.endswith(".txt"):
                loader = TextLoader(file_path, encoding="utf-8")
            elif filename.endswith(".md"):
                loader = MarkdownLoader(file_path, encoding="utf-8")
            elif filename.endswith(".pdf"):
                loader = PyPDFLoader(file_path)
            elif filename.endswith((".doc", ".docx")):
                loader = UnstructuredWordDocumentLoader(file_path)
            else:
                continue
            documents.extend(loader.load())
        except Exception as e:
            print(f"加载{filename}失败: {str(e)}")
    return documents

文档清洗关键步骤：

去除特殊字符和乱码
统一换行符和空格
处理表格和图片中的文本(如PDF)
提取文档元数据(标题、作者等)

3.2 语义敏感分块技术

普通文本分块可能导致语义断裂，我们采用递归分块策略：

python复制from langchain.text_splitter import RecursiveCharacterTextSplitter

def semantic_split(documents, chunk_size=500, chunk_overlap=50):
    """语义敏感的分块函数"""
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap,
        separators=["\n\n", "\n", "。", "？", "！", "；", "，", "、", " "],
        length_function=len,
        add_start_index=True
    )
    
    split_docs = text_splitter.split_documents(documents)
    
    # 添加分块元数据
    for i, doc in enumerate(split_docs):
        doc.metadata["chunk_id"] = i
        doc.metadata["total_chunks"] = len(split_docs)
    
    return split_docs

分块参数选择建议：

技术文档：chunk_size=600-800，overlap=100
对话记录：chunk_size=300-400，overlap=50
法律文本：chunk_size=400-500，overlap=80

3.3 向量化与存储优化

我们使用Sentence-BERT进行向量化，ChromaDB作为向量数据库：

python复制from sentence_transformers import SentenceTransformer
import chromadb

class KnowledgeBase:
    def __init__(self, persist_dir="./chroma_db"):
        self.embedding_model = SentenceTransformer('all-MiniLM-L6-v2')
        self.client = chromadb.PersistentClient(path=persist_dir)
        self.collection = self.client.get_or_create_collection(
            name="rag_knowledge",
            metadata={"hnsw:space": "cosine"}  # 使用余弦相似度
        )
    
    def add_documents(self, documents):
        """将文档添加到知识库"""
        texts = [doc.page_content for doc in documents]
        metadatas = [doc.metadata for doc in documents]
        embeddings = self.embedding_model.encode(texts, batch_size=32)
        
        # 生成唯一ID
        ids = [f"doc_{i}" for i in range(len(texts))]
        
        self.collection.upsert(
            ids=ids,
            documents=texts,
            metadatas=metadatas,
            embeddings=embeddings.tolist()
        )
        
        return len(texts)

存储优化技巧：

批量处理文档(每次32-64个分块)
使用HNSW索引加速检索
定期压缩数据库减少存储空间
添加文档来源和更新时间等元数据

4. 混合召回策略实现

4.1 语义召回与关键词召回对比

两种召回策略各有优劣：

特性	语义召回(Dense)	关键词召回(Sparse)
原理	向量相似度	词频统计(BM25)
优点	捕捉语义关联	精确匹配术语
缺点	忽略精确匹配	无法处理同义词
适用场景	概念性查询	专有名词查询

4.2 混合召回实现代码

python复制import numpy as np
from rank_bm25 import BM25Okapi

class HybridRetriever:
    def __init__(self, knowledge_base):
        self.kb = knowledge_base
        self.bm25 = self._init_bm25()
    
    def _init_bm25(self):
        """初始化BM25索引"""
        all_docs = self.kb.collection.get()["documents"]
        tokenized_docs = [doc.split() for doc in all_docs]
        return BM25Okapi(tokenized_docs)
    
    def dense_retrieve(self, query, top_k=10):
        """语义召回"""
        query_embedding = self.kb.embedding_model.encode(query).tolist()
        results = self.kb.collection.query(
            query_embeddings=[query_embedding],
            n_results=top_k,
            include=["documents", "metadatas", "distances"]
        )
        return list(zip(
            results["documents"][0],
            results["metadatas"][0],
            [1 - d for d in results["distances"][0]]  # 转为相似度
        ))
    
    def sparse_retrieve(self, query, top_k=10):
        """关键词召回"""
        tokenized_query = query.split()
        scores = self.bm25.get_scores(tokenized_query)
        all_docs = self.kb.collection.get()["documents"]
        metadatas = self.kb.collection.get()["metadatas"]
        
        scored_docs = list(zip(all_docs, metadatas, scores))
        return sorted(scored_docs, key=lambda x: x[2], reverse=True)[:top_k]
    
    def hybrid_retrieve(self, query, top_k=10, alpha=0.5):
        """混合召回"""
        dense_results = self.dense_retrieve(query, top_k*2)
        sparse_results = self.sparse_retrieve(query, top_k*2)
        
        # 归一化分数
        dense_scores = np.array([s for _, _, s in dense_results])
        sparse_scores = np.array([s for _, _, s in sparse_results])
        
        dense_scores = (dense_scores - dense_scores.min()) / (dense_scores.max() - dense_scores.min() + 1e-6)
        sparse_scores = (sparse_scores - sparse_scores.min()) / (sparse_scores.max() - sparse_scores.min() + 1e-6)
        
        # 合并结果
        combined = {}
        for doc, meta, score in dense_results:
            combined[doc] = {
                "meta": meta,
                "dense_score": score,
                "sparse_score": 0
            }
        
        for doc, meta, score in sparse_results:
            if doc in combined:
                combined[doc]["sparse_score"] = score
            else:
                combined[doc] = {
                    "meta": meta,
                    "dense_score": 0,
                    "sparse_score": score
                }
        
        # 计算综合得分
        scored_docs = []
        for doc, data in combined.items():
            combined_score = alpha * data["dense_score"] + (1 - alpha) * data["sparse_score"]
            scored_docs.append((doc, data["meta"], combined_score))
        
        return sorted(scored_docs, key=lambda x: x[2], reverse=True)[:top_k]

4.3 召回优化技巧

动态权重调整：根据查询类型自动调整α值
- 概念性查询：α=0.7(侧重语义)
- 事实性查询：α=0.3(侧重关键词)

查询扩展：使用LLM扩展原始查询

python复制def expand_query(query, llm):
    prompt = f"请为以下搜索查询生成3个相关的扩展查询:\n原始查询:{query}\n扩展查询:"
    expansions = llm(prompt, max_length=100).split("\n")[:3]
    return [query] + [e.strip() for e in expansions if e.strip()]

分层召回：先快速筛选候选集，再精细排序
缓存机制：缓存高频查询的召回结果

5. 重排优化技术详解

5.1 Cross-Encoder重排原理

Cross-Encoder通过联合编码Query和文档，比双塔式架构(如BERT)更能捕捉交互特征：

输入格式：[CLS] Query [SEP] Document [SEP]
通过Transformer编码整个序列
使用[CLS]位置的输出预测相关性分数

5.2 高效重排实现

python复制from transformers import AutoModelForSequenceClassification, AutoTokenizer
import torch

class Reranker:
    def __init__(self, model_name="cross-encoder/ms-marco-MiniLM-L-6-v2"):
        self.device = "cuda" if torch.cuda.is_available() else "cpu"
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForSequenceClassification.from_pretrained(model_name).to(self.device)
        self.model.eval()
    
    def rerank(self, query, candidates, top_n=5):
        """对候选文档进行重排"""
        if not candidates:
            return []
        
        # 准备输入对
        inputs = []
        for doc, _, _ in candidates:
            inputs.append((query, doc))
        
        # 批量编码
        features = self.tokenizer(
            inputs, 
            padding=True, 
            truncation=True, 
            max_length=512, 
            return_tensors="pt"
        ).to(self.device)
        
        # 计算得分
        with torch.no_grad():
            scores = self.model(**features).logits.squeeze()
            if scores.dim() == 0:  # 处理单个候选的情况
                scores = scores.unsqueeze(0)
        
        # 组合结果并排序
        scored_candidates = list(zip(
            [c[0] for c in candidates],
            [c[1] for c in candidates],
            torch.sigmoid(scores).cpu().numpy().tolist()
        ))
        
        return sorted(scored_candidates, key=lambda x: x[2], reverse=True)[:top_n]

5.3 重排性能优化

动态批处理：根据GPU内存自动调整批大小

python复制def dynamic_batch_rerank(self, query, candidates, batch_size=16):
    results = []
    for i in range(0, len(candidates), batch_size):
        batch = candidates[i:i+batch_size]
        results.extend(self.rerank(query, batch, top_n=len(batch)))
    return sorted(results, key=lambda x: x[2], reverse=True)

模型量化：使用8-bit或4-bit量化减少显存占用

python复制from transformers import BitsAndBytesConfig

quant_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)
model = AutoModelForSequenceClassification.from_pretrained(
    model_name, 
    quantization_config=quant_config
)

缓存机制：缓存常见Query-Doc对的得分
早期截断：对低质量候选提前过滤

6. 上下文智能裁剪策略

6.1 裁剪算法设计

我们实现基于语义优先级的自适应裁剪：

python复制from transformers import AutoTokenizer

class ContextPruner:
    def __init__(self, llm_model_name="THUDM/chatglm3-6b"):
        self.tokenizer = AutoTokenizer.from_pretrained(
            llm_model_name, 
            trust_remote_code=True
        )
    
    def prune(self, query, candidates, max_tokens=4000):
        """智能裁剪上下文"""
        if not candidates:
            return ""
        
        # 计算各部分token占用
        query_tokens = len(self.tokenizer.encode(query))
        reserved_tokens = 500  # 预留prompt和生成空间
        available_tokens = max_tokens - query_tokens - reserved_tokens
        
        if available_tokens <= 0:
            return "Query过长，请简化问题"
        
        # 按优先级选择内容
        selected = []
        current_tokens = 0
        
        for doc, _, score in candidates:
            doc_tokens = len(self.tokenizer.encode(doc))
            
            if current_tokens + doc_tokens <= available_tokens:
                selected.append(doc)
                current_tokens += doc_tokens
            else:
                # 尝试裁剪文档
                pruned = self._prune_document(query, doc, available_tokens - current_tokens)
                if pruned:
                    selected.append(pruned)
                    current_tokens += len(self.tokenizer.encode(pruned))
                break
        
        return "\n\n".join(selected)
    
    def _prune_document(self, query, doc, max_tokens):
        """裁剪单个文档"""
        sentences = [s for s in doc.split("。") if s]
        query_keywords = set(query.split())
        
        selected = []
        current_tokens = 0
        
        for sent in sentences:
            sent_tokens = len(self.tokenizer.encode(sent))
            
            # 计算句子相关性
            keywords_in_sent = sum(1 for kw in query_keywords if kw in sent)
            is_relevant = keywords_in_sent >= 1 or len(query_keywords) == 0
            
            if is_relevant and current_tokens + sent_tokens <= max_tokens:
                selected.append(sent)
                current_tokens += sent_tokens
        
        return "。".join(selected) + ("。" if selected else "")

6.2 裁剪优化技巧

动态窗口调整：根据Query复杂度自动调整保留token数

python复制def dynamic_window(self, query):
    """根据Query复杂度确定窗口大小"""
    complexity = len(query) / 100  # 简单启发式
    return min(4000, int(3000 * (1 + complexity)))

重要性评分：结合重排得分和位置信息

python复制def score_sentence(self, sent, query, doc_score, position_ratio):
    """计算句子重要性得分"""
    keyword_score = sum(1 for kw in query.split() if kw in sent)
    position_score = 1 - position_ratio  # 文档开头更重要
    return 0.5 * doc_score + 0.3 * keyword_score + 0.2 * position_score

冗余检测：使用MinHash或LSH检测相似内容
结构化保留：优先保留列表、表格等结构化信息

7. 完整RAG系统集成

7.1 系统架构设计

python复制class RAGSystem:
    def __init__(self, kb_path="./chroma_db"):
        self.knowledge_base = KnowledgeBase(kb_path)
        self.retriever = HybridRetriever(self.knowledge_base)
        self.reranker = Reranker()
        self.pruner = ContextPruner()
        self.llm = self._init_llm()
    
    def _init_llm(self):
        """初始化本地LLM"""
        from transformers import AutoModel, AutoTokenizer
        
        tokenizer = AutoTokenizer.from_pretrained(
            "THUDM/chatglm3-6b",
            trust_remote_code=True
        )
        model = AutoModel.from_pretrained(
            "THUDM/chatglm3-6b",
            trust_remote_code=True,
            device_map="auto"
        ).eval()
        
        return {"model": model, "tokenizer": tokenizer}
    
    def generate(self, query, max_new_tokens=512):
        """完整RAG流程"""
        # 1. 检索
        retrieved = self.retriever.hybrid_retrieve(query, top_k=15)
        
        # 2. 重排
        reranked = self.reranker.rerank(query, retrieved, top_n=8)
        
        # 3. 裁剪
        context = self.pruner.prune(query, reranked)
        
        # 4. 生成
        prompt = self._build_prompt(query, context)
        response = self._llm_generate(prompt, max_new_tokens)
        
        return {
            "answer": response,
            "context": context,
            "sources": [meta for _, meta, _ in reranked]
        }
    
    def _build_prompt(self, query, context):
        """构建LLM提示"""
        return f"""基于以下上下文信息回答问题。如果上下文不包含答案，请回答"不知道"。

上下文：
{context}

问题：{query}
答案："""
    
    def _llm_generate(self, prompt, max_tokens):
        """调用LLM生成"""
        inputs = self.llm["tokenizer"](
            prompt, 
            return_tensors="pt"
        ).to(self.llm["model"].device)
        
        outputs = self.llm["model"].generate(
            **inputs,
            max_new_tokens=max_tokens,
            temperature=0.7,
            top_p=0.9,
            repetition_penalty=1.1
        )
        
        return self.llm["tokenizer"].decode(
            outputs[0], 
            skip_special_tokens=True
        ).split("答案：")[-1].strip()

7.2 系统优化建议

异步处理：将检索、重排、生成等步骤异步化

python复制import asyncio

async def async_generate(self, query):
    """异步生成"""
    loop = asyncio.get_event_loop()
    retrieved = await loop.run_in_executor(None, self.retriever.hybrid_retrieve, query)
    reranked = await loop.run_in_executor(None, self.reranker.rerank, query, retrieved)
    context = await loop.run_in_executor(None, self.pruner.prune, query, reranked)
    response = await loop.run_in_executor(None, self._llm_generate, self._build_prompt(query, context))
    return response

流式输出：支持生成过程中的实时输出

python复制def stream_generate(self, query):
    """流式生成"""
    # ... 前面的步骤相同
    for chunk in self.llm["model"].stream_generate(
        inputs.input_ids,
        max_new_tokens=512
    ):
        yield self.llm["tokenizer"].decode(
            chunk[0], 
            skip_special_tokens=True
        )

多路召回：并行执行多种召回策略
失败重试：对失败步骤实现自动重试机制

8. 高级优化与生产部署

8.1 生产环境部署方案

容器化部署：

dockerfile复制# Dockerfile示例
FROM pytorch/pytorch:2.1.2-cuda11.8-runtime

WORKDIR /app
COPY . .

RUN pip install -r requirements.txt

# 下载模型
RUN python -c """
from transformers import AutoModel, AutoTokenizer
AutoTokenizer.from_pretrained('THUDM/chatglm3-6b', trust_remote_code=True)
AutoModel.from_pretrained('THUDM/chatglm3-6b', trust_remote_code=True)
"""

CMD ["python", "api_server.py"]

API服务实现：

python复制from fastapi import FastAPI
from rag_system import RAGSystem
import uvicorn

app = FastAPI()
rag = RAGSystem()

@app.post("/query")
async def handle_query(query: str):
    result = rag.generate(query)
    return {
        "answer": result["answer"],
        "sources": result["sources"]
    }

if __name__ == "__main__":
    uvicorn.run(app, host="0.0.0.0", port=8000)

8.2 性能监控与优化

关键监控指标：

检索耗时(分位数统计)
重排质量(NDCG评分)
生成速度(tokens/second)
知识库覆盖率
用户满意度反馈

优化策略：

知识库分区：按主题或部门划分知识库
缓存策略：
- 高频Query结果缓存
- 向量检索结果缓存
负载均衡：
- 检索与生成服务分离
- 水平扩展检索节点

8.3 安全与合规考虑

访问控制：
- API密钥认证
- 基于角色的知识库访问
数据加密：
- 传输层加密(HTTPS)
- 静态数据加密
审计日志：
- 记录所有查询和生成
- 敏感操作审计跟踪
内容过滤：
- 输出内容安全检查
- 敏感信息过滤

9. 评估与持续改进

9.1 RAG系统评估指标

检索质量评估：

召回率(Recall@K)
平均精度(MAP)
归一化折损累积增益(nDCG)

生成质量评估：

事实准确性(与知识库一致性)
流畅度(语言模型评分)
有用性(人工评估)

系统性能评估：

端到端延迟
吞吐量(QPS)
资源利用率

9.2 A/B测试框架

python复制class ABTest:
    def __init__(self, variant_a, variant_b):
        self.variant_a = variant_a  # 原系统
        self.variant_b = variant_b  # 新系统
    
    def run_test(self, queries, sample_size=100):
        """运行A/B测试"""
        results = []
        sampled_queries = random.sample(queries, sample_size)
        
        for query in tqdm(sampled_queries):
            # 随机分配测试组
            if random.random() < 0.5:
                system = self.variant_a
                group = "A"
            else:
                system = self.variant_b
                group = "B"
            
            try:
                start = time.time()
                result = system.generate(query)
                latency = time.time() - start
                
                # 评估生成质量(简化版)
                quality = self.evaluate_quality(query, result["answer"])
                
                results.append({
                    "query": query,
                    "group": group,
                    "latency": latency,
                    "quality": quality,
                    "answer": result["answer"]
                })
            except Exception as e:
                print(f"查询'{query}'失败: {str(e)}")
        
        return pd.DataFrame(results)
    
    def evaluate_quality(self, query, answer):
        """简化版质量评估"""
        # 实际应用中应使用更复杂的评估方法
        return random.random()  # 示例

9.3 持续改进流程

数据收集：
- 用户查询日志
- 系统响应记录
- 用户反馈数据
问题分析：
- 识别高频失败查询
- 分析知识库覆盖缺口
- 定位性能瓶颈
迭代优化：
- 知识库定期更新
- 算法参数调优
- 架构改进
验证部署：
- A/B测试验证
- 渐进式发布
- 监控回滚机制

10. 扩展应用与未来方向

10.1 多模态RAG扩展

python复制from PIL import Image
from transformers import CLIPProcessor, CLIPModel

class MultimodalRAG:
    def __init__(self):
        self.text_rag = RAGSystem()
        self.clip_model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
        self.clip_processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
    
    def search_images(self, query, image_paths, top_k=3):
        """检索相关图片"""
        images = [Image.open(img) for img in image_paths]
        inputs = self.clip_processor(
            text=[query], 
            images=images, 
            return_tensors="pt", 
            padding=True
        )
        
        outputs = self.clip_model(**inputs)
        logits = outputs.logits_per_image[0]
        scores = logits.softmax(dim=0)
        
        return sorted(zip(image_paths, scores.tolist()), 
                    key=lambda x: x[1], reverse=True)[:top_k]

10.2 对话式RAG实现

python复制class ConversationalRAG:
    def __init__(self):
        self.rag = RAGSystem()
        self.memory = []
    
    def chat(self, query, max_history=3):
        """带记忆的对话"""
        # 1. 用历史记录扩展查询
        expanded_query = self._expand_with_history(query)
        
        # 2. 执行RAG流程
        result = self.rag.generate(expanded_query)
        
        # 3. 更新对话记忆
        self.memory.append((query, result["answer"]))
        if len(self.memory) > max_history:
            self.memory.pop(0)
        
        return result
    
    def _expand_with_history(self, query):
        """用历史记录扩展查询"""
        if not self.memory:
            return query
        
        history = "\n".join([f"Q: {q}\nA: {a}" for q, a in self.memory])
        return f"""基于以下对话历史回答新问题：

{history}

新问题：{query}"""

10.3 未来发展方向

自适应检索：根据生成过程动态调整检索策略
主动学习：自动识别知识库缺口并建议补充
多跳推理：支持复杂问题的分步检索和推理
个性化：基于用户画像调整检索和生成策略
可解释性增强：提供更透明的来源追溯和推理过程