从零构建RAG系统：文档解析与语义检索实战-AI智能范式网

从零构建RAG系统：文档解析与语义检索实战

安洛洛洛洛洛

1. 从零实现RAG系统的核心价值

在当今AI技术快速发展的时代，检索增强生成（RAG）系统已经成为连接大型语言模型与专有知识的重要桥梁。与直接使用现成框架相比，从零开始构建RAG系统具有不可替代的优势。

首先，完全掌控系统每个环节意味着你可以精确诊断和解决问题。当检索结果不准确时，你能快速判断是分块策略不当、embedding模型选择错误，还是检索参数需要调整。这种透明度和控制力是黑盒框架无法提供的。

其次，业务场景的特殊需求可以得到充分满足。比如：

金融文档中的表格需要特殊解析处理
法律文件要求保留完整的段落结构
医疗报告需要提取特定元数据字段
检索结果需按业务规则重新排序

这些定制化需求在通用框架中往往难以实现，而自建系统可以在任何环节进行针对性优化。

2. 文档解析：多格式文本提取实战

2.1 基础文本处理函数

文档解析是RAG系统的第一步，我们需要处理各种格式的文档。以下是核心的文本提取函数：

python复制def load_plain_text(file_path: str) -> str:
    """处理纯文本文件，保留原始格式和编码"""
    with open(file_path, 'r', encoding='utf-8') as f:
        return f.read()

def extract_text_from_pdf(file_path: str) -> str:
    """PDF文档解析，处理多页和特殊格式"""
    texts = []
    with open(file_path, 'rb') as f:
        reader = PyPDF2.PdfReader(f)
        for page in reader.pages:
            text = page.extract_text() or ""
            # 处理PDF常见的错误换行
            text = ' '.join(text.splitlines())
            texts.append(text)
    return "\n".join(texts)

def extract_text_from_docx(file_path: str) -> str:
    """Word文档解析，保留段落结构"""
    doc = docx.Document(file_path)
    return "\n".join([p.text for p in doc.paragraphs if p.text.strip()])

2.2 智能文档路由系统

为了自动处理不同格式的文档，我们需要一个智能路由系统：

python复制def load_document(file_path: str) -> str:
    """根据文件扩展名自动选择解析器"""
    _, ext = os.path.splitext(file_path)
    ext = ext.lower()
    
    if ext == '.txt':
        return load_plain_text(file_path)
    elif ext == '.pdf':
        return extract_text_from_pdf(file_path)
    elif ext == '.docx':
        return extract_text_from_docx(file_path)
    elif ext == '.pptx':
        return extract_text_from_pptx(file_path)  # 需实现PPT解析
    else:
        raise ValueError(f"不支持的文档类型: {ext}")

注意事项：实际生产中应考虑添加文档校验、异常处理和日志记录，确保系统健壮性。

3. 文本分块策略深度解析

3.1 基础分块算法实现

文本分块质量直接影响检索效果，以下是基于语义分割的智能分块算法：

python复制def chunk_text(text: str, max_length: int = 500) -> list[str]:
    """基于语义和长度的智能分块"""
    # 预处理：统一换行符，去除多余空格
    text = ' '.join(text.replace('\r\n', '\n').split())
    
    # 首先尝试按段落分割
    paragraphs = [p for p in text.split('\n') if p.strip()]
    if all(len(p) <= max_length for p in paragraphs):
        return paragraphs
    
    # 长段落按句子分割
    sentences = []
    for para in paragraphs:
        if len(para) <= max_length:
            sentences.append(para)
        else:
            # 使用更智能的句子分割（考虑中文标点）
            sentences.extend(split_sentences(para))
    
    # 合并短句到合理长度
    chunks = []
    current_chunk = ""
    for sent in sentences:
        if len(current_chunk) + len(sent) <= max_length:
            current_chunk += " " + sent if current_chunk else sent
        else:
            if current_chunk:
                chunks.append(current_chunk)
            current_chunk = sent
    if current_chunk:
        chunks.append(current_chunk)
    
    return chunks

3.2 分块策略选择指南

不同场景需要不同的分块策略：

文档类型	推荐分块大小	分割策略	适用场景
技术文档	200-400字符	按节/子节	API文档、代码注释
法律合同	300-500字符	按条款	合同分析、条款检索
新闻文章	400-600字符	按段落	事实核查、内容摘要
会议记录	150-300字符	按发言	行动项提取、讨论追踪

实操技巧：可以先尝试300-500字符的中等块大小，然后根据实际效果调整。技术文档通常需要更小的块，而叙述性内容可以使用稍大的块。

4. 向量数据库构建实战

4.1 ChromaDB核心配置

向量数据库是RAG系统的核心存储，以下是详细配置指南：

python复制import chromadb
from chromadb.utils import embedding_functions

# 持久化配置（生产环境推荐）
client = chromadb.PersistentClient(
    path="vector_db",
    settings=chromadb.Settings(
        allow_reset=True,
        anonymized_telemetry=False  # 禁用数据收集
    )
)

# Embedding模型选择（中文场景推荐）
embedding_model = embedding_functions.SentenceTransformerEmbeddingFunction(
    model_name="paraphrase-multilingual-MiniLM-L12-v2",
    device="cuda" if torch.cuda.is_available() else "cpu"
)

# 集合配置
collection = client.get_or_create_collection(
    name="knowledge_base",
    embedding_function=embedding_model,
    metadata={"hnsw:space": "cosine"}  # 相似度计算方式
)

4.2 文档索引最佳实践

批量索引文档时的优化技巧：

python复制def batch_index_documents(collection, docs: list[dict]):
    """优化的大批量文档索引"""
    batch_size = 100  # 根据内存调整
    for i in range(0, len(docs), batch_size):
        batch = docs[i:i+batch_size]
        
        # 准备数据
        ids = [f"doc_{i+j}" for j, doc in enumerate(batch)]
        documents = [doc["text"] for doc in batch]
        metadatas = [{
            "source": doc["source"],
            "page": doc.get("page", ""),
            "timestamp": datetime.now().isoformat()
        } for doc in batch]
        
        # 批量插入
        collection.add(
            ids=ids,
            documents=documents,
            metadatas=metadatas
        )
        
        # 进度显示
        print(f"已索引 {i+len(batch)}/{len(docs)} 文档")

性能提示：对于超大规模文档集（10万+），考虑使用分布式索引方案，如分片或多进程处理。

5. 语义检索系统实现

5.1 基础检索功能

python复制def semantic_search(collection, query: str, top_k: int = 3):
    """带元数据过滤的语义搜索"""
    results = collection.query(
        query_texts=[query],
        n_results=top_k,
        where={},  # 可添加元数据过滤条件
        where_document={}  # 文档内容过滤
    )
    
    # 结果后处理
    formatted_results = []
    for i in range(len(results["ids"][0])):
        formatted_results.append({
            "id": results["ids"][0][i],
            "score": 1 - results["distances"][0][i],  # 转换为相似度分数
            "text": results["documents"][0][i],
            "metadata": results["metadatas"][0][i]
        })
    
    return formatted_results

5.2 混合检索策略

结合语义搜索与关键词检索的混合方案：

python复制from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

class HybridRetriever:
    def __init__(self, collection):
        self.collection = collection
        self.vectorizer = TfidfVectorizer()
        
    def fit_keyword_model(self, documents: list[str]):
        """训练关键词权重模型"""
        self.vectorizer.fit(documents)
    
    def hybrid_search(self, query: str, top_k: int = 3, alpha: float = 0.7):
        """混合检索（alpha控制语义/关键词权重）"""
        # 语义检索
        semantic_results = self.collection.query(
            query_texts=[query],
            n_results=top_k*2  # 获取更多候选
        )
        
        # 关键词检索
        query_vec = self.vectorizer.transform([query])
        doc_vecs = self.vectorizer.transform(semantic_results["documents"][0])
        keyword_scores = (query_vec @ doc_vecs.T).toarray()[0]
        
        # 融合分数
        combined_scores = []
        for i in range(len(semantic_results["ids"][0])):
            semantic_score = 1 - semantic_results["distances"][0][i]
            keyword_score = keyword_scores[i]
            combined = alpha*semantic_score + (1-alpha)*keyword_score
            combined_scores.append(combined)
        
        # 按综合分排序
        sorted_indices = np.argsort(combined_scores)[::-1][:top_k]
        
        # 返回最终结果
        return [{
            "id": semantic_results["ids"][0][i],
            "text": semantic_results["documents"][0][i],
            "metadata": semantic_results["metadatas"][0][i],
            "semantic_score": 1 - semantic_results["distances"][0][i],
            "keyword_score": keyword_scores[i],
            "combined_score": combined_scores[i]
        } for i in sorted_indices]

6. LLM集成与回答生成

6.1 提示工程最佳实践

python复制def build_rag_prompt(query: str, context: str, chat_history: list = None):
    """构建优化的RAG提示模板"""
    history_str = ""
    if chat_history:
        history_str = "\n对话历史:\n" + "\n".join(
            f"{msg['role']}: {msg['content']}" 
            for msg in chat_history[-3:]  # 只保留最近3轮
        )
    
    return f"""你是一个专业的AI助手，请严格根据提供的上下文信息回答问题。
{history_str}

上下文:
{context}

用户问题: {query}

请按照以下要求回答:
1. 答案必须基于上下文，不要编造信息
2. 如果上下文不包含答案，如实告知"根据现有信息无法回答"
3. 保持回答专业、简洁
4. 必要时引用上下文中的具体数据

回答:"""

6.2 回答生成与后处理

python复制def generate_answer(prompt: str, model: str = "gpt-4"):
    """调用LLM生成回答并进行后处理"""
    try:
        response = openai.ChatCompletion.create(
            model=model,
            messages=[{"role": "user", "content": prompt}],
            temperature=0.3,  # 较低温度保证事实性
            max_tokens=500
        )
        
        answer = response.choices[0].message.content
        
        # 后处理：移除可能的重复内容
        answer = "\n".join([line for i, line in enumerate(answer.split("\n")) 
                           if i == 0 or line != answer.split("\n")[i-1]])
        
        return answer.strip()
    except Exception as e:
        return f"生成回答时出错: {str(e)}"

7. 对话管理系统实现

7.1 对话状态跟踪

python复制class ConversationManager:
    def __init__(self):
        self.sessions = {}  # session_id -> conversation
        
    def start_session(self, user_id: str = None) -> str:
        """初始化新对话"""
        session_id = str(uuid.uuid4())
        self.sessions[session_id] = {
            "messages": [],
            "created_at": datetime.now(),
            "user_id": user_id,
            "context": None  # 可存储自定义上下文
        }
        return session_id
    
    def add_message(self, session_id: str, role: str, content: str):
        """记录对话消息"""
        if session_id not in self.sessions:
            raise ValueError("无效的会话ID")
            
        self.sessions[session_id]["messages"].append({
            "role": role,
            "content": content,
            "timestamp": datetime.now()
        })
        
        # 自动压缩过长的对话历史
        if len(self.sessions[session_id]["messages"]) > 10:
            self._compress_history(session_id)
    
    def _compress_history(self, session_id: str):
        """对话历史摘要压缩"""
        messages = self.sessions[session_id]["messages"]
        
        # 保留最近3条完整消息
        recent = messages[-3:]
        
        # 对早期消息生成摘要
        summary_prompt = "总结以下对话的核心内容:\n" + "\n".join(
            f"{msg['role']}: {msg['content']}" 
            for msg in messages[:-3]
        )
        
        summary = generate_answer(summary_prompt, model="gpt-3.5-turbo")
        
        # 替换历史消息
        self.sessions[session_id]["messages"] = [
            {"role": "system", "content": f"先前对话摘要: {summary}"}
        ] + recent

7.2 指代消解实现

python复制def resolve_references(query: str, conversation: list) -> str:
    """处理指代消解"""
    if not any(word in query.lower() for word in ["它", "这个", "那个", "他们"]):
        return query
        
    context = "\n".join(
        f"{msg['role']}: {msg['content']}" 
        for msg in conversation[-4:]  # 使用最近4轮对话
    )
    
    prompt = f"""请将以下包含指代词的查询改写为完整明确的提问。只需输出改写后的查询。

对话上下文:
{context}

含指代词的查询:
{query}

明确完整的查询:"""
    
    try:
        resolved = generate_answer(prompt, model="gpt-3.5-turbo")
        return resolved if resolved else query
    except:
        return query

8. 系统优化与生产部署

8.1 性能优化技巧

索引优化：
- 对文档进行预处理（去重、标准化）
- 使用更快的embedding模型（如all-MiniLM-L6-v2）
- 考虑量化技术减少向量存储空间

检索优化：

python复制# 在查询时添加过滤条件提高精度
results = collection.query(
    query_texts=[query],
    n_results=5,
    where={"department": "legal"},  # 元数据过滤
    where_document={"$contains":"条款"}  # 内容过滤
)

缓存策略：

python复制from functools import lru_cache

@lru_cache(maxsize=1000)
def get_embedding(text: str) -> list[float]:
    return embedding_model(text)

8.2 监控与评估指标

实现基本的质量评估体系：

python复制class RAGEvaluator:
    def __init__(self, collection):
        self.collection = collection
        
    def evaluate_query(self, query: str, expected_docs: list[str]) -> dict:
        """评估单个查询的检索质量"""
        results = self.collection.query(
            query_texts=[query],
            n_results=5
        )
        
        retrieved_ids = set(results["ids"][0])
        expected_ids = set(expected_docs)
        
        # 计算召回率和准确率
        relevant_retrieved = len(retrieved_ids & expected_ids)
        recall = relevant_retrieved / len(expected_ids) if expected_ids else 0
        precision = relevant_retrieved / len(retrieved_ids) if retrieved_ids else 0
        
        return {
            "query": query,
            "recall": recall,
            "precision": precision,
            "retrieved": list(retrieved_ids),
            "expected": list(expected_ids)
        }
    
    def evaluate_answer(self, query: str, answer: str, expected_answer: str) -> dict:
        """评估回答质量"""
        prompt = f"""评估AI回答的质量，给出1-5的评分(5为最佳):

问题: {query}
预期回答: {expected_answer}
实际回答: {answer}

评分标准:
1. 事实准确性
2. 回答完整性
3. 与问题的相关性

请输出JSON格式的评估结果:"""
        
        evaluation = generate_answer(prompt)
        try:
            return json.loads(evaluation)
        except:
            return {"error": "评估失败"}

9. 生产环境部署方案

9.1 架构设计建议

code复制客户端 → REST API → 
   → 负载均衡 → 
      → 检索服务集群 → 向量数据库
      → LLM服务集群
      → 对话管理服务

9.2 FastAPI服务示例

python复制from fastapi import FastAPI
from pydantic import BaseModel

app = FastAPI()

class QueryRequest(BaseModel):
    question: str
    session_id: str = None
    top_k: int = 3

@app.post("/query")
async def handle_query(request: QueryRequest):
    """端到端RAG查询接口"""
    # 解析会话
    session_id = request.session_id or conv_manager.start_session()
    
    # 检索相关文档
    results = semantic_search(
        collection, 
        request.question, 
        top_k=request.top_k
    )
    
    # 生成回答
    context = "\n\n".join([res["text"] for res in results])
    prompt = build_rag_prompt(
        request.question, 
        context,
        chat_history=conv_manager.get_messages(session_id)
    )
    answer = generate_answer(prompt)
    
    # 更新会话
    conv_manager.add_message(session_id, "user", request.question)
    conv_manager.add_message(session_id, "assistant", answer)
    
    return {
        "answer": answer,
        "sources": [res["metadata"] for res in results],
        "session_id": session_id
    }

10. 进阶优化方向

动态分块策略：

python复制def dynamic_chunking(text: str) -> list[str]:
    """根据内容类型自动调整分块策略"""
    if "条款" in text or "第" in text and "条" in text:
        # 法律文档按条款分块
        return split_by_pattern(text, r"第[一二三四五六七八九十]+条")
    elif re.search(r"\d+\.\s", text):
        # 带编号的列表项
        return split_by_pattern(text, r"\d+\.\s")
    else:
        # 默认语义分块
        return chunk_text(text)

查询扩展技术：

python复制def expand_query(query: str) -> str:
    """使用LLM扩展查询"""
    prompt = f"""请生成以下查询的3个相关变体，用|分隔:

原始查询: {query}

扩展查询:"""
    expanded = generate_answer(prompt)
    return f"{query}|{expanded}"

多模态RAG扩展：

python复制def process_image_documents(file_path: str):
    """处理含图片的文档"""
    # 使用OCR提取文字
    text = pytesseract.image_to_string(file_path)
    
    # 使用CLIP生成图像embedding
    image = preprocess(Image.open(file_path))
    image_embedding = clip_model.encode_image(image)
    
    return {
        "text": text,
        "image_embedding": image_embedding.tolist()
    }

通过以上完整的实现方案，我们构建了一个可解释、可优化、可扩展的RAG系统。与现成框架相比，这种自建方案虽然初期投入较大，但在长期运维、性能优化和业务适配方面具有显著优势。