手写RAG系统：从原理到实现的完整指南-AI智能范式网

手写RAG系统：从原理到实现的完整指南

经雷

1. 项目概述：为什么需要手写RAG系统？

最近两年，检索增强生成（RAG）系统在AI领域火得一塌糊涂。但市面上大多数教程都在教你怎么调API、搭框架，真正讲清楚底层原理的内容少之又少。作为一个被各种"黑箱"API折磨过的开发者，我决定从头开始手写一个最小化的RAG系统，把知识检索和生成的全流程彻底拆解明白。

这个项目特别适合两类人：一是想真正理解RAG工作原理的AI开发者，二是需要定制化检索方案但苦于现有框架不够灵活的技术团队。通过手写实现，你会发现那些商业产品里看似神秘的"魔法"，其实都是由一些非常基础的算法模块组合而成。

2. 核心组件拆解

2.1 文本处理流水线

任何RAG系统的第一步都是处理原始文本。我们实现的文本处理流水线包含三个关键步骤：

文本分块：这里我测试了固定窗口滑动和语义分割两种方案。固定窗口实现简单但会切断语义连贯性，最终选择基于句子边界和标点的自适应分块：

python复制def chunk_text(text, max_length=512):
    sentences = re.split(r'(?<=[.!?])\s+', text)
    chunks = []
    current_chunk = []
    current_length = 0
    
    for sent in sentences:
        sent_length = len(sent.split())
        if current_length + sent_length > max_length and current_chunk:
            chunks.append(' '.join(current_chunk))
            current_chunk = []
            current_length = 0
        current_chunk.append(sent)
        current_length += sent_length
    
    if current_chunk:
        chunks.append(' '.join(current_chunk))
    return chunks

向量化编码：没有直接用现成的BERT，而是实现了基于TF-IDF加权的词向量平均方案。虽然效果不如Transformer，但对理解语义编码的本质更有帮助：

python复制class TfidfEmbedder:
    def __init__(self, word_vectors):
        self.word_vectors = word_vectors
        self.vector_dim = word_vectors.vector_size
        
    def fit(self, documents):
        self.tfidf = TfidfVectorizer()
        self.tfidf.fit(documents)
    
    def embed(self, text):
        words = text.split()
        vectors = []
        weights = []
        
        for word in words:
            if word in self.word_vectors:
                vectors.append(self.word_vectors[word])
                # 获取该词在整个语料中的IDF值作为权重
                weight = self.tfidf.idf_[self.tfidf.vocabulary_[word]] 
                weights.append(weight)
        
        if not vectors:
            return np.zeros(self.vector_dim)
            
        vectors = np.array(vectors)
        weights = np.array(weights)
        weights = weights / weights.sum()
        
        return np.sum(vectors * weights.reshape(-1,1), axis=0)

元数据关联：为每个分块添加来源文档、位置偏移等元信息，这对后续的引用生成至关重要。我采用了一种轻量级的JSON结构来存储这些信息。

注意：文本分块的大小直接影响检索效果。经过测试，对于通用领域文本，300-500 tokens的块长在召回率和精度之间取得了较好平衡。

2.2 检索系统实现

2.2.1 倒排索引构建

为了高效检索，我们实现了基于内存的倒排索引：

python复制class InvertedIndex:
    def __init__(self):
        self.index = defaultdict(list)
        self.documents = []
    
    def add_document(self, doc_id, text, tokens):
        self.documents.append(text)
        for token in set(tokens):  # 去重
            self.index[token].append(doc_id)
    
    def search(self, query_tokens, top_k=5):
        doc_scores = defaultdict(int)
        for token in query_tokens:
            for doc_id in self.index.get(token, []):
                doc_scores[doc_id] += 1
        
        sorted_docs = sorted(doc_scores.items(), key=lambda x: x[1], reverse=True)
        return [doc_id for doc_id, score in sorted_docs[:top_k]]

2.2.2 混合检索策略

实际测试发现，纯语义检索在特定术语查询时表现不佳。最终采用以下混合方案：

先用倒排索引做关键词初筛
对候选文档做向量相似度精排
加入简单的BM25相关性评分作为调权因子

python复制def hybrid_retrieve(query, index, embedder, top_k=3):
    # 关键词检索
    query_terms = preprocess(query)
    candidate_ids = index.search(query_terms, top_k*5)
    
    # 语义精排
    query_vec = embedder.embed(query)
    candidates = []
    for doc_id in candidate_ids:
        doc_vec = embedder.embed(index.documents[doc_id])
        sim = cosine_similarity([query_vec], [doc_vec])[0][0]
        candidates.append((doc_id, sim))
    
    # 按相似度排序
    candidates.sort(key=lambda x: x[1], reverse=True)
    return [doc_id for doc_id, score in candidates[:top_k]]

2.3 生成模块设计

2.3.1 上下文压缩

检索到的文档可能包含冗余信息。我们实现了一个基于TF-IDF的上下文压缩器，只保留与查询最相关的句子：

python复制def compress_context(query, context, keep_sentences=3):
    query_terms = set(preprocess(query))
    sentences = sent_tokenize(context)
    
    scored_sentences = []
    for sent in sentences:
        sent_terms = set(preprocess(sent))
        overlap = len(query_terms & sent_terms)
        scored_sentences.append((sent, overlap))
    
    scored_sentences.sort(key=lambda x: x[1], reverse=True)
    return ' '.join([sent for sent, score in scored_sentences[:keep_sentences]])

2.3.2 提示工程

经过多次实验，最终确定的提示模板如下：

code复制请基于以下上下文信息回答问题。如果上下文不包含答案，请明确说明"根据提供的信息无法确定"。

上下文：
{compressed_context}

问题：{query}

这个模板强制模型承认知识边界，显著减少了幻觉现象。

3. 系统集成与优化

3.1 端到端流程

完整的RAG流程实现为以下步骤：

初始化时加载并处理所有文档
构建倒排索引和向量索引
接收查询时并行执行关键词和语义检索
对结果进行重排序和压缩
生成最终回答

python复制class SimpleRAG:
    def __init__(self, documents):
        self.embedder = TfidfEmbedder(load_word_vectors())
        self.index = InvertedIndex()
        
        # 预处理所有文档
        self.chunks = []
        for doc_id, doc in enumerate(documents):
            for chunk in chunk_text(doc):
                self.chunks.append(chunk)
                tokens = preprocess(chunk)
                self.index.add_document(len(self.chunks)-1, chunk, tokens)
        
        # 预计算所有块的嵌入
        self.embeddings = [self.embedder.embed(chunk) for chunk in self.chunks]
    
    def query(self, question, top_k=3):
        # 混合检索
        doc_ids = hybrid_retrieve(question, self.index, self.embedder, top_k)
        
        # 上下文压缩
        contexts = [compress_context(question, self.chunks[doc_id]) 
                   for doc_id in doc_ids]
        
        # 生成回答
        prompt = build_prompt(question, contexts)
        return generate_response(prompt)

3.2 性能优化技巧

批量处理：文档加载和向量化采用批量处理，比单条处理快5-8倍
缓存机制：高频查询结果缓存，相同问题直接返回
渐进式加载：大文档集采用流式处理，避免内存爆炸

实测数据：在16GB内存的机器上，可以处理约50MB的文本数据，平均查询响应时间<500ms。

4. 常见问题与解决方案

4.1 检索效果不佳

症状：返回的文档与查询不相关
排查：

检查分块大小是否合适
验证向量编码质量（用已知相似句对测试）
调整混合检索的权重参数

解决方案：加入查询扩展技术，自动添加同义词和相关术语

4.2 生成结果不准确

症状：回答与上下文矛盾或包含幻觉
排查：

检查提示模板是否包含知识边界约束
验证上下文压缩是否保留了关键信息
测试生成模型的基础能力

解决方案：实现回答验证步骤，用检索结果交叉验证生成内容

4.3 内存占用过高

症状：处理大文档集时内存不足
排查：

检查向量索引的实现方式
分析文档分块策略
监控内存使用峰值

解决方案：改用磁盘+内存的混合索引方案，或实现分片加载

5. 扩展与改进方向

虽然这个最小化实现已经能说明RAG的核心原理，但在生产环境中还需要考虑以下增强：

动态分块：根据文档结构（如Markdown标题）智能分块
多模态检索：支持表格、图像等非文本内容
反馈学习：根据用户点击/评分优化检索模型
权限控制：实现基于角色的访问控制

这个手写项目最宝贵的收获是让我看清了商业RAG产品的技术本质。下次当某个云服务商吹嘘他们的"独家算法"时，你至少知道核心组件可能就是这样一些基础技术的组合。