RAG系统实战：从数据处理到生产部署的避坑指南

天驰联盟

1. 从Demo到生产：RAG系统实战避坑指南

作为一名经历过多个RAG项目落地的技术老兵，我见过太多团队在原型阶段信心满满，却在生产环境栽跟头。这篇文章将分享那些只有踩过坑才知道的实战经验，帮助开发者避开RAG项目中的常见陷阱。

1.1 数据处理：被低估的第一道坎

在Demo阶段，我们通常使用精心准备的测试数据，这些数据格式统一、内容干净。但真实业务场景中，数据往往杂乱无章。我曾接手过一个金融领域的RAG项目，客户提供的知识库包含PDF报告、扫描合同、Excel表格甚至手写笔记照片。

格式多样性处理是第一个挑战。对于PDF，我们采用了PyPDF2和pdfplumber双解析引擎，前者处理文本型PDF效率高，后者对扫描件和表格支持更好。Word文档使用python-docx，但要注意保留文档结构信息。最棘手的是PPT，我们最终选择了pptx2md将幻灯片转换为Markdown，保留标题层级和列表结构。

关键经验：永远不要相信单一解析工具能处理所有情况，针对不同格式准备备用方案。

切块策略直接影响后续检索效果。固定长度切分（如512token）简单但破坏语义。我们最终采用了混合策略：

普通文本：按段落切分，最大长度不超过800token
表格：整表作为一个chunk，配合表格描述文本
代码片段：保持完整，不拆分函数或类定义

python复制# 示例：基于文本类型的自适应切块
def chunk_document(doc):
    if doc.type == "table":
        return handle_table(doc)
    elif doc.type == "code":
        return handle_code(doc)
    else:
        return semantic_chunking(doc.text)

数据更新同步是另一个痛点。我们设计了两层机制：

版本控制：每次文档更新生成新版本，保留旧版本向量
增量索引：监控文件系统变化，自动更新受影响文档的向量

1.2 检索质量优化的三个维度

检索环节的问题可以归纳为三类，每种都需要针对性解决方案。

找不到问题通常源于领域适配不足。通用Embedding模型在专业领域表现欠佳。我们在医疗项目中训练了领域专用Embedding，将"心肌梗塞"和"心梗"的向量距离从0.35提升到0.82。另一个技巧是构建同义词库，在检索前扩展查询词。

找不准问题需要改进排序算法。除了经典的BM25+向量混合检索，我们还引入了ColBERT等稀疏-稠密混合模型。对于关键业务场景，可以添加规则引擎进行后处理，比如强制提升包含特定关键词的结果排名。

bash复制# 混合检索示例
curl -X POST http://retriever:8000/search \
  -H "Content-Type: application/json" \
  -d '{
    "query": "报销流程",
    "hybrid": true,
    "alpha": 0.7  # 向量权重
  }'

找太多问题的解决方案包括：

动态Top-K：根据查询复杂度调整返回结果数
结果去重：使用MinHash或SimHash合并相似chunk
上下文压缩：用小型LLM先对检索结果做摘要

1.3 生成阶段的三大陷阱

即使检索到完美结果，生成环节仍可能翻车。以下是三个最常见问题及应对方案。

过度发挥问题需要通过Prompt工程约束。我们发现以下结构效果较好：

明确指令："仅使用以下上下文回答"
提供模板："答案应包含：关键点(1-3个)、数据来源"
设置惩罚："若添加上下文外信息，需标注'推测'"

引用溯源问题的解决方案是分步处理：

生成时要求标注来源
使用正则匹配验证引用格式
后处理阶段检查引用是否存在

python复制# 引用验证示例
def validate_citations(response, chunks):
    pattern = r"\[source: (.+?)\]"
    citations = re.findall(pattern, response)
    return all(c in chunk_ids for c in citations)