基于RAG的电影推荐系统生产化实践与优化

做生活的创作者

1. 项目概述：基于RAG的电影推荐系统生产化实践

去年夏天，我构建了一个名为"Rosebud"的电影推荐系统（原名"电影搜索"），这是一个典型的检索增强生成（RAG）应用。用户可以通过自然语言描述他们的电影偏好，比如"帮我找一部时长小于2小时、英语对白且有狗出现的剧情片"，系统就会返回符合要求的电影推荐。这个项目的独特之处在于采用了自查询检索技术——系统不仅能理解用户的语义需求，还能自动将自然语言转换为结构化过滤条件，确保返回结果严格符合用户的约束要求。

2. 系统架构与技术栈解析

2.1 核心组件设计

Rosebud的系统架构包含三个关键层次：

数据层：使用The Movie Database(TMDB)API作为数据源，通过Pinecone向量数据库存储电影特征
处理层：基于LangChain框架实现自查询检索，使用OpenAI的嵌入模型处理文本
应用层：Streamlit构建的Web界面，部署在Azure App Service

2.2 关键技术实现

自查询检索的实现是这个项目的技术亮点。当用户输入"找一部关于狗的英语剧情片，时长小于2小时"时，系统会将其转换为：

json复制{
  "query": "drama English dogs",
  "filter": {
    "operator": "and",
    "arguments": [
      {"comparator": "eq", "attribute": "Genre", "value": "Drama"},
      {"comparator": "eq", "attribute": "Language", "value": "English"},
      {"comparator": "lt", "attribute": "Runtime", "value": 120}
    ]
  }
}

这种转换通过两个LLM调用完成：第一次识别元数据过滤条件，第二次生成最终回复。

3. 生产环境面临的挑战

3.1 评估体系缺失

初始版本仅依赖人工"肉眼检查"，无法系统评估以下方面：

检索结果的相关性（是否真的符合查询条件）
回答的准确性（是否基于检索内容而非幻觉）
回答的相关性（是否真正解答了用户问题）

3.2 可观测性不足

当查询出现问题时，开发人员需要：

手动重现问题
临时编写调试脚本
逐层检查系统状态
这种排查方式效率极低，平均每个问题需要2-3小时定位。

3.3 数据更新滞后

电影数据具有时效性特点：

流媒体版权变更（电影上架/下架）
新电影持续发布
用户评价动态变化
但初始系统需要手动执行数据更新流程，导致数据库经常过期。

4. 生产化改进方案

4.1 离线评估体系建设

采用RAGAS框架实现自动化评估，重点关注三个核心指标：

指标名称	评估内容	实现方式	评分标准
上下文相关性	检索结果与问题的匹配度	计算问题与上下文的语义相似度	0-1连续值
回答准确性	回答是否基于给定上下文	对比回答与上下文的逻辑一致性	0-1连续值
回答相关性	回答是否解决原始问题	分析问题与回答的对应关系	0-1连续值

评估代码实现关键点：

python复制# 评估流程异步化处理
async def evaluate_question(question):
    # 构造评估数据集
    dataset = Dataset.from_dict({
        "question": [question],
        "contexts": [[retrieved_context]],
        "answer": [model_response]
    })
    
    # 并行执行多指标评估
    return await evaluate(
        dataset=dataset,
        metrics=[AnswerRelevancy(), ContextRelevancy(), Faithfulness()],
        llm=judge_model,
        embeddings=embeddings_model
    )

4.2 在线评估与监控

在用户界面添加反馈机制：

python复制# Streamlit反馈组件实现
col1, col2 = st.columns(2)
with col1:
    st.button("👍", on_click=log_feedback, args=("positive",))
with col2:  
    st.button("👎", on_click=log_feedback, args=("negative",))

数据记录采用W&B平台，存储以下信息：

用户原始查询
系统生成的过滤条件
检索到的上下文
最终回答
用户反馈（正面/负面）

4.3 自动化数据流水线

使用Prefect构建自动化工作流：

mermaid复制graph TD
    A[触发每周任务] --> B[从TMDB拉取数据]
    B --> C[数据清洗转换]
    C --> D[生成文档向量]
    D --> E[更新Pinecone索引]
    E --> F[发布数据集到Weave]

关键配置参数：

json复制{
  "schedule": "0 0 * * 0",  // 每周日午夜运行
  "retry_policy": {
    "retries": 3,
    "delay": [1, 10, 100]  // 指数退避重试
  },
  "resource_requirements": {
    "cpu": 4,
    "memory": "16GiB"
  }
}

5. 技术选型经验分享

5.1 评估工具对比

工具	优点	缺点	适用场景
RAGAS	专为RAG设计，指标全面	LLM评分存在波动	离线评估
TruLens	可视化好，集成度高	商业方案成本高	企业级监控
人工评估	结果可靠	效率低，成本高	关键测试用例