基于Streamlit和LangChain的本地文档智能问答系统-AI智能范式网

基于Streamlit和LangChain的本地文档智能问答系统

oniT Tino

1. 项目概述

最近在整理公司历年技术文档时，发现一个痛点：虽然积累了大量的PDF、Word、Excel等格式的技术文档，但当需要查找某个具体问题的解决方案时，往往要花费大量时间翻阅。这让我萌生了搭建一个本地文档智能问答系统的想法——就像给电脑装了个"文档管家"，随时可以快速准确地回答基于这些文档内容的问题。

这个系统基于Streamlit和LangChain构建，能够处理多种常见文档格式（PDF、Word、TXT、Excel等），通过自然语言理解用户提问，并从本地文档库中精准定位相关信息。最关键是所有数据处理和问答都在本地完成，特别适合企业敏感数据或需要离线使用的场景。

2. 核心组件解析

2.1 技术栈选型

选择Streamlit+LangChain组合主要基于以下考量：

Streamlit：作为展示层，它能让开发者用Python快速构建交互式Web应用，省去前端开发工作。实测从零开始到第一个可交互原型，仅需不到50行代码。
LangChain：作为核心处理框架，它提供了文档加载、文本分割、向量化存储和语义搜索的完整工具链。其模块化设计让我们可以灵活组合不同组件。

提示：如果对隐私要求极高，可以考虑用HuggingFace的本地模型替代OpenAI API，虽然效果稍逊但完全离线。

2.2 系统工作原理

整个系统的处理流程可分为四个关键阶段：

文档加载：通过LangChain的文档加载器（Document Loaders）支持多种格式：
- PDF：PyPDFLoader
- Word：Docx2txtLoader
- Excel：UnstructuredExcelLoader
- 纯文本：TextLoader
文本处理：
- 使用RecursiveCharacterTextSplitter进行文本分割
- 设置chunk_size=1000（适合大多数文档）
- chunk_overlap=200保证上下文连贯性
向量化存储：
- 选用开源的SentenceTransformer进行文本嵌入
- 向量数据库采用轻量级的FAISS
- 索引构建耗时约0.5秒/万字符（实测数据）
问答引擎：
- 基于相似度搜索召回最相关文本片段
- 使用LLM（如ChatGLM3-6B）进行答案生成
- 支持显示答案出处和置信度评分

3. 详细实现步骤

3.1 环境准备

推荐使用conda创建独立Python环境：

bash复制conda create -n docqa python=3.10
conda activate docqa
pip install -r requirements.txt

关键依赖版本：

code复制streamlit==1.28.0
langchain==0.0.346
sentence-transformers==2.2.2
faiss-cpu==1.7.4
unstructured==0.10.8

3.2 核心代码实现

文档处理模块：

python复制from langchain.document_loaders import PyPDFLoader, Docx2txtLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

def process_document(file_path):
    if file_path.endswith('.pdf'):
        loader = PyPDFLoader(file_path)
    elif file_path.endswith('.docx'):
        loader = Docx2txtLoader(file_path)
    
    documents = loader.load()
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000,
        chunk_overlap=200
    )
    return text_splitter.split_documents(documents)

向量数据库构建：

python复制from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS

embeddings = HuggingFaceEmbeddings(
    model_name="paraphrase-multilingual-MiniLM-L12-v2"
)

def build_vectorstore(splits):
    return FAISS.from_documents(splits, embeddings)

3.3 Streamlit界面开发

主界面代码结构示例：

python复制import streamlit as st

st.title("📄 本地文档智能问答系统")

uploaded_file = st.file_uploader("上传文档", type=['pdf','docx','txt'])
if uploaded_file:
    with st.spinner("处理文档中..."):
        # 保存临时文件
        temp_path = f"./temp/{uploaded_file.name}"
        with open(temp_path, "wb") as f:
            f.write(uploaded_file.getbuffer())
        
        # 处理文档
        splits = process_document(temp_path)
        vectorstore = build_vectorstore(splits)
        st.session_state['vectorstore'] = vectorstore

question = st.text_input("请输入您的问题")
if question and 'vectorstore' in st.session_state:
    docs = st.session_state['vectorstore'].similarity_search(question, k=3)
    st.write("最相关的文档片段：")
    for doc in docs:
        st.markdown(f"**出处：{doc.metadata['source']}**")
        st.write(doc.page_content)
        st.divider()

4. 高级功能扩展

4.1 多文档批量处理

实际应用中往往需要处理整个文档目录：

python复制import os
from typing import List

def batch_process(directory: str) -> List[Document]:
    all_splits = []
    for filename in os.listdir(directory):
        filepath = os.path.join(directory, filename)
        try:
            splits = process_document(filepath)
            all_splits.extend(splits)
        except Exception as e:
            print(f"处理{filename}时出错：{str(e)}")
    return all_splits

4.2 混合检索策略

结合关键词和语义搜索提升召回率：

python复制from langchain.retrievers import BM25Retriever, EnsembleRetriever

bm25_retriever = BM25Retriever.from_documents(splits)
bm25_retriever.k = 2
faiss_retriever = st.session_state['vectorstore'].as_retriever(
    search_kwargs={"k": 3}
)

ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, faiss_retriever],
    weights=[0.4, 0.6]
)

4.3 答案生成优化

使用本地LLM生成更自然的回答：

python复制from langchain.chains import RetrievalQA
from langchain.llms import ChatGLM

llm = ChatGLM(
    endpoint_url="http://localhost:8000",
    max_token=8000,
    temperature=0.1
)

qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=ensemble_retriever
)

5. 实战问题排查

5.1 常见错误与解决方案

问题现象	可能原因	解决方案
上传PDF后无响应	PyPDF版本兼容性问题	降级到PyPDF2==3.0.0
中文检索效果差	嵌入模型不支持中文	改用"paraphrase-multilingual-MiniLM-L12-v2"
内存占用过高	文档分块过大	减小chunk_size到500-800
回答不相关	召回片段太少	增加similarity_search的k值

5.2 性能优化技巧

增量索引：对于新增文档，使用FAISS的merge_from方法避免全量重建

python复制new_db = FAISS.from_documents(new_splits, embeddings)
st.session_state['vectorstore'].merge_from(new_db)

缓存机制：对已处理文档存储向量数据库，下次直接加载

python复制if os.path.exists("vectorstore.faiss"):
    vectorstore.load_local("vectorstore")

并行处理：大文档分割时使用多线程加速

python复制from multiprocessing import Pool
with Pool(4) as p:
    splits = p.map(text_splitter.split_text, large_texts)

6. 应用场景扩展

这个系统的灵活性使其能适配多种场景：

企业知识管理：
- 技术文档即时查询
- 产品手册智能检索
- 规章制度合规检查
学术研究辅助：
- 论文库概念查询
- 跨文献知识关联
- 研究资料摘要生成
个人知识库：
- 电子书内容检索
- 学习笔记整理
- 会议纪要提取

我在实际部署中发现，对于50MB左右的文档集合（约1000页内容），在消费级笔记本上查询响应时间能控制在2秒内。一个实用的技巧是为不同部门的文档建立独立的向量库，通过下拉菜单切换，既保持隔离性又提升检索效率。