企业知识库问答系统：混合检索与权限隔离实践

集成电路科普者

1. 企业知识库问答系统的需求背景

去年下半年，我们团队接到了来自HR部门的紧急需求。他们每天都要处理大量重复性问题咨询，比如"入职需要准备什么材料"、"出差住宿能报多少钱"这类问题，每个HR同事平均每天要回答几十遍相同的提问。这不仅浪费人力资源，也影响了员工体验。

深入沟通后，我们发现这个需求远比表面看起来复杂。财务部门也提出了类似需求，但他们要求文档访问必须严格控制权限；IT部门希望接入操作手册，但又不希望其他部门看到内部系统配置。这让我们意识到，简单的FAQ系统根本无法满足实际需求。

核心需求可以归纳为三点：

员工能够使用自然语言提问，无需记忆特定关键词
系统需要准确理解问题意图并给出精确答案
不同部门的文档必须实现严格的权限隔离

2. 技术方案选型：检索方式的抉择

2.1 关键词检索方案（Elasticsearch）

传统的关键词检索方案基于Elasticsearch实现，其优势非常明显：

结果高度可控且可预测
专业术语能够精确匹配
系统行为容易调试和优化

但实际测试中暴露了严重问题。当员工提问"去上海出差，酒店能报多少钱？"时，系统无法理解"上海"属于"一线城市"、"酒店"等同于"住宿"这样的语义关系。文档中明确写着"一线城市差旅住宿标准为500元/天"，却因为关键词不匹配而无法返回正确结果。

2.2 向量检索方案（Embedding）

向量检索通过将文本转换为高维向量空间中的点，计算相似度来匹配问题与答案。理论上，这种方法能够：

自动理解语义关系，无需维护同义词库
处理各种自然语言表达方式
对提问句式变化不敏感

但在测试内部系统"HR-Link"相关问题时，向量检索暴露了致命缺陷。当员工直接提问"HR-Link的登录地址是什么？"时，由于预训练模型不认识这个内部专有名词，系统完全无法给出正确答案。

3. 混合检索方案的诞生

3.1 方案设计思路

经过充分测试，我们确认两种检索方式各有优劣：

关键词检索擅长处理精确匹配，但对语义理解无能为力
向量检索理解语义关系，却无法识别专有名词

最终方案采用混合检索架构：

Elasticsearch检索前10条结果（确保专有名词匹配）
向量检索同时获取前10条结果（保证语义相关）
合并去重后按文档元数据排序
将最终结果交给LLM生成自然语言回答

3.2 实际场景验证

场景1：专有名词查询
员工问："HR-Link的登录地址是什么？"

ES检索命中（精确匹配专有名词）
向量检索未命中
最终返回正确结果

场景2：语义理解查询
员工问："忘记密码怎么办？"

ES检索未命中（缺少关键词）
向量检索命中（理解语义关系）
最终返回正确结果

场景3：口语化表达
员工问："我登不上代码平台了"

ES检索未命中（字面不匹配）
向量检索命中（理解语义等效）
最终返回正确结果

4. 多轮对话的挑战与解决方案

系统上线后，我们发现多轮对话场景存在严重问题。当员工先问"一线城市出差住宿标准是多少？"得到"500元/天"的回答后，接着问"二线城市呢？"，系统完全无法理解这个省略语境的提问。

问题根源分析：

缺少主语和动词的简短提问
依赖前文语境的理解
直接检索会返回无关内容

解决方案：查询重写(Query Rewriting)
在检索前，先让LLM结合对话历史将问题补全：

code复制历史：Q1:"一线城市出差住宿标准是多少？" A1:"500元/天"
当前问题："二线城市呢？"
重写后："二线城市出差住宿标准是多少？"

重写后的完整问题再进行检索，准确率大幅提升。

5. 权限隔离的实现机制

权限隔离是企业知识库的生命线。我们的解决方案是在文档入库时就打好权限标签，检索时严格过滤。

文档元数据示例：

json复制{
  "content": "差旅住宿标准...",
  "metadata": {
    "department": "finance",
    "doc_type": "policy",
    "is_latest": true,
    "update_time": "2024-12-01"
  }
}

检索时过滤逻辑：

python复制user_department = get_user_department()  # 获取用户部门
es_filter = {"department": user_department}  # ES检索过滤
vector_filter = {"department": user_department}  # 向量检索过滤

这种设计确保：

财务部员工只能看到财务文档
HR部员工只能访问HR文档
权限控制在检索层面完成，而非生成时过滤

6. 技术实现细节

6.1 文档处理流程

python复制from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,  # 经过优化的分块大小
    chunk_overlap=50  # 适当的重叠保证上下文连贯
)
chunks = text_splitter.split_documents(documents)

6.2 双路检索实现

python复制from langchain.retrievers import EnsembleRetriever
from langchain.vectorstores import FAISS
from langchain.retrievers import BM25Retriever

# 初始化两个检索器
bm25_retriever = BM25Retriever.from_documents(chunks)
bm25_retriever.k = 10  # 获取10条结果

vectorstore = FAISS.from_documents(chunks, embeddings)
vector_retriever = vectorstore.as_retriever(search_kwargs={"k": 10})

# 混合检索器
ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, vector_retriever],
    weights=[0.5, 0.5]  # 权重可调整
)

6.3 查询重写实现

python复制from langchain.prompts import ChatPromptTemplate
from langchain.chat_models import ChatAnthropic

rewrite_prompt = ChatPromptTemplate.from_messages([
    ("system", "根据对话历史，将用户的简短问题补全为完整的问题。"),
    ("human", "对话历史：{history}\n当前问题：{question}")
])

llm = ChatAnthropic(model="claude-sonnet-4-20250514")
rewrite_chain = rewrite_prompt | llm