Java实现RAG知识库问答系统：LangChain4j实战

成为夏目

1. 项目概述

最近在帮一家金融企业搭建内部知识库问答系统时，我选择了Java技术栈配合LangChain4j框架实现RAG（检索增强生成）方案。这个选择主要基于两点考虑：一是企业现有系统基本都是Java技术栈，二是LangChain4j 1.0.0版本对Java生态的RAG支持已经相当成熟。

这个系统的主要功能是将企业内部的各种合规文档（PDF、Word等）转化为可查询的知识库，员工可以直接用自然语言提问获取精准答案，而不是在成堆的文档中手动查找。比如可以问"员工出差报销标准是多少？"或者"违反数据安全规定的处罚措施有哪些？"，系统会基于上传的文档内容给出准确回答。

2. 技术选型与原理

2.1 为什么选择RAG架构

RAG（检索增强生成）相比纯LLM方案有几个明显优势：

知识更新成本低：不需要重新训练模型，只需更新文档库
答案可追溯：每个回答都能追溯到具体的文档段落
减少幻觉：严格限制模型只基于提供的文档内容回答

在实际测试中，我们对比了直接提问大模型和使用RAG的效果。当问"我司2024年新修订的差旅标准是什么？"时：

纯LLM回答：会编造一个看似合理但实际上错误的答案
RAG回答：会明确说"未找到2024年修订版，当前最新是2023年版本"，并引用具体文档章节

2.2 核心组件选型

2.2.1 LangChain4j 1.0.0

选择LangChain4j而不是Python版的LangChain，主要考虑：

企业现有系统都是Java/Spring技术栈
1.0.0版本API稳定，生产环境可用
对Spring Boot的集成支持良好

2.2.2 本地模型部署

使用Ollama本地部署模型，避免数据外泄风险：

对话模型：Qwen3-8B（中文表现优秀）
Embedding模型：Nomic-embed-text（专为向量化优化）

2.2.3 向量数据库

对比了三种方案后选择PGVector：

方案	优点	缺点	适用场景
PGVector	无需额外运维，与企业现有PG兼容	性能不如专用向量库	文档量<100万
Milvus	高性能，支持高级检索	运维复杂	超大规模向量
Chroma	开发友好	不适合生产	原型开发

3. 实现细节

3.1 文档处理管道

文档处理是RAG系统的核心，我们的管道设计如下：

解析阶段：
- 使用Apache PDFBox解析PDF，能正确处理：
  - 多栏排版
  - 表格数据
  - 页眉页脚过滤
切片阶段：
- 采用递归切片策略(Recursive Splitter)
- 中文优化配置：
  - chunk大小：300字
  - 重叠：30字
- 自定义中文分词器确保不在句子中间截断
向量化阶段：
- 使用nomic-embed-text模型
- 维度768，与PGVector表结构匹配
- 批量处理提升效率
存储阶段：
- 除向量外，同时存储：
  - 原始文本
  - 元数据（来源、部门、版本等）
- 采用UPSERT策略避免重复

3.2 检索问答实现

3.2.1 检索优化

基础检索容易遇到两个问题：

语义相似但关键词不匹配
检索结果质量参差不齐

我们的解决方案：

java复制// 混合检索配置
DefaultRetrievalAugmentor.builder()
    .queryTransformer(new CompressingQueryTransformer(chatModel)) // 问题重写
    .contentRetriever(vectorRetriever)
    .reranker(new BgeReranker()) // 重排序
    .build();

3.2.2 问答接口

使用AiServices的声明式接口大大简化了代码：

java复制@AiService
public interface ComplianceAssistant {
    @SystemMessage("""
            你是一位专业的企业合规顾问，回答必须:
            1. 严格基于提供的文档内容
            2. 未找到内容时明确说明
            3. 引用具体文档来源
            """)
    String ask(String question);
}

4. 生产环境调优

4.1 性能优化

针对大文档处理做了以下优化：

异步处理：
- 上传接口立即返回
- 后台任务队列处理文档
- 支持进度查询
批量处理：
- 文档切片批量向量化
- 使用PGVector的COPY命令加速导入
缓存机制：
- 高频问题答案缓存
- 向量结果缓存

4.2 效果调优

通过以下措施提升问答准确率：

Prompt工程：
- 严格限制回答范围
- 要求结构化输出
- 必须注明引用来源
参数调优：
- temperature=0.1减少幻觉
- minScore=0.7过滤低质量结果
- topK=5平衡召回与精度
后处理：
- 答案可信度评分
- 敏感内容过滤
- 格式规范化

5. 踩坑与解决方案

5.1 中文处理问题

问题表现：

切片破坏句子结构
语义不完整影响检索

解决方案：

自定义中文Tokenizer
调整chunk大小至200-400字
增加句子边界检测

5.2 模型幻觉

问题表现：

检索无结果但仍生成答案
答案与文档内容不符

解决方案：

强化System Prompt限制

添加校验逻辑：

java复制if(retrieveResults.isEmpty()) {
    return "未找到相关规定";
}

人工审核高频问题

5.3 数据一致性

问题表现：

文档更新后旧答案仍然存在
多版本答案冲突

解决方案：

文档指纹校验
版本化存储
定期清理过期内容

6. 部署架构

生产环境部署方案：

code复制[前端]
  ↓ HTTP
[Spring Boot API] ←→ [PGVector]
  ↓ gRPC 
[Ollama集群]
  ├─ Qwen3:8B (对话)
  └─ Nomic-embed-text (向量化)

关键配置：

Kubernetes部署
水平扩展Ollama实例
PGVector专用节点
监控告警体系

7. 使用效果

上线后的关键指标：

指标	目标	实际
问答准确率	>85%	92%
平均响应时间	<3s	1.8s
并发能力	50+	100+
文档处理速度	100页/分钟	150页/分钟

典型用户问题示例：

问："销售团队差旅报销标准是什么？"

答：

code复制根据《2023年差旅费用管理办法》第三章第五条规定：

1. 国内出差：
   - 一线城市：住宿费≤600元/晚
   - 其他城市：≤400元/晚
   - 餐饮补贴：100元/天

2. 国际出差：
   - 欧美地区：≤150美元/晚
   - 亚洲地区：≤100美元/晚

（来源：财务部2023年12月修订版）