基于Spring AI构建企业级RAG知识问答系统

今晚摘大星星吗

1. 项目概述

在当今企业级应用开发中，如何让大语言模型(LLM)有效利用私有知识库是一个关键挑战。RAG(检索增强生成)技术通过结合向量检索和大模型生成能力，为企业提供了私有知识问答的解决方案。本文将基于Spring AI框架，详细讲解如何构建一个完整的RAG系统。

1.1 核心需求解析

RAG系统需要解决三个核心问题：

私有知识存储：如何将企业文档转化为可检索的知识片段
语义检索：如何根据用户问题找到最相关的知识片段
答案生成：如何让大模型基于检索结果生成准确回答

Spring AI提供了完整的RAG实现方案，包括文档加载、分块、向量化、存储和检索的全流程支持。我们将使用RedisStack作为向量数据库，阿里云百炼作为大模型服务，构建一个运维知识问答系统。

2. 技术架构设计

2.1 系统组件

完整的RAG系统包含以下核心组件：

组件	功能	实现选择
文档加载器	读取各种格式的文档	Spring AI TextReader
文本分块器	将长文档切分为适合检索的片段	TokenTextSplitter
向量数据库	存储和检索文档向量	RedisStack
大模型服务	生成最终回答	阿里云百炼(Qwen/DeepSeek)
RAG协调器	管理检索和生成流程	RetrievalAugmentationAdvisor

2.2 工作流程

知识库初始化阶段：
- 加载文档并分块
- 生成文本向量
- 存储到向量数据库
问答阶段：
- 将用户问题向量化
- 检索最相关的文档片段
- 将检索结果作为上下文提供给大模型
- 生成最终回答

3. 环境准备与配置

3.1 基础环境

bash复制# 开发环境要求
JDK 17+
Spring Boot 3.2.x
RedisStack 7.2+

3.2 Maven依赖

xml复制<dependencies>
    <!-- Spring AI Alibaba -->
    <dependency>
        <groupId>com.alibaba.cloud.ai</groupId>
        <artifactId>spring-ai-alibaba-starter-dashscope</artifactId>
        <version>1.0.0.2</version>
    </dependency>
    
    <!-- Spring AI RAG -->
    <dependency>
        <groupId>org.springframework.ai</groupId>
        <artifactId>spring-ai-advisors-vector-store</artifactId>
    </dependency>
    
    <!-- Redis集成 -->
    <dependency>
        <groupId>org.springframework.ai</groupId>
        <artifactId>spring-ai-redis-store</artifactId>
    </dependency>
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-data-redis</artifactId>
    </dependency>
    
    <!-- 工具类 -->
    <dependency>
        <groupId>cn.hutool</groupId>
        <artifactId>hutool-all</artifactId>
        <version>5.8.26</version>
    </dependency>
</dependencies>

3.3 配置文件

yaml复制# application.yml
spring:
  data:
    redis:
      host: localhost
      port: 6379
      password: 123456
      database: 0
  ai:
    vectorstore:
      redis:
        initialize-schema: true

4. 核心实现详解

4.1 知识库初始化

知识库初始化需要考虑文档去重问题，避免服务重启时重复加载文档。我们使用Redis的SETNX命令实现去重逻辑。

java复制@Configuration
public class InitVectorDatabaseConfig {
    @Autowired
    private VectorStore vectorStore;
    
    @Autowired
    private RedisTemplate<String, Object> redisTemplate;
    
    @Value("classpath:code.txt")
    private Resource opsFile;

    @PostConstruct
    public void init() {
        // 1. 读取文档
        TextReader textReader = new TextReader(opsFile);
        textReader.setCharset(Charset.defaultCharset());
        
        // 2. 文档分块
        List<Document> documents = new TokenTextSplitter().transform(textReader.read());
        
        // 3. 去重逻辑
        String sourceMetadata = (String) textReader.getCustomMetadata().get("source");
        String textHash = SecureUtil.md5(sourceMetadata);
        String redisKey = "vector-initialized:" + textHash;
        
        Boolean isFirstLoad = redisTemplate.opsForValue().setIfAbsent(redisKey, "1");
        
        if (Boolean.TRUE.equals(isFirstLoad)) {
            vectorStore.add(documents);
            System.out.println("✅ 知识库初始化成功");
        } else {
            System.out.println("ℹ️ 知识库已初始化过");
        }
    }
}

关键点说明：

TokenTextSplitter默认分块策略为800 Token每块，200 Token重叠
使用MD5哈希作为文档唯一标识
Redis的SETNX命令确保原子性操作

4.2 RAG核心配置

Spring AI提供了RetrievalAugmentationAdvisor来简化RAG集成：

java复制@Configuration
public class LLMConfig {
    private final String QWEN_MODEL = "qwen-plus";
    
    @Bean(name = "qwenChatClient")
    public ChatClient qwenChatClient(
            @Qualifier("qwen") ChatModel qwenChatModel,
            VectorStore vectorStore) {
        
        RetrievalAugmentationAdvisor ragAdvisor = RetrievalAugmentationAdvisor.builder()
                .documentRetriever(VectorStoreDocumentRetriever.builder()
                        .vectorStore(vectorStore)
                        .topK(5)
                        .similarityThreshold(0.7)
                        .build())
                .build();
    
        return ChatClient.builder(qwenChatModel)
                .defaultOptions(ChatOptions.builder()
                        .model(QWEN_MODEL)
                        .temperature(0.1) // 降低随机性
                        .build())
                .defaultAdvisors(ragAdvisor)
                .build();
    }
}

参数调优建议：

topK: 根据文档长度和模型上下文窗口调整(通常5-10)
similarityThreshold: 0.6-0.8之间，过高会漏检，过低会引入噪声
temperature: RAG场景建议0.1-0.3，减少幻觉

4.3 问答接口实现

java复制@RestController
public class RagController {
    @Resource(name = "qwenChatClient")
    private ChatClient chatClient;
    
    @GetMapping("/ragaiops")
    public Flux<String> rag(@RequestParam(name = "msg") String msg) {
        String systemPrompt = """
                你是一个专业的运维工程师，你的职责是根据提供的运维故障手册，回答用户的故障问题。
                请严格遵循以下规则：
                1. 如果故障信息在上下文中，请基于上下文给出清晰的解决方案。
                2. 如果故障信息不在上下文中，请直接回复"抱歉，未找到该故障的相关信息"，不要编造内容。
                3. 回答要简洁、专业、有可操作性。
                """;
    
        return chatClient
                .prompt()
                .system(systemPrompt)
                .user(msg)
                .stream()
                .content();
    }
}

提示词设计要点：

明确角色定位
规定回答规则
限制回答风格
防止幻觉的明确指令

5. 进阶优化技巧

5.1 动态元数据过滤

java复制@GetMapping("/ragaiops/filtered")
public Flux<String> ragFiltered(@RequestParam String msg, @RequestParam String type) {
    return chatClient
            .prompt()
            .user(msg)
            .advisors(advisorSpec -> advisorSpec
                    .param(VectorStoreDocumentRetriever.FILTER_EXPRESSION, 
                          "type == '" + type + "'"))
            .stream()
            .content();
}

5.2 自定义Prompt模板

java复制PromptTemplate customPromptTemplate = PromptTemplate.builder()
        .template("""
                运维故障手册内容：
                {question_answer_context}
                
                用户问题：{query}
                
                请基于手册回答，不知道就说"未找到"。
                """)
        .build();

ContextualQueryAugmenter queryAugmenter = ContextualQueryAugmenter.builder()
        .promptTemplate(customPromptTemplate)
        .build();

5.3 查询改写优化

java复制RewriteQueryTransformer queryTransformer = RewriteQueryTransformer.builder()
        .chatClientBuilder(ChatClient.builder(qwenChatModel))
        .build();

RetrievalAugmentationAdvisor ragAdvisor = RetrievalAugmentationAdvisor.builder()
        .queryTransformers(queryTransformer)
        .documentRetriever(...)
        .build();

6. 生产环境最佳实践

6.1 文档处理建议

格式选择优先级：
- 纯文本(.txt) > Markdown(.md) > PDF/Word
- 复杂格式需要额外解析器
分块策略参考：

文档类型块大小重叠大小

技术文档 800-1000 Token 200 Token

代码文档 400-600 Token 100 Token

长篇文章 1000-1500 Token 300 Token

文档类型	块大小	重叠大小
技术文档	800-1000 Token	200 Token
代码文档	400-600 Token	100 Token
长篇文章	1000-1500 Token	300 Token

元数据设计：

java复制document.getMetadata().put("department", "运维");
document.getMetadata().put("version", "v2.3");
document.getMetadata().put("updateTime", "2024-05-20");

6.2 性能优化方案

向量索引优化：

yaml复制spring:
  ai:
    vectorstore:
      redis:
        index-name: "ops_knowledge"
        prefix: "vec:"
        distance-type: "COSINE"

缓存策略：
- 高频问题答案缓存
- 向量检索结果缓存
- 使用Redis二级缓存

异步处理：

java复制@Async
public void asyncAddDocuments(List<Document> documents) {
    vectorStore.add(documents);
}

7. 常见问题排查

7.1 检索效果不佳

可能原因：

分块大小不合适
向量模型不匹配
相似度阈值设置不当

解决方案：

调整分块策略
尝试不同向量模型
逐步调整阈值(0.6→0.8测试)

7.2 大模型幻觉

缓解措施：

强化系统提示词

text复制必须基于提供的上下文回答
不知道就说"未找到相关信息"
禁止编造内容

降低temperature参数(0.1-0.3)
添加后处理校验逻辑

7.3 性能瓶颈

优化方向：

向量检索：
- 使用HNSW索引
- 限制返回数量
- 添加过滤条件
模型调用：
- 启用流式响应
- 设置合理超时
- 实现降级策略

8. 监控与维护

8.1 关键指标监控

指标	监控方式	告警阈值
向量库大小	Redis INFO命令	>10GB
检索延迟	Prometheus+Grafana	>500ms
大模型响应时间	日志分析	>3s
知识库更新频率	定时任务检查	>7天未更新

8.2 日志分析建议

java复制@Slf4j
@RestController
public class RagController {
    @GetMapping("/ragaiops")
    public Flux<String> rag(@RequestParam String msg) {
        long start = System.currentTimeMillis();
        return chatClient.prompt()
                .user(msg)
                .stream()
                .content()
                .doOnComplete(() -> {
                    log.info("Query: {}, Time: {}ms", msg, 
                           System.currentTimeMillis()-start);
                });
    }
}

8.3 知识库更新策略

版本化管理：

java复制// 更新时先清除旧版本
redisTemplate.delete("vector-initialized:"+version);
vectorStore.delete(documents);

增量更新：
- 基于最后修改时间
- 使用消息队列通知变更
- 定时全量校验
灰度发布：
- 新老版本并行
- 流量对比测试
- 逐步切换

9. 安全注意事项

数据安全：
- 文档上传权限控制
- 敏感信息脱敏
- 向量库访问加密
API防护：
- 请求频率限制
- 输入内容过滤
- 身份认证鉴权
模型安全：
- 输出内容审核
- 异常回答拦截
- 安全提示词加固

10. 扩展与演进

10.1 多模态扩展

java复制// 支持图片等多媒体内容
MultiModalReader reader = new MultiModalReader();
List<Document> documents = reader.read(resource);

10.2 混合检索策略

java复制HybridRetriever retriever = new HybridRetriever()
        .addRetriever(vectorRetriever)  // 向量检索
        .addRetriever(keywordRetriever) // 关键词检索
        .setWeights(0.7, 0.3);         // 权重分配