基于LangChain的RAG与Agent智能体开发实战-AI智能范式网

基于LangChain的RAG与Agent智能体开发实战

mmjang

1. 大模型RAG与Agent智能体开发实战：基于LangChain技术栈

作为一名长期从事AI应用开发的工程师，我见证了从传统机器学习到如今大语言模型的技术演进。今天要分享的是如何基于LangChain技术栈构建具备检索增强生成(RAG)能力的智能体系统，这是当前企业级AI应用最热门的落地方向之一。

1.1 技术选型背景

在真实业务场景中，我们常遇到三大核心挑战：

领域知识缺失：通用大模型对垂直行业术语和业务逻辑理解有限
数据时效滞后：模型训练数据存在时间断层，无法获取最新信息
回答不可控：模型可能产生看似合理实则错误的"幻觉"回答

LangChain作为大模型应用开发框架，其价值在于：

标准化接口：统一不同厂商的模型调用方式
模块化设计：prompt工程、记忆管理、文档处理等组件可插拔
管道化流程：通过Chain机制实现复杂业务逻辑的编排

1.2 环境准备与模型接入

1.2.1 云端模型接入

以阿里云百炼平台为例的接入流程：

python复制from openai import OpenAI
client = OpenAI(
    api_key="sk-83c1ae70cf0b449c87f377a75e07a59c",  # 替换为实际API Key
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

response = client.chat.completions.create(
    model="qwen3-max",
    messages=[{"role": "user", "content": "解释RAG技术原理"}],
    stream=True
)

关键注意事项：

API Key应通过环境变量管理，避免硬编码
生产环境建议配置请求限流和重试机制
不同模型endpoint存在性能差异，需压测验证

1.2.2 本地模型部署

使用Ollama运行本地模型的典型方案：

bash复制# 安装后运行指定模型
ollama run llama3

性能优化建议：

显存不足时可启用量化版本（如llama3:7b-instruct-q4）
通过--num-gpu-layers参数控制GPU加速层数
使用vLLM等推理引擎提升吞吐量

2. LangChain核心组件详解

2.1 提示词工程实践

2.1.1 结构化提示模板

python复制from langchain_core.prompts import ChatPromptTemplate

prompt = ChatPromptTemplate.from_messages([
    ("system", "你是一位专业的{industry}顾问"),
    ("human", "请分析当前{metric}趋势"),
    MessagesPlaceholder("history")
])

设计要点：

使用f-string实现动态变量注入
通过角色设定控制回答风格
保留历史消息上下文位置

2.1.2 少样本学习示例

python复制examples = [
    {"input": "光伏产业", "output": "新能源"},
    {"input": "DRAM芯片", "output": "半导体"}
]

few_shot_prompt = FewShotPromptTemplate(
    examples=examples,
    example_prompt=PromptTemplate(...),
    prefix="根据示例完成行业分类",
    suffix="输入：{query}\n分类结果："
)

实践技巧：

示例数量以3-5个为宜
正负样本比例保持平衡
示例复杂度应接近实际场景

2.2 文档处理与向量化

2.2.1 文本分块策略

python复制from langchain_text_splitters import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(
    chunk_size=512,
    chunk_overlap=64,
    length_function=len
)

参数选择原则：

法律/医疗等专业文本建议增大chunk_size
技术文档适合设置10-15%的overlap
中文需专门配置separators参数

2.2.2 向量嵌入实践

python复制from langchain_community.embeddings import DashScopeEmbeddings

embeddings = DashScopeEmbeddings(
    model="text-embedding-v2",
    chunk_size=16  # 控制批量处理大小
)

性能对比：

模型	维度	中文优化	价格/千次
text-embedding-v1	1536	是	$0.02
text-embedding-v2	1024	强化	$0.03
bge-small-zh	512	专精	开源

3. RAG系统实现

3.1 架构设计

标准RAG流程包含三大阶段：

索引构建：文档加载→文本分块→向量化→存储
检索阶段：问句向量化→相似度计算→结果过滤
生成阶段：上下文组装→提示词构建→答案生成

3.2 代码实现

3.2.1 向量存储方案

python复制from langchain_chroma import Chroma

vectorstore = Chroma.from_documents(
    documents=chunks,
    embedding=embeddings,
    persist_directory="./chroma_db"
)

技术选型建议：

小型项目：Chroma（轻量级）
生产环境：Weaviate（支持混合搜索）
超大规模：Milvus（分布式架构）

3.2.2 检索逻辑优化

python复制retriever = vectorstore.as_retriever(
    search_type="mmr",  # 最大边际相关性
    search_kwargs={
        "k": 5,
        "score_threshold": 0.7
    }
)

高级检索技巧：

多路召回：结合关键词与向量搜索
查询扩展：使用HyDE生成假设文档
元数据过滤：按文档类型/时间筛选

4. Agent系统开发

4.1 基础Agent构建

python复制from langchain.agents import AgentExecutor, create_react_agent

agent = create_react_agent(
    llm=chat_model,
    tools=[web_search, calculator],
    prompt=agent_prompt
)

agent_executor = AgentExecutor(
    agent=agent,
    tools=tools,
    max_iterations=5
)

关键参数说明：

max_iterations：控制推理步数防止死循环
early_stopping：当置信度低于阈值时终止
return_intermediate_steps：调试时查看决策过程

4.2 工具集成实践

4.2.1 自定义工具开发

python复制from langchain.tools import BaseTool

class MarketDataTool(BaseTool):
    name = "get_market_data"
    description = "获取指定股票的历史行情"

    def _run(self, symbol: str):
        # 实现数据获取逻辑
        return pd.DataFrame(...)

设计规范：

工具描述需明确输入输出格式
耗时操作应实现异步版本
涉及敏感操作需添加权限校验

4.2.2 现成工具集成

常用工具库：

Wikipedia：知识查询
PythonREPL：代码执行
SlackAPI：消息通知
SQLDatabase：数据查询

5. 生产环境优化

5.1 性能提升方案

缓存策略实现：

python复制from langchain.cache import SQLiteCache
import langchain
langchain.llm_cache = SQLiteCache(database_path=".langchain.db")

并发处理优化：

python复制# 使用异步流式处理
async for chunk in agent_executor.astream(...):
    yield chunk

5.2 监控与评估

关键监控指标：

响应时间P99
令牌消耗速率
缓存命中率
回答准确率

评估方法：

python复制from langchain.evaluation import load_evaluator

evaluator = load_evaluator("labeled_score_string")
eval_result = evaluator.evaluate_strings(
    prediction=agent_response,
    reference=gold_standard
)

6. 典型问题解决方案

6.1 检索质量提升

常见问题：

检索结果不相关
关键信息被分块割裂
长尾查询召回率低

解决方案：

优化分块策略（按章节/段落划分）
添加文档元数据（来源/重要性标记）
实现查询重写（Query Expansion）

6.2 生成控制技巧

问题场景：

答案超出知识范围
格式不符合要求
包含敏感信息

控制方法：

python复制response = llm.invoke(
    ...,
    stop_sequences=["\n\n"],  # 停止生成标记
    temperature=0.3,  # 降低随机性
    top_p=0.9  # 核采样阈值
)

7. 进阶开发方向

7.1 多模态RAG

技术实现路径：

图像/PDF等非结构化数据解析
跨模态嵌入模型（如CLIP）
混合检索策略

7.2 分布式Agent

架构设计要点：

任务分解与委派
子Agent协同机制
全局状态管理

在最近实施的金融知识库项目中，这套技术栈帮助我们将问答准确率从62%提升到89%，同时将响应时间控制在800ms以内。特别值得注意的是，通过精心设计的元数据过滤策略，使法规相关查询的精确率达到了93%。