LangChain框架入门：快速构建大语言模型应用

管老太

1. LangChain入门：快速搭建大语言模型应用

作为一名长期从事AI应用开发的工程师，我最近在项目中频繁使用LangChain框架来简化大语言模型(LLM)的集成工作。LangChain就像AI应用开发的"乐高积木"，通过标准化的组件和连接方式，让我们能快速搭建出功能完整的LLM应用。今天我就来分享如何用LangChain让大语言模型真正跑起来。

LangChain的核心价值在于它解决了LLM应用开发中的几个痛点：提示词管理、工作流编排和输出处理。想象一下，如果没有这样的框架，每次调用API都需要手动拼接提示词、处理响应格式、管理对话历史，开发效率会非常低下。而LangChain通过Chain(链)的概念，把这些重复性工作都标准化了。

2. 环境准备与安装

2.1 基础环境配置

在开始之前，我们需要准备好Python环境。我推荐使用Python 3.8或更高版本，同时创建一个干净的虚拟环境：

bash复制python -m venv langchain-env
source langchain-env/bin/activate  # Linux/Mac
# 或者
langchain-env\Scripts\activate  # Windows

2.2 安装LangChain核心库

LangChain采用模块化设计，核心包只包含基础功能，其他功能通过扩展包提供：

bash复制pip install langchain langchain-community

这里解释下两个包的区别：

langchain：核心框架，包含Chain、Memory等基础组件
langchain-community：社区维护的第三方集成，包括各种模型连接器

2.3 模型提供商选择

LangChain支持多种大语言模型，我们需要根据项目需求选择对应的集成包：

bash复制# 阿里云通义千问
pip install langchain-qwq

# OpenAI ChatGPT
pip install langchain-openai

# Hugging Face
pip install langchain-huggingface

# 其他模型...

提示：实际项目中建议固定包版本，避免因更新导致兼容性问题。例如：pip install langchain-qwq==0.0.2

3. 第一个LangChain应用

3.1 初始化模型连接

我们以通义千问为例，首先需要设置API密钥：

python复制import os
from langchain_community.chat_models.tongyi import ChatTongyi

os.environ["DASHSCOPE_API_KEY"] = "your_api_key_here"  # 替换为你的真实API密钥
model = ChatTongyi(model="qwen-plus")  # 指定模型版本

这里有几个关键点需要注意：

API密钥应该通过环境变量管理，不要硬编码在代码中
qwen-plus是模型版本，不同版本能力和价格不同
初始化参数会根据不同模型提供商有所变化

3.2 构建提示词模板

LangChain的ChatPromptTemplate让提示词管理变得非常简单：

python复制from langchain_core.prompts import ChatPromptTemplate

prompt = ChatPromptTemplate.from_messages([
    ("system", "你是一个精通{topic}的资深技术专家。"),
    ("user", "请用三句话解释一下什么是{concept}。")
])

这个模板定义了两部分：

System消息：设定AI的角色和专业领域
User消息：具体的问题指令

{topic}和{concept}是占位符，在实际调用时会被替换为具体值。

3.3 创建处理链

LangChain最强大的功能就是能将各个组件连接成链：

python复制from langchain_core.output_parsers import StrOutputParser

output_parser = StrOutputParser()
chain = prompt | model | output_parser

这个|操作符创建的处理链，会按照以下顺序执行：

将输入数据填充到提示词模板
将完整的提示词发送给LLM
用输出解析器处理模型返回的结果

3.4 调用模型获取响应

现在我们可以用两种方式获取模型响应：

一次性完整响应

python复制response = chain.invoke({"topic": "Python", "concept": "列表"})
print(response)

输出示例：

code复制列表是Python中的有序可变集合，可以存储不同类型的元素。它通过方括号[]定义，支持索引访问和多种操作方法。列表的灵活性使其成为Python编程中最常用的数据结构之一。

流式响应（逐字输出）

python复制for chunk in chain.stream({"topic": "人工智能", "concept": "神经网络"}):
    print(chunk, end="", flush=True)

流式输出的优势：

用户体验更好，像真人打字一样逐步显示
对于长响应可以减少等待时间
适合需要实时展示的场景

4. 核心组件深度解析

4.1 提示词模板详解

LangChain的提示词模板支持多种消息角色：

角色	对应类	作用
system	SystemMessage	设定AI的角色和行为准则
user	HumanMessage	代表用户输入的问题或指令
ai	AIMessage	代表AI之前的回复，用于多轮对话

高级用法：可以构建多轮对话模板

python复制from langchain_core.prompts import ChatPromptTemplate

history_aware_prompt = ChatPromptTemplate.from_messages([
    ("system", "你是一个专业的{topic}顾问。"),
    ("ai", "{history}"),  # 历史对话
    ("user", "{question}")  # 新问题
])

4.2 输出解析器

除了基本的StrOutputParser，LangChain还提供多种解析器：

JSONOutputParser：将输出解析为JSON格式
XMLOutputParser：处理XML格式响应
CommaSeparatedListOutputParser：解析逗号分隔的列表

例如解析JSON响应：

python复制from langchain_core.output_parsers import JSONOutputParser

json_parser = JSONOutputParser()
json_chain = prompt | model | json_parser
response = json_chain.invoke({"topic": "科技", "concept": "区块链"})

4.3 模型连接器

不同模型的初始化方式略有差异：

通义千问

python复制from langchain_community.chat_models.tongyi import ChatTongyi

qwen_model = ChatTongyi(
    model="qwen-max",  # 模型版本
    temperature=0.7,  # 控制创造性
    top_p=0.9  # 核采样参数
)

OpenAI ChatGPT

python复制from langchain_openai import ChatOpenAI

chatgpt = ChatOpenAI(
    model="gpt-4",
    api_key="your_key",
    max_tokens=1000
)

5. 实战技巧与问题排查

5.1 性能优化建议

批量处理：对于多个独立问题，使用batch方法减少API调用次数

python复制responses = chain.batch([
    {"topic": "Python", "concept": "字典"},
    {"topic": "Java", "concept": "接口"}
])

缓存机制：对相同输入启用缓存

python复制from langchain.cache import InMemoryCache
from langchain.globals import set_llm_cache

set_llm_cache(InMemoryCache())

超时设置：避免长时间等待

python复制model = ChatTongyi(..., request_timeout=30)

5.2 常见错误排查

问题1：API密钥无效

检查密钥是否正确
确认服务区域是否匹配
验证账户余额是否充足

问题2：模型响应不符合预期

调整temperature参数（0-1，值越大越有创造性）
检查提示词模板是否清晰
尝试不同的模型版本

问题3：速率限制错误

实现指数退避重试机制
降低请求频率
联系服务商提升配额

5.3 安全最佳实践

永远不要将API密钥提交到代码仓库
对用户输入进行适当的清理和验证
设置合理的用量限制和监控
敏感数据避免直接发送给第三方模型

6. 进阶应用方向

掌握了基础用法后，LangChain还能实现更复杂的应用：

文档问答系统：结合向量数据库实现基于文档的智能问答
智能代理：让AI自主使用工具完成任务
多模型协作：根据不同任务选择最合适的模型
记忆机制：实现有上下文的多轮对话

这里分享一个文档问答的简单示例：

python复制from langchain_community.document_loaders import WebBaseLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 加载网页内容
loader = WebBaseLoader("https://example.com")
docs = loader.load()

# 分割文档
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000)
splits = text_splitter.split_documents(docs)

# 创建检索链
retriever = splits.as_retriever()
qa_chain = {"context": retriever, "question": RunnablePassthrough()} | prompt | model