LangChain与LangGraph：大模型应用开发框架详解-AI智能范式网

LangChain与LangGraph：大模型应用开发框架详解

老白Walt

1. 大模型应用开发框架概述

在当今AI技术快速发展的背景下，大型语言模型(LLM)已成为构建智能应用的核心组件。然而，直接使用原始LLM API开发复杂应用面临诸多挑战：状态管理困难、工具集成复杂、多步骤流程难以控制等。为此，业界涌现了多个专门针对LLM应用开发的框架，它们通过提供高级抽象和工具链，显著降低了开发门槛。

LangChain作为最早出现的LLM开发框架之一，已经建立了完整的生态系统。它采用分层架构设计，从底层的模型接口到上层的应用模板，为开发者提供了全方位的支持。LangGraph则是LangChain团队推出的新成员，专注于解决循环工作流和复杂Agent协作的问题。

2. LangChain核心架构解析

2.1 整体架构设计

LangChain采用三层架构设计，从抽象到具体再到整合，确保了系统的可扩展性和维护性：

LangChain库：提供Python和JavaScript接口，包含各种组件的组合方式以及现成的链和代理实现
LangChain模板：各种任务的参考架构集合，可直接部署使用
LangServe：将LangChain链部署为REST API的库
LangSmith：开发平台，用于调试、测试、评估和监控基于LLM构建的链

这种分层设计使得开发者可以根据需求选择适当层次的抽象，既保证了灵活性又不失易用性。

2.2 六大核心组件

LangChain的核心功能通过六大抽象模块实现：

Models I/O：处理与语言模型的交互，包括输入构造和输出解析
Retrieval：实现文档加载、分割、向量化和检索功能
Agents：使LLM能够与外部环境交互的代理系统
Chains：将多个组件组合成完整工作流的链式结构
Memory：管理对话历史和上下文信息
Callbacks：提供生命周期钩子，用于日志记录和监控

这些组件协同工作，构成了LangChain强大的功能基础。

3. LangChain核心功能详解

3.1 模型交互(Model I/O)

LangChain提供了统一的接口来处理不同类型的语言模型：

python复制from langchain_core.language_models import BaseChatModel
from langchain_openai import ChatOpenAI

# 初始化聊天模型
llm = ChatOpenAI(model="gpt-4")

# 统一接口调用
response = llm.invoke("你好，世界")

模型类型主要分为：

LLMs：输入输出均为字符串，适合单轮问答
Chat Models：输入输出为消息列表，适合多轮对话
Embeddings：将文本转换为向量表示，用于相似性计算

3.2 提示工程(Prompts)

LangChain的提示系统支持多种模板类型：

python复制from langchain_core.prompts import ChatPromptTemplate

# 创建聊天提示模板
chat_template = ChatPromptTemplate.from_messages([
    ("system", "你是一个专业的AI助手"),
    ("human", "{user_input}")
])

# 格式化提示
formatted_prompt = chat_template.format_messages(user_input="如何学习Python?")

主要提示类型包括：

PromptTemplate：基础字符串模板
ChatPromptTemplate：专为聊天模型设计的消息列表模板
MessagePromptTemplate：角色关联消息模板

3.3 检索系统(Indexes)

文档处理流程通常包括：

使用Document Loaders加载各种格式的文档
通过Text Splitters将长文本分割为适当大小的块
利用Embeddings将文本转换为向量
存储在Vectorstores中供后续检索

python复制from langchain_community.document_loaders import WebBaseLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 加载网页文档
loader = WebBaseLoader("https://example.com")
docs = loader.load()

# 分割文本
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
splits = text_splitter.split_documents(docs)

3.4 记忆管理(Memory)

LangChain提供了多种记忆类型来维护对话状态：

python复制from langchain_core.memory import ConversationBufferMemory

# 初始化记忆系统
memory = ConversationBufferMemory()
memory.save_context({"input": "你好"}, {"output": "你好！有什么可以帮你的？"})

# 检索历史
history = memory.load_memory_variables({})

常见记忆类型：

ConversationBufferMemory：保存完整对话历史
ConversationSummaryMemory：存储对话摘要而非完整内容
VectorStoreRetrieverMemory：将记忆存储在向量数据库中

4. LangChain高级特性

4.1 链式编程(LCEL)

LangChain表达式语言(LCEL)通过重载|运算符实现了直观的链式编程：

python复制from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# 构建处理链
chain = ChatPromptTemplate.from_template("告诉我关于{topic}的信息") | llm | StrOutputParser()

# 执行链
result = chain.invoke({"topic": "量子计算"})

LCEL的优势包括：

代码简洁易读
自动支持流式输出
内置错误处理和重试机制
方便与其他LangChain组件集成

4.2 代理系统(Agents)

代理使LLM能够使用工具与环境交互：

python复制from langchain.agents import AgentExecutor, create_openai_tools_agent

# 定义工具
tools = [tavily_tool, python_repl_tool]

# 创建代理
agent = create_openai_tools_agent(llm, tools, prompt)

# 执行代理
agent_executor = AgentExecutor(agent=agent, tools=tools)
result = agent_executor.invoke({"input": "搜索最新的AI新闻并总结"})

代理工作流程：

接收用户输入
决定需要调用的工具
执行工具并获取结果
将结果整合到响应中

4.3 回调系统(Callbacks)

回调系统允许在关键生命周期节点插入自定义逻辑：

python复制from langchain_core.callbacks import BaseCallbackHandler

class CustomCallbackHandler(BaseCallbackHandler):
    def on_chain_start(self, serialized, inputs, **kwargs):
        print(f"链开始执行，输入: {inputs}")

# 使用回调
chain.invoke({"topic": "机器学习"}, {"callbacks": [CustomCallbackHandler()]})

常用回调点包括：

链开始/结束
工具调用开始/结束
LLM调用开始/结束
错误发生

5. LangGraph深度解析

5.1 核心概念与优势

LangGraph是LangChain团队推出的新库，专注于解决循环工作流问题。其核心优势包括：

循环支持：突破传统DAG限制，实现真正的工作流循环
细粒度控制：提供对流程和状态的精确控制能力
内置持久化：自动保存状态，支持长期运行的复杂流程

与LangChain的关系：

LangGraph不是替代品，而是补充
专注于LangChain不擅长的循环和复杂控制流场景
可与LangChain组件无缝集成

5.2 基础使用示例

python复制from langgraph.graph import StateGraph
from typing import TypedDict, List, Annotated
import operator

# 定义状态
class State(TypedDict):
    input: str
    all_actions: Annotated[List[str], operator.add]

# 初始化图
graph = StateGraph(State)

# 添加节点
def model(state):
    return {"all_actions": ["model_processed"]}

def tool_executor(state):
    return {"all_actions": ["tool_executed"]}

graph.add_node("model", model)
graph.add_node("tools", tool_executor)

# 设置边
graph.set_entry_point("model")
graph.add_edge("model", "tools")
graph.add_edge("tools", "model")

# 编译图
app = graph.compile()

# 执行
result = app.invoke({"input": "test", "all_actions": []})

5.3 状态管理

LangGraph的状态系统是其核心功能：

python复制class AgentState(TypedDict):
    messages: Annotated[Sequence[BaseMessage], operator.add]
    sender: str

# 节点可以修改状态
def agent_node(state: AgentState):
    new_message = process(state["messages"])
    return {"messages": [new_message]}

状态更新规则：

每个节点接收当前状态
节点返回要更新的状态字段
系统自动合并更新

5.4 条件路由

LangGraph支持基于条件的复杂路由逻辑：

python复制def should_continue(state):
    last_message = state["messages"][-1]
    if "FINISH" in last_message.content:
        return END
    return "next_node"

graph.add_conditional_edges(
    "current_node",
    should_continue,
    {"next_node": "next_node", END: END}
)

6. LangGraph高级应用

6.1 人机交互(Human-in-the-loop)

LangGraph支持在流程中插入人工审核节点：

python复制from langgraph.checkpoint.memory import MemorySaver

# 设置检查点
memory = MemorySaver()

# 在特定节点前中断
graph = builder.compile(
    checkpointer=memory,
    interrupt_before=["human_review"]
)

# 运行到断点
thread = {"configurable": {"thread_id": "123"}}
for event in graph.stream(inputs, thread, stream_mode="values"):
    print(event)

# 获取用户输入后继续
user_input = input("请输入审核意见:")
graph.update_state(thread, {"feedback": user_input})

6.2 多Agent协作

LangGraph特别适合构建多Agent系统：

python复制# 定义不同角色的Agent
research_agent = create_agent(llm, [search_tool], "研究员")
analysis_agent = create_agent(llm, [analysis_tool], "分析师")

# 构建协作图
workflow = StateGraph(AgentState)
workflow.add_node("Researcher", research_node)
workflow.add_node("Analyst", analysis_node)
workflow.add_node("supervisor", supervisor_agent)

# 设置协作逻辑
workflow.add_edge("Researcher", "Analyst")
workflow.add_edge("Analyst", "supervisor")
workflow.add_conditional_edges(
    "supervisor",
    lambda x: x["next"],
    {"continue": "Researcher", END: END}
)

协作模式包括：

暂存器模式：Agent共享工作记忆
主管模式：由主管Agent协调任务分配
分层模式：多级Agent组织结构

7. 开发实践与优化建议

7.1 环境配置最佳实践

推荐使用虚拟环境管理依赖：

bash复制python -m venv langchain_env
source langchain_env/bin/activate  # Linux/Mac
langchain_env\Scripts\activate    # Windows

pip install langchain langgraph langchain-openai

对于生产环境，建议：

使用固定版本依赖
配置适当的API速率限制
实现完善的错误处理和重试机制

7.2 调试与监控

利用LangSmith进行全链路追踪：

python复制from langsmith import Client

client = Client()

# 记录运行轨迹
run = client.create_run(
    project_name="my-project",
    inputs={"input": "测试输入"},
    execution_order=1
)

# 查询运行记录
runs = client.list_runs(project_name="my-project")

关键监控指标：

延迟和吞吐量
令牌使用量
错误率
工具调用成功率

7.3 性能优化技巧

批处理：同时处理多个输入

python复制results = chain.batch([{"input": "a"}, {"input": "b"}])

异步处理：提高IO密集型任务效率

python复制async_results = await chain.abatch([{"input": "a"}, {"input": "b"}])

缓存：减少重复计算

python复制from langchain.cache import InMemoryCache
from langchain.globals import set_llm_cache

set_llm_cache(InMemoryCache())

流式输出：改善用户体验

python复制for chunk in chain.stream({"input": "提示"}):
    print(chunk, end="", flush=True)

8. 典型应用场景实现

8.1 智能问答系统

python复制from langchain.chains import RetrievalQA
from langchain_community.vectorstores import FAISS

# 创建检索器
vectorstore = FAISS.from_documents(docs, embedding)
retriever = vectorstore.as_retriever()

# 构建QA链
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=retriever
)

# 使用
result = qa_chain.invoke({"query": "如何安装LangChain?"})

8.2 数据分析Agent

python复制from langchain_experimental.agents import create_pandas_dataframe_agent
import pandas as pd

# 加载数据
df = pd.read_csv("data.csv")

# 创建DataFrame代理
agent = create_pandas_dataframe_agent(llm, df, verbose=True)

# 执行数据分析
result = agent.run("哪个产品的销售额最高?")

8.3 自动化报告生成

python复制from langchain.chains import LLMChain
from langchain_core.prompts import PromptTemplate

# 定义多步骤工作流
research_template = """根据以下主题进行研究:{topic}"""
research_prompt = PromptTemplate.from_template(research_template)
research_chain = LLMChain(llm=llm, prompt=research_prompt)

report_template = """基于以下研究结果生成报告:{research}"""
report_prompt = PromptTemplate.from_template(report_template)
report_chain = LLMChain(llm=llm, prompt=report_prompt)

# 组合成完整流程
full_chain = {
    "research": research_chain,
    "report": report_chain
}

9. 常见问题与解决方案

9.1 工具调用失败

问题现象：Agent无法正确调用工具或工具返回错误

排查步骤：

检查工具是否正确定义和注册
验证工具独立使用时是否正常工作
检查LLM是否生成了正确的工具调用参数
查看LangSmith跟踪记录分析失败点

解决方案：

python复制# 添加工具调用重试逻辑
from tenacity import retry, stop_after_attempt

@retry(stop=stop_after_attempt(3))
def reliable_tool_call(tool, input):
    return tool.invoke(input)

9.2 记忆丢失问题

问题现象：对话过程中丢失上下文

可能原因：

记忆系统未正确配置
对话轮次超过窗口限制
记忆序列化/反序列化问题

解决方案：

python复制# 使用更可靠的记忆存储
from langchain_community.chat_message_histories import RedisChatMessageHistory

message_history = RedisChatMessageHistory(
    session_id="user123",
    url="redis://localhost:6379/0"
)

memory = ConversationBufferMemory(
    chat_memory=message_history,
    memory_key="chat_history",
    return_messages=True
)

9.3 处理长文本限制

挑战：LLM有上下文长度限制，长文档处理困难

解决方案组合：

智能文档分割

python复制from langchain_text_splitters import TokenTextSplitter

splitter = TokenTextSplitter(
    chunk_size=1000,
    chunk_overlap=200,
    length_function=count_tokens
)

摘要和递归处理
向量检索关键片段

9.4 成本控制策略

令牌使用监控：

python复制from langchain.callbacks import get_openai_callback

with get_openai_callback() as cb:
    chain.invoke({"input": "提示"})
    print(f"消耗令牌: {cb.total_tokens}")

缓存策略：

python复制from langchain.cache import SQLiteCache
set_llm_cache(SQLiteCache(database_path=".langchain.db"))

模型选择：根据任务复杂度选择合适的模型

10. 进阶技巧与最佳实践

10.1 自定义工具开发

高级工具开发示例：

python复制from langchain_core.tools import BaseTool
from pydantic import BaseModel, Field

class CalculatorInput(BaseModel):
    a: float = Field(description="第一个数字")
    b: float = Field(description="第二个数字")
    operation: str = Field(description="运算类型", enum=["add", "subtract", "multiply", "divide"])

class CustomCalculatorTool(BaseTool):
    name = "advanced_calculator"
    description = "执行高级数学运算"
    args_schema = CalculatorInput

    def _run(self, a: float, b: float, operation: str):
        if operation == "add":
            return a + b
        elif operation == "subtract":
            return a - b
        elif operation == "multiply":
            return a * b
        elif operation == "divide":
            return a / b if b != 0 else "错误：除数不能为零"

10.2 混合Agent系统

结合规则系统和LLM的混合Agent：

python复制def hybrid_agent(state):
    # 先尝试基于规则的匹配
    rule_based_response = rule_engine(state["input"])
    if rule_based_response:
        return rule_based_response
    
    # 规则不匹配时使用LLM
    return llm_agent.invoke(state)

10.3 渐进式响应优化

逐步优化响应质量的模式：

python复制def progressive_enhancement_chain(input):
    # 第一阶段：快速生成初始响应
    draft = fast_chain.invoke(input)
    
    # 第二阶段：优化关键部分
    enhanced = enhancement_chain.invoke({"draft": draft, "input": input})
    
    # 第三阶段：最终润色
    final = polishing_chain.invoke(enhanced)
    
    return final

10.4 安全防护措施

关键安全实践：

输入验证：

python复制from langchain_core.output_parsers import BaseOutputParser

class SafeOutputParser(BaseOutputParser):
    def parse(self, text: str):
        if "恶意内容" in text:
            raise ValueError("检测到不安全内容")
        return text

沙盒环境：

python复制from langchain_experimental.utilities import PythonREPL

python_repl = PythonREPL(
    timeout=10,
    sanitize_input=True
)

访问控制：

python复制RESTRICTED_TOOLS = ["file_write"]

def tool_permission_check(tool_name, user):
    if tool_name in RESTRICTED_TOOLS and not user.is_admin:
        raise PermissionError("无权访问此工具")