当前位置：首页 > article >正文

LangChain框架解析：从RAG到Agent的AI应用开发实践

article 2026/5/8 23:43:19

1. 从零开始理解LangChain为什么它成了AI应用开发的“脚手架”如果你最近在捣鼓大语言模型LLM应用无论是想做个智能客服、文档分析工具还是更复杂的多步骤推理Agent大概率会听到一个名字LangChain。我第一次接触它时感觉就像面对一堆乐高积木——组件很多概念很新文档看懂了但一动手就懵。但真正用起来之后才发现它解决的是一个非常核心的痛点如何把强大的LLM能力稳定、可靠、可维护地集成到真实的软件系统中。简单来说LangChain不是一个“魔法黑盒”而是一套精心设计的“脚手架”和“工具箱”它帮你处理那些繁琐但必要的胶水代码让你能更专注于业务逻辑本身。为什么需要这个“脚手架”想象一下你直接调用OpenAI的API写个client.chat.completions.create就能拿到回答这很简单。但当你需要让模型读取你公司内部的PDF文档、连接数据库查询数据、在多个步骤中记住上下文、或者根据模型输出自动调用某个工具比如发邮件、查天气时代码很快就会变成一团乱麻。各种API调用、错误处理、状态管理、流程控制混杂在一起难以调试和扩展。LangChain的出现正是为了标准化这些复杂交互的模式提供一套可复用的抽象层。它的核心价值在于“链”Chain和“代理”Agent这两个概念前者帮你把多个步骤串联成确定性的工作流后者则赋予LLM使用工具、自主决策的能力。接下来我们就深入这个“脚手架”的内部看看它到底是怎么搭建起来的。2. LangChain核心架构与设计哲学拆解LangChain的设计并非一蹴而就它反映了工程化LLM应用时遇到的普遍挑战。其整体架构可以理解为层层递进的抽象从底层的原子操作到高层的业务流程每一层都解决特定问题。2.1 核心抽象层模型、提示、链与代理LangChain的基石是几个关键抽象理解它们就理解了框架的一半。1. 模型I/O层统一的模型接口这是最底层。不同的模型提供商OpenAI、Anthropic、Google等API各异。LangChain定义了BaseLanguageModel、BaseChatModel等抽象基类然后为每个提供商如ChatOpenAI、ChatAnthropic提供具体实现。这意味着在你的代码中初始化模型可能是ChatOpenAI(model“gpt-4”)或ChatAnthropic(model“claude-3-opus”)但调用方式都是统一的model.invoke(messages)。这种设计带来了巨大的灵活性当某个模型降价或有新技术出现时你几乎不需要修改业务逻辑只需更换底层的模型类初始化参数。我在项目早期经常在GPT-4和Claude之间切换做对比测试得益于这个抽象切换成本极低。2. 提示词管理从字符串模板到结构化提示直接拼接字符串来构造提示词Prompt是脆弱且难以维护的。LangChain引入了PromptTemplate。它不仅仅是字符串格式化像f-string更重要的是支持“部分变量”partial variables和输出解析器output parsers。例如你可以创建一个系统提示模板其中{format_instructions}部分由输出解析器自动填充告诉模型必须以JSON格式回复。这保证了提示词的结构化和可复用性。更高级的用法是FewShotPromptTemplate可以方便地嵌入示例引导模型输出。3. 链Chain确定性的工作流组合“链”是LangChain的招牌概念。它的本质是将一个LLM调用与其他组件提示词、工具、其他链组合成一个可执行的序列。最简单的链是LLMChain它提示词模板 LLM模型输出解析器。但链的强大在于组合性。你可以创建SequentialChain把多个子链按顺序执行前一个链的输出作为后一个链的输入。例如一个链总结长文档下一个链基于总结回答问题。这让你可以构建复杂但清晰的多步骤推理管道。我常用它来处理需要多轮提炼的任务比如“分析这篇技术文章 - 提取核心论点 - 生成社交媒体推文”每个步骤都是一个独立的链易于单独测试和调试。4. 代理Agent与工具Tool赋予LLM行动力这是LangChain最激动人心的部分。代理的核心思想是让LLM自己决定“下一步该做什么”。你为代理配备一系列“工具”Tool比如搜索网络、查询数据库、执行计算。代理根据用户输入和当前上下文自主选择调用哪个工具或选择不调用直接回答并处理工具的返回结果。这实现了真正的动态交互。例如用户问“北京今天天气怎么样”代理会识别出需要调用“天气查询工具”然后使用工具返回的数据组织成自然语言回复。LangChain内置了多种代理类型如ReAct代理推理行动它鼓励模型以“Thought: ... Action: ... Observation: ...”的格式进行思考这让推理过程变得可观测、可调试。注意代理虽然强大但也是“黑盒”和不确定性的主要来源。在生产中对关键业务流程我倾向于使用更可控的“链”或“LangGraph”后文会讲来构建确定性的工作流而将代理用于探索性、辅助性或对容错率要求较高的场景。2.2 数据连接层让LLM“读懂”你的私有数据LLM的通用知识可能不包含你公司的内部文档、最新的产品数据或私有数据库。LangChain通过“检索增强生成”RAG模式来解决这个问题其数据连接层是关键。1. 文档加载器Document Loaders第一步是获取数据。LangChain提供了海量的DocumentLoader支持从PDF、Word、HTML、Markdown、Notion、Confluence、甚至YouTube字幕和Twitter中加载文本并将其转换成统一的Document对象包含页面内容和元数据。这省去了大量编写特定格式解析器的时间。2. 文本分割器Text SplittersLLM有上下文长度限制不能一次性喂入整本书。需要将长文档切分成有意义的“块”Chunks。简单的按字符或Token数分割会切断语义。LangChain的RecursiveCharacterTextSplitter是更聪明的选择它会优先按段落、句子、单词等自然分隔符进行递归分割尽量保证块的语义完整性。选择合适的分块大小和重叠区overlap是RAG效果的关键通常需要根据文档类型和查询特点进行调优。3. 向量存储与检索器Vector Stores Retrievers这是RAG的核心。将文本块通过嵌入模型Embedding Model转换成高维向量 embeddings然后存入向量数据库如Chroma、Pinecone、Weaviate。当用户提问时将问题也转换成向量并在向量空间中搜索最相似的文本块即语义搜索。LangChain抽象了不同向量数据库的接口你只需关注from_documents和as_retriever这几个方法。检索器Retriever的配置很有讲究比如可以设置search_type“mmr”最大边际相关性来兼顾相关性和多样性避免返回过于相似的重复内容。2.3 记忆Memory让对话拥有上下文对于多轮对话应用LLM需要记住之前说过什么。LangChain的“记忆”组件就是用来管理对话历史的。它不仅仅是把历史消息拼接起来而是提供了多种策略ConversationBufferMemory: 最简单的保存所有历史对话。ConversationBufferWindowMemory: 只保留最近K轮对话防止上下文过长。ConversationSummaryMemory: 用一个LLM调用动态总结之前的漫长对话将总结而非原文放入上下文极大地节省了Token。ConversationEntityMemory: 尝试识别并记忆对话中提到的实体如人、地点、事件及其属性实现更结构化的记忆。在实际聊天机器人中我通常结合使用BufferWindowMemory和SummaryMemory。短期记忆用窗口保持细节当对话轮数增多时自动触发总结将旧对话压缩从而在有限的上下文窗口内承载更长的对话历史。3. 实战构建一个企业级文档问答助手理论说得再多不如动手搭一个。我们来构建一个相对完整的RAG应用一个能够回答关于公司内部技术文档问题的助手。这个场景非常典型我们将用到上述的大部分核心组件。3.1 环境准备与依赖安装首先确保你的Python环境建议3.10以上并安装核心包。除了langchain我们还需要一些社区集成包和向量数据库。# 安装LangChain核心 pip install langchain langchain-community # 安装OpenAI嵌入和聊天模型接口如果你用OpenAI pip install langchain-openai # 安装文本加载器依赖以PDF和网页为例 pip install pypdf unstructured # 安装向量数据库这里以轻量级的Chroma为例 pip install chromadb # 安装用于网页加载的额外依赖 pip install beautifulsoup4 lxml提示依赖管理是个头疼事。强烈建议使用uv或poetry来管理虚拟环境和依赖锁特别是当你的项目需要组合多个不同版本的LangChain社区包时这能避免很多“依赖地狱”问题。uv是新兴的、速度极快的包管理工具LangChain官方也推荐。3.2 文档加载与预处理流水线假设我们的文档包括一个PDF格式的产品白皮书和一个公司内部的Markdown知识库网页。from langchain_community.document_loaders import PyPDFLoader, UnstructuredURLLoader from langchain.text_splitter import RecursiveCharacterTextSplitter # 1. 加载文档 pdf_loader PyPDFLoader(“path/to/whitepaper.pdf”) url_loader UnstructuredURLLoader(urls[“https://wiki.internal.company.com/kb/tech-spec”]) pdf_docs pdf_loader.load() web_docs url_loader.load() # 合并所有文档 all_docs pdf_docs web_docs print(f“Loaded {len(all_docs)} raw documents.”) # 2. 文本分割 text_splitter RecursiveCharacterTextSplitter( chunk_size1000, # 每个块约1000字符 chunk_overlap200, # 块之间重叠200字符保持上下文连贯 length_functionlen, separators[“\n\n”, “\n”, “。”, “.”, “ ”, “”] # 递归分割的分隔符优先级 ) split_docs text_splitter.split_documents(all_docs) print(f“Split into {len(split_docs)} text chunks.”)实操心得分块的艺术chunk_size和chunk_overlap没有银弹。对于技术文档1000-1500字符的块大小配合10-20%的重叠率是个不错的起点。重叠部分能防止关键信息恰好被切在块边界而丢失。你可以对不同类型的文档如API参考、教程、错误码说明尝试不同的分块策略甚至混合使用然后将它们全部存入向量库。3.3 构建向量知识库与检索器接下来我们将分割后的文本块转换成向量并存储。from langchain_openai import OpenAIEmbeddings from langchain_community.vectorstores import Chroma import os # 设置你的OpenAI API Key实际项目中请使用环境变量或密钥管理服务 os.environ[“OPENAI_API_KEY”] “your-api-key-here” # 1. 初始化嵌入模型 embeddings OpenAIEmbeddings(model“text-embedding-3-small”) # 性价比高效果足够 # 2. 创建向量存储并持久化 vectorstore Chroma.from_documents( documentssplit_docs, embeddingembeddings, persist_directory“./chroma_db” # 指定持久化目录 ) vectorstore.persist() # 将数据写入磁盘 print(“Vector database created and persisted.”) # 3. 创建检索器 retriever vectorstore.as_retriever( search_type“mmr”, # 使用MMR搜索平衡相关性与多样性 search_kwargs{“k”: 4} # 每次检索返回4个最相关的块 )为什么选择Chroma和OpenAI EmbeddingsChroma是一个轻量级、可嵌入的向量数据库非常适合原型开发和中小规模数据万级文档以内它无需单独服务器数据可持久化到本地。对于生产级海量数据可以考虑Pinecone、Weaviate等托管服务。text-embedding-3-small是OpenAI推出的新一代小尺寸嵌入模型在MTEB等基准测试上表现接近更大的ada-002但价格和速度优势明显是当前RAG应用的首选。3.4 组装问答链将检索与生成结合现在我们有了检索器Retriever它能根据问题找到相关文档块。接下来需要设计一个链将这些文档块和原始问题组合成一个优质的提示词送给LLM生成最终答案。from langchain_openai import ChatOpenAI from langchain.chains import create_retrieval_chain from langchain.chains.combine_documents import create_stuff_documents_chain from langchain_core.prompts import ChatPromptTemplate # 1. 定义提示词模板 system_prompt “”” 你是一个专业、准确的技术文档助手。请严格根据提供的上下文信息来回答问题。如果上下文中的信息不足以回答问题请直接说“根据提供的资料我无法回答这个问题”不要编造信息。请用清晰、有条理的方式组织你的答案如果适用可以分点说明。上下文 {context} 问题 {input} “”” prompt ChatPromptTemplate.from_messages([ (“system”, system_prompt), (“human”, “{input}”), ]) # 2. 初始化LLM llm ChatOpenAI(model“gpt-4o”, temperature0) # temperature0使输出更确定、更少创造性 # 3. 创建文档组合链 combine_docs_chain create_stuff_documents_chain(llm, prompt) # 4. 创建检索链这是最终可运行的链 qa_chain create_retrieval_chain(retriever, combine_docs_chain)关键点解析create_stuff_documents_chain这个函数是LangChain提供的一个高阶工具它负责处理一个繁琐但关键的步骤将检索到的多个文档块Document对象列表合并并填充到提示词的{context}占位符中。“stuff”是RAG的一种方法意为“堆叠”即简单地将所有相关文档内容拼接起来送入上下文。对于返回文档不多的情况如我们设置的k4这种方法简单有效。如果文档块很大或很多则需要考虑“map_reduce”或“refine”等更复杂、更省Token的方法。3.5 运行与测试现在我们可以运行这个链来提问了。# 提问 question “我们产品的最新版本中关于数据加密采用了什么标准” result qa_chain.invoke({“input”: question}) print(“问题”, question) print(“\n答案”, result[“answer”]) # 你可以查看检索到的源文档 print(“\n--- 参考来源 ---”) for i, doc in enumerate(result[“context”]): print(f“[来源{i1}] {doc.metadata.get(‘source’ ‘N/A’)} - 片段预览{doc.page_content[:200]}...”)这个流程构建了一个基础的、可工作的文档问答系统。它涵盖了从数据加载、处理、索引到查询、生成的完整RAG流水线。你可以通过更换检索器参数、调整提示词、使用不同的LLM来持续优化答案的质量。4. 进阶使用LangGraph构建可控的复杂Agent工作流基础的链和代理适合线性或简单决策的任务。但当你的应用需要循环、分支、状态管理或者多个Agent协作时比如一个分析Agent调用一个执行Agent就需要更强大的编排工具。这就是LangChain团队推出的LangGraph的用武之地。它基于图Graph的概念来定义工作流节点Node是执行单元边Edge决定流程走向。4.1 LangGraph核心概念状态与图假设我们要构建一个“研究助手”Agent它需要1) 理解用户的研究主题2) 联网搜索最新信息3) 总结搜索到的信息4) 根据总结生成一份报告大纲。这个过程可能涉及多轮搜索和总结。1. 定义状态State状态是一个Pydantic模型它定义了在整个工作流中传递和更新的所有数据。from typing import TypedDict, List, Annotated import operator from langgraph.graph.message import add_messages class State(TypedDict): # 用户输入的研究主题 research_topic: str # 存储搜索到的原始内容 search_results: List[str] # 存储总结后的内容 summaries: List[str] # 存储最终的报告大纲 report_outline: str # 对话消息历史LangGraph内置支持 messages: Annotated[List, add_messages]2. 定义节点Nodes每个节点是一个函数它接收当前State执行操作并返回更新后的State或部分更新。from langchain_community.tools import TavilySearchResults from langchain_openai import ChatOpenAI llm ChatOpenAI(model“gpt-4o”) search_tool TavilySearchResults(max_results3) # 使用Tavily搜索工具 def search_node(state: State): “”“执行搜索的节点”“” topic state[“research_topic”] print(f“[搜索节点] 正在搜索主题{topic}”) search_docs search_tool.invoke(topic) # 提取搜索结果的文本内容 results_content [doc[“content”] for doc in search_docs] return {“search_results”: results_content} def summarize_node(state: State): “”“总结搜索结果的节点”“” all_content “\n\n”.join(state[“search_results”]) prompt f”请将以下关于‘{state[‘research_topic’]}’的搜索材料进行关键点总结\n\n{all_content}” summary llm.invoke(prompt).content print(f“[总结节点] 已生成总结长度{len(summary)}字符”) return {“summaries”: [summary]} # 这里简化为一个总结实际可处理多个 def outline_node(state: State): “”“生成报告大纲的节点”“” summary state[“summaries”][0] prompt f”基于以下总结为‘{state[‘research_topic’]}’这个主题生成一份详细的报告大纲包含章节和子要点\n\n{summary}” outline llm.invoke(prompt).content print(f”[大纲节点] 报告大纲已生成”) return {“report_outline”: outline}3. 定义边Edges与条件路由边决定了节点执行完毕后下一步该去哪个节点。可以是固定的也可以根据条件动态决定。from langgraph.graph import END, StateGraph def should_continue(state: State): “”“决定工作流是否继续。这里我们设计为如果有搜索结果就总结否则结束。”“” if state.get(“search_results”) and len(state[“search_results”]) 0: return “summarize” # 前往总结节点 else: return END # 结束 # 创建图 workflow StateGraph(State) # 添加节点 workflow.add_node(“search”, search_node) workflow.add_node(“summarize”, summarize_node) workflow.add_node(“generate_outline”, outline_node) # 设置入口点 workflow.set_entry_point(“search”) # 添加条件边 workflow.add_conditional_edges( “search”, should_continue, # 条件判断函数 { “summarize”: “summarize”, # 如果返回“summarize”则前往总结节点 END: END # 如果返回END则直接结束 } ) # 添加固定边 workflow.add_edge(“summarize”, “generate_outline”) workflow.add_edge(“generate_outline”, END) # 编译图 app workflow.compile()4.2 运行与可视化现在你可以运行这个图并观察其执行流程。# 定义初始状态 initial_state {“research_topic”: “2024年人工智能在医疗诊断领域的最新进展”, “messages”: []} # 运行图 final_state app.invoke(initial_state) print(“\n 最终报告大纲 \n”) print(final_state[“report_outline”])LangGraph的一个强大功能是可视化。你可以将图的结构导出并查看。# 导出图结构需要安装graphviz from langchain_core.runnables.graph import MermaidDrawer try: drawer MermaidDrawer() graph_image drawer.draw(app.get_graph()) with open(“research_workflow.png”, “wb”) as f: f.write(graph_image) print(“工作流图已保存为 research_workflow.png”) except Exception as e: print(f”可视化失败可能缺少graphviz: {e}”)通过这个例子你可以看到LangGraph如何将复杂的、有状态的、可能循环的工作流清晰地定义出来。每个节点职责单一边控制逻辑状态全局共享。这对于构建需要多步骤决策、循环验证比如“检查结果是否满意不满意则重新执行”的复杂Agent系统至关重要其可观测性和可调试性远胜于传统的、用一堆if-else和循环拼凑的脚本。5. 避坑指南与生产化考量在近一年的LangChain项目实践中我踩过不少坑也总结了一些让应用更稳定、更易于维护的经验。5.1 常见问题与排查技巧问题现象可能原因排查与解决思路检索结果不相关1. 文本分块策略不佳。2. 嵌入模型不适合领域。3. 检索器参数如k值设置不当。1.检查分块打印出被检索到的文档块原文看是否包含答案。调整chunk_size和chunk_overlap。2.尝试不同嵌入模型在领域文本上测试不同嵌入模型的效果。对于中文或专业领域可以尝试BGE、M3E等开源模型。3.优化检索尝试search_type“similarity_score_threshold”并设置一个相关性分数阈值过滤掉低分结果。LLM回答“胡编乱造”1. 提示词未强制模型基于上下文。2. 检索到的上下文本身不足或噪声大。3.temperature参数过高。1.强化提示词在系统提示中明确强调“仅根据上下文”并加入“如果上下文没有请说不知道”的指令。2.实施重排序Re-ranking在检索器后加入一个重排序模型如Cohere Reranker对初步检索结果进行精排将最相关的放在前面。3.降低随机性将temperature设为0或接近0的值使输出更确定。应用响应速度慢1. LLM API调用延迟高。2. 向量检索慢特别是未索引的大规模数据。3. 链中串行操作过多。1.异步调用使用LangChain的ainvoke、abatch等异步接口并行处理多个独立请求。2.优化索引确保向量数据库建立了高效的索引如HNSW。对于生产环境考虑专用向量数据库。3.简化链审查工作流将可以并行的操作如多个独立的检索改为并行。使用LangGraph可以更好地设计并行节点。Agent陷入循环或无效动作1. Agent类型选择不当。2. 工具定义不清晰或功能重叠。3. 最大迭代次数未限制。1.选择合适的Agent对于确定性强、步骤固定的任务优先使用Plan-and-Execute代理或直接用Chain。2.精炼工具为工具提供清晰、具体的描述。避免工具功能重叠导致Agent困惑。3.设置安全阀务必在初始化Agent时设置max_iterations或max_execution_time防止无限循环消耗资源。状态管理混乱在复杂工作流中状态被意外修改或丢失。使用不可变状态在LangGraph中节点函数应返回一个字典包含要更新的字段而不是直接修改传入的state。这符合函数式编程思想使状态变化可预测、可调试。5.2 生产环境部署建议监控与可观测性Observability这是生产应用的命脉。务必集成LangSmith。它能记录每一次链、每一次LLM调用的输入输出、耗时、Token使用量并能设置基于规则或LLM的评估Evals来监控质量。当用户反馈回答不好时你可以通过LangSmith的Trace快速定位是哪个环节检索、提示词、模型出了问题。配置管理不要将API密钥、模型参数、提示词模板硬编码在代码中。使用环境变量如dotenv或配置管理工具如Hydra。将提示词模板存储在单独的JSON或YAML文件中便于非开发人员如产品经理进行调整和A/B测试。错误处理与重试LLM API调用可能因网络、速率限制等原因失败。使用LangChain内置的RunnableWithRetry或tenacity库为你的链添加重试逻辑。同时要对LLM的输出进行结构化验证例如使用Pydantic确保下游系统接收到的数据格式是预期的。成本控制LLM API调用是主要成本。记录和分析Token使用情况优化提示词以减少不必要的上下文长度。对于嵌入考虑使用更小、更便宜的模型如text-embedding-3-small。设置预算告警和用量限制。版本化与测试像对待其他软件一样对待你的AI应用。对提示词、工作流图、模型配置进行版本控制Git。建立自动化测试流水线包括单元测试测试单个工具或链组件和集成测试测试端到端的问答效果确保更新不会破坏现有功能。LangChain生态正在快速发展除了核心框架还有像LangServe用于快速将链部署为API服务、LangSmith Deployment用于部署和管理长期运行的Agent这样的工具共同构成了一个完整的AI应用开发生态。我的体会是初期学习曲线确实存在但一旦掌握了其核心抽象和设计模式开发效率会得到质的提升。它让你从重复的“胶水代码”中解放出来更专注于创造有价值的AI应用逻辑。记住最好的学习方式永远是动手从一个具体的、小的问题开始用LangChain去解决它在调试和迭代中加深理解。

LangChain框架解析：从RAG到Agent的AI应用开发实践

相关文章：

LangChain框架解析：从RAG到Agent的AI应用开发实践

Matsumiko/runbook：代码化运维手册，实现故障处理自动化与知识沉淀

OpenHands：从AI辅助到AI驱动的开源智能体开发平台实战指南

OpenClaw多Agent协作透明化：会话中枢插件设计与实战

Nordic nRF7002 WiFi 6协处理器技术解析与应用

告别繁琐调参！基于ESO的PMSM无差拍预测控制Simulink仿真建模全流程（附模型文件）

iGRPO框架：大语言模型推理效率的动态优化方案

iGRPO：基于自反馈机制的大语言模型推理优化方法

视频生成模型在机器人操作中的应用与优化

2025届学术党必备的六大AI论文神器推荐榜单

2026届学术党必备的十大AI辅助论文神器实际效果

MCP协议应用商店：awesome-mcp-hub资源索引库实战指南

Awesome MCP Hub：AI应用开发者的MCP服务器资源导航与实战指南

开源技能共享平台OpenRentAHuman：架构设计与技术实现详解

单目视频分析系统实现乒乓球轨迹与旋转实时检测

Java鼠标轨迹模拟：NaturalMouseMotion库实现拟人化自动化操作

从GitHub个人项目学习ChatGPT API集成与健壮性优化

Biscuit：轻量级原生代码编辑器如何集成AI智能体与LSP

基于WSL2与Docker的OpenClaw项目Windows一体化开发环境搭建指南

2026年AI Agent框架深度对比评测：6大框架横评选型指南

RubricHub：自动化评估标准生成技术解析与应用

AI编程工具全景图：2026年开发者必须知道的10个工具

Go语言图像处理工具ccgram：命令行批处理与自动化实战

基于图数据库与交互画布构建数字记忆宫殿：从心智模型到工程实践

Blobity光标库：用Canvas与物理动画打造网页交互新体验

2026届最火的五大降重复率方案实际效果

LLM工作流引擎：从图化编排到自动化AI任务系统构建

基于大语言模型的流程图自动生成：从自然语言到Mermaid代码的工程实践

基于Kubernetes与Helm的Valheim游戏服务器云原生部署实践

fold：时间序列自适应机器学习引擎，解决回测痛点与数据泄露