LangChain 从0到1完全入门指南：零基础也能上手的大模型应用开发手册

前言

如果你对大模型应用开发感兴趣，那你一定听过「LangChain」的名字。作为当前最流行的大模型应用开发框架之一，LangChain 把大模型对接外部工具、处理长文本、构建记忆能力、开发Agent等复杂需求封装成了简单易用的组件，哪怕你只有基础的Python编程能力，也能在几个小时内开发出属于自己的大模型应用。

这篇指南完全从零基础视角编写，全文约5200字，从LangChain的核心概念、环境搭建，到核心组件详解、实战项目开发，再到进阶技巧和常见问题，带你一步步从零入门LangChain开发，看完就能上手写自己的第一个大模型应用。

一、什么是LangChain？我为什么要学它？

1.1 LangChain的核心定位

LangChain是一个开源的大语言模型(LLM)应用开发框架，由Harrison Chase在2022年10月推出，核心目标是降低大模型应用的开发门槛，让开发者可以快速搭建基于大模型的复杂应用。

原生的大模型（比如GPT-4、Claude、通义千问、文心一言等）本身存在很多局限性：没有办法获取实时数据，知识截止到训练时间；没有办法调用外部工具，比如不能查天气、不能读写文件、不能调用API；上下文窗口有限，处理长文本能力不足；没有记忆能力，对话的时候不会记得之前多轮的信息；没办法完成复杂的多步骤任务。而LangChain就是用来解决这些问题的「粘合剂」，它把大模型和各种外部能力连接起来，让大模型可以拥有实时信息、调用工具、处理长文本、记忆对话历史、自主完成复杂任务，真正发挥大模型的能力。

1.2 LangChain适合做什么？

LangChain的应用场景非常广泛，常见的落地场景包括：知识库问答系统，让大模型基于你自己的文档回答问题，比如企业内部知识库助手、产品客服机器人；个人/企业助理，可以帮你处理邮件、安排日程、整理信息、完成各种日常任务；内容生成工具，自动写文案、生成报告、写代码、做翻译等内容生产工作；智能Agent，自主完成复杂任务的人工智能代理，比如自动做调研、自动写代码并调试、自动处理工作流；数据分析助手，连接数据库，自然语言查询数据，自动生成分析报告。

1.3 学习LangChain需要什么基础？

学习LangChain的门槛非常低：基础的Python编程能力，会写简单的Python脚本、会用pip安装库即可；基础的大模型使用常识，知道什么是prompt、什么是大模型接口；不需要复杂的算法知识，也不需要自己训练大模型，只要会调用API就行。

二、环境搭建：10分钟搭好你的第一个LangChain开发环境

2.1 基础环境准备

首先你需要准备好基础的开发环境：安装Python 3.9以上版本，推荐3.10或3.11，兼容性最好；准备一个大模型的API Key，推荐首选OpenAI的GPT-3.5/4 API，国内用户也可以用通义千问、文心一言、Claude等API，LangChain对主流大模型都有支持；建议使用虚拟环境来管理依赖，避免和其他项目冲突。

2.2 安装LangChain核心库

打开终端，执行以下命令安装LangChain核心库：pip install langchain；安装OpenAI集成：pip install langchain-openai；安装LangChain社区组件，包含大量第三方工具集成：pip install langchain-community。如果是国内用户，可以用国内镜像源加速安装：pip install langchain -i https://pypi.tuna.tsinghua.edu.cn/simple。

2.3 配置大模型API密钥

你可以直接在代码里配置API密钥，也可以通过环境变量配置，推荐用环境变量更安全：Mac/Linux终端执行export OPENAI_API_KEY=’你的OpenAI API Key’；Windows终端执行set OPENAI_API_KEY=你的OpenAI API Key。也可以在代码里直接配置：from langchain_openai import ChatOpenAI; llm = ChatOpenAI(model=’gpt-3.5-turbo’, api_key=’你的OpenAI API Key’, base_url=’如果你用中转API可以在这里填地址’)。

2.4 测试你的第一个LangChain程序

写一个最简单的程序测试环境是否正常：from langchain_openai import ChatOpenAI; llm = ChatOpenAI(model=’gpt-3.5-turbo’, temperature=0.7); response = llm.invoke(‘你好，请介绍一下你自己’); print(response.content)。如果正常返回大模型的回复，说明你的环境已经搭建成功。

三、LangChain核心组件详解

LangChain的核心设计理念是「组件化」，把大模型应用的各种能力拆分成独立的组件，你可以像搭积木一样组合这些组件来实现你想要的功能，不需要从零开始写代码。

3.1 模型（Models）：大模型的抽象层

Models组件是对各种大模型的抽象，你可以不用关心不同大模型API的差异，用统一的接口来调用不同的大模型。LangChain里的模型主要分三类：LLM（输入文本输出文本的基础大模型）、Chat Model（聊天型大模型，输入消息列表输出消息，现在最常用）、Embedding Model（文本嵌入模型，把文本转换成向量表示，用于检索、相似度计算）。

3.2 提示词模板（Prompt Templates）：规范化你的提示词

在开发大模型应用的时候，我们的提示词通常有固定的结构，只是部分内容会动态变化，Prompt Templates就是用来管理这些动态提示词的工具，不用你自己拼接字符串。比如你可以创建一个翻译提示词模板，动态传入目标语言和输入文本，不用每次都重新写整个提示词。

3.3 输出解析器（Output Parsers）：把大模型的输出转换成结构化数据

大模型默认返回的是文本，但是很多时候我们需要结构化的输出，比如JSON、列表、数字等，Output Parsers就是用来把大模型的文本输出转换成你需要的结构化格式的。你可以定义输出的Pydantic结构，解析器会自动让大模型按照格式返回，直接转换成结构化对象，不需要自己手动解析文本。

3.4 链（Chains）：组件的组合容器

链是LangChain的核心概念之一，你可以把多个组件按顺序组合成一个链，前一个组件的输出作为后一个组件的输入，实现复杂的工作流。LangChain支持用「|」运算符来快速组合链，非常方便。除了简单的顺序链，还支持分支链、循环链、并行链等复杂结构。

3.5 检索增强（RAG）：让大模型拥有自己的知识库

检索增强生成（RAG）是当前最常用的大模型落地技术之一，核心是让大模型在回答问题之前，先从你自己的知识库中检索相关的内容，再结合检索到的内容回答问题，解决大模型知识截止、幻觉的问题。RAG的核心流程分三步：索引阶段把文档切割成小块转成向量存到向量数据库；检索阶段把用户问题转成向量检索相关文档；生成阶段把问题和检索到的内容拼到提示词里让大模型回答。LangChain对RAG有非常完善的支持，几行代码就能实现一个简单的知识库问答系统。

3.6 记忆（Memory）：让大模型记住对话历史

原生的大模型是无状态的，每次调用都是独立的，不会记得之前的对话内容，Memory组件就是用来给大模型增加记忆能力的，让大模型可以支持多轮对话。常用的记忆类型有：ConversationBufferMemory存储完整对话历史，适合短对话；ConversationBufferWindowMemory只存储最近K轮对话，避免上下文过长；ConversationSummaryMemory自动总结对话历史，节省上下文空间，适合长对话。

3.7 工具（Tools）：让大模型调用外部能力

Tools组件让大模型可以调用外部工具，比如谷歌搜索、计算器、文件读写、API调用、数据库查询等，突破大模型本身的能力边界。LangChain内置了上百种现成的工具，你也可以很容易地自定义自己的工具，只需要加一个@tool装饰器就行。

3.8 代理（Agents）：让大模型自主完成复杂任务

Agent是LangChain最强大的能力之一，核心是让大模型自己思考「我需要做什么、应该调用什么工具、下一步要怎么做」，自主完成复杂的多步骤任务，不需要开发者提前定义好执行流程。Agent的工作流程分为四步：思考（分析问题，规划下一步）、行动（调用工具，传入参数）、观察（获取工具执行结果）、重复（直到得到最终答案）。

四、实战项目：30分钟搭建一个个人知识库问答机器人

现在我们用前面学的知识，来做一个实战项目：基于你自己的笔记文件，搭建一个个人知识库问答机器人。

4.1 项目准备

准备一个你自己的Markdown笔记文件，比如notes.md，里面是你自己的笔记内容；已经配置好OpenAI API Key；已经安装好需要的依赖：pip install langchain langchain-openai langchain-community faiss-cpu python-dotenv。

4.2 完整项目代码

核心流程：加载并处理文档，切割成小块；构建向量数据库；构建带记忆的问答链；启动对话。运行代码后就可以和你的知识库对话，它会基于你笔记里的内容回答问题，不会编造答案，还能记住之前的对话内容。

五、LangChain进阶技巧与常见问题

5.1 进阶技巧

提示词优化：在prompt里明确说明角色、要求、限制条件、输出格式，大幅提升输出质量；上下文优化：合理控制上下文长度，长对话优先用总结记忆；调试技巧：给链和Agent加上verbose=True参数，可以看到完整的执行过程，方便排查问题；性能优化：检索的时候用BM25+向量混合检索，提升检索准确率；错误处理：给工具调用加上重试机制，处理接口超时、格式错误等问题。

5.2 常见问题

Q：LangChain和LlamaIndex有什么区别？A：LangChain更通用，适合各种大模型应用场景，组件更丰富；LlamaIndex更专注于RAG场景，检索能力更强，做知识库优先选LlamaIndex，做复杂Agent和通用应用优先选LangChain。Q：LangChain会不会很重？A：简单的小功能可以自己写，但是复杂的功能用LangChain可以节省大量重复开发的时间，社区已经踩过很多坑，稳定性更好。Q：国内大模型怎么对接LangChain？A：主流国内大模型都已经有LangChain集成，只需要安装对应的集成包，和调用OpenAI一样简单。

结语

LangChain的生态发展非常快，现在已经有非常丰富的组件和工具，是大模型应用开发的必备技能之一。这篇指南带你入门了LangChain的核心能力，但是还有很多进阶内容值得你去探索，比如自定义Agent、多模态支持、LangServe部署、LangSmith调试等，感兴趣的话可以去官方文档深入学习哦。