当前位置：首页 > article >正文

零基础入门ChatGLM3-6B：手把手教你本地部署智能聊天机器人

article 2026/3/20 20:34:48

零基础入门ChatGLM3-6B手把手教你本地部署智能聊天机器人1. 引言为什么你需要一个本地专属的AI助手想象一下你正在写一份复杂的项目报告需要AI帮你梳理思路或者你在学习编程希望有个随时能解答疑问的“老师”又或者你只是想在本地有个能聊天、能创作、能帮你处理文档的智能伙伴。过去你可能需要依赖各种在线AI服务但总会遇到几个问题网络延迟、对话内容可能被记录、复杂的API调用、或者突然的服务中断。今天我要带你解决所有这些问题。我们将一起在本地电脑上部署一个完全属于你自己的、功能强大的智能聊天机器人——基于ChatGLM3-6B-32k模型。它不仅能理解你的问题还能记住长达32000字的对话历史而且所有数据都在你的电脑里绝对私密安全。这篇文章就是为你准备的无论你是AI新手还是有一定技术背景的开发者都能跟着步骤一步步完成。我们不需要复杂的云端配置不需要担心网络问题只需要一台有NVIDIA显卡的电脑比如RTX 4090D就能拥有一个“零延迟、高稳定”的智能对话系统。准备好了吗让我们开始吧。2. 准备工作部署前你需要知道什么在开始动手之前我们先花几分钟了解一下这个项目并准备好所需的环境。这能让你后面的操作更加顺畅。2.1 项目核心优势为什么选择这个方案这个基于ChatGLM3-6B的本地部署方案有几个让你无法拒绝的优点数据绝对私密所有对话、所有计算都在你的电脑上完成。你问的问题、AI的回答、你上传的文档都不会离开你的设备。对于处理敏感信息、公司内部资料或者个人隐私内容这是最重要的保障。响应速度极快因为是本地运行没有网络传输的延迟。你输入问题后模型几乎是“秒回”。特别是我们使用了Streamlit框架重构了界面加载速度比传统的Gradio快了3倍交互体验就像在使用本地软件一样流畅。超长对话记忆模型支持32k的上下文长度。这是什么概念相当于它能记住大约2万字的对话历史。你可以和它进行长达几十轮的深入讨论它不会“忘记”前面聊过的内容这在分析长文档、编写复杂代码时特别有用。彻底告别环境冲突很多人在部署AI模型时最头疼的就是各种Python包版本冲突。我们这个方案已经锁定了最稳定的依赖版本特别是Transformers 4.40.2这个“黄金版本”确保你一次部署长期稳定运行。完全离线可用部署完成后即使断网也能正常使用。你可以在没有网络的环境下比如内网、飞机上继续和AI对话这对于某些特殊工作场景非常实用。2.2 硬件与软件要求在开始部署前请确认你的电脑满足以下条件硬件要求显卡NVIDIA显卡显存至少8GB推荐12GB以上。RTX 3060 12G、RTX 4070、RTX 4090D等都可以。显存越大模型运行越流畅。内存至少16GB系统内存推荐32GB。硬盘空间需要约15GB的可用空间来存放模型文件。软件要求操作系统Windows 10/11 64位或者Ubuntu 20.04/22.04等Linux发行版都可以。Python版本Python 3.8到3.10推荐3.10。CUDA版本需要与你的显卡驱动匹配的CUDA环境通常安装PyTorch时会自动处理。如果你不确定自己的显卡是否支持可以打开命令行输入nvidia-smi查看显卡信息。如果能看到显卡型号和CUDA版本就说明环境基本没问题。3. 第一步下载模型与创建环境这是最基础也是最重要的一步。我们需要先获取ChatGLM3-6B模型文件然后搭建一个干净的Python环境。3.1 下载ChatGLM3-6B模型文件模型文件比较大约12GB你可以从以下两个地方下载从Hugging Face下载国际网络推荐访问模型页面https://huggingface.co/THUDM/chatglm3-6b点击页面上的“Files and versions”标签你会看到很多文件我们需要下载的是整个仓库。最简单的方法是使用git命令git clone https://huggingface.co/THUDM/chatglm3-6b如果下载速度慢可以使用git lfs加速大文件下载。从魔搭社区下载国内网络推荐访问https://www.modelscope.cn/models/ZhipuAI/chatglm3-6b/files同样可以使用git命令克隆git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git下载完成后你会得到一个名为chatglm3-6b的文件夹里面包含了模型的所有必要文件。记住这个文件夹的路径我们后面会用到。小贴士如果网络条件不好下载大文件容易中断可以考虑使用下载工具或者分多次下载。模型文件一旦下载完成就可以永久使用不需要重复下载。3.2 创建Python虚拟环境虚拟环境就像是一个独立的“工作间”可以避免不同项目之间的Python包版本冲突。我们强烈建议为这个项目创建单独的环境。对于Windows用户打开命令提示符CMD或PowerShell创建一个新的虚拟环境这里命名为chatglm3conda create --name chatglm3 python3.10激活这个环境conda activate chatglm3对于Linux/Mac用户打开终端创建并激活虚拟环境conda create --name chatglm3 python3.10 source activate chatglm3如果你没有安装Anaconda或Miniconda也可以使用Python自带的venvpython -m venv chatglm3_env # Windows激活 chatglm3_env\Scripts\activate # Linux/Mac激活 source chatglm3_env/bin/activate激活后命令行前面应该会显示(chatglm3)表示你已经在这个虚拟环境里了。3.3 安装必要的Python包在激活的虚拟环境中依次安装以下依赖包。这些是运行ChatGLM3-6B和Streamlit界面所必需的。# 安装PyTorch根据你的CUDA版本选择 # 如果你不确定CUDA版本可以先安装CPU版本但推荐使用GPU版本加速 # 对于CUDA 11.8的用户 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 对于CUDA 12.1的用户 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 # 安装模型运行的核心依赖 pip install transformers4.40.2 # 特别注意必须用这个版本避免兼容性问题 pip install sentencepiece accelerate cpm_kernels protobuf # 安装Streamlit用于构建Web界面 pip install streamlit重要提醒transformers4.40.2这个版本号很重要。新版本的Transformers可能会有一些兼容性问题我们锁定这个“黄金版本”可以确保一切正常运行。安装完成后可以用以下命令检查是否安装成功python -c import torch; print(fPyTorch版本: {torch.__version__}) python -c import transformers; print(fTransformers版本: {transformers.__version__}) python -c import streamlit; print(fStreamlit版本: {streamlit.__version__})如果都能正常输出版本号说明环境配置成功。4. 第二步编写并运行Streamlit应用环境准备好了模型文件也下载了现在我们来创建真正的聊天应用。4.1 创建应用代码文件在你喜欢的位置比如桌面或者模型文件同目录创建一个新的Python文件命名为chatglm3_app.py。然后用文本编辑器如VS Code、Notepad等打开它将以下代码复制进去# -*- coding: utf-8 -*- import streamlit as st import torch from transformers import AutoModelForCausalLM, AutoTokenizer # 重要修改为你下载的模型文件夹的实际路径 # 例如modelPath D:/models/chatglm3-6b # 或者modelPath /home/username/models/chatglm3-6b modelPath /path/to/your/chatglm3-6b def load_tokenizer(): 加载分词器 tokenizer AutoTokenizer.from_pretrained( modelPath, use_fastFalse, # 使用慢速但更准确的分词器 trust_remote_codeTrue # 信任远程代码ChatGLM需要 ) return tokenizer def load_model(): 加载模型到GPU model AutoModelForCausalLM.from_pretrained( modelPath, device_mapauto, # 自动选择设备GPU trust_remote_codeTrue ).cuda() # 移动到CUDA设备 model model.eval() # 设置为评估模式 return model # 配置Streamlit页面 st.set_page_config( page_title我的ChatGLM3智能助手, page_icon, layoutwide ) # 使用缓存装饰器模型只加载一次后续刷新页面不会重新加载 st.cache_resource def get_model(): 获取模型和分词器带缓存 tokenizer load_tokenizer() model load_model() return tokenizer, model # 加载模型和分词器第一次运行会稍慢 st.info(正在加载ChatGLM3-6B模型首次加载可能需要1-2分钟...) tokenizer, model get_model() st.success(模型加载完成可以开始对话了。) # 初始化会话状态保存聊天历史和模型状态 if history not in st.session_state: st.session_state.history [] # 存储对话历史 if past_key_values not in st.session_state: st.session_state.past_key_values None # 存储模型记忆状态 # 侧边栏参数调节 st.sidebar.title(对话参数设置) # 最大生成长度控制回答长短 max_length st.sidebar.slider( 最大回复长度, min_value100, max_value32768, value2048, step100, help控制AI回复的最大长度值越大回复可能越长 ) # Top-p采样控制回答多样性 top_p st.sidebar.slider( 多样性 (Top-p), min_value0.0, max_value1.0, value0.8, step0.01, help值越小回答越确定值越大回答越有创意 ) # 温度参数控制随机性 temperature st.sidebar.slider( 随机性 (Temperature), min_value0.0, max_value2.0, value0.95, step0.01, help值越小回答越保守值越大回答越随机 ) # 清理会话按钮 if st.sidebar.button( 清理会话历史, keyclean): st.session_state.history [] st.session_state.past_key_values None if torch.cuda.is_available(): torch.cuda.empty_cache() # 清理GPU内存 st.rerun() # 重新运行应用 st.sidebar.success(会话已清理) # 显示历史对话 st.title( ChatGLM3-6B 智能对话) st.caption(基于32k上下文的本地私有化AI助手) for i, message in enumerate(st.session_state.history): if message[role] user: with st.chat_message(user, avatar): st.markdown(message[content]) else: with st.chat_message(assistant, avatar): st.markdown(message[content]) # 当前对话区域 with st.chat_message(user, avatar): input_placeholder st.empty() with st.chat_message(assistant, avatar): message_placeholder st.empty() # 聊天输入框 prompt_text st.chat_input(请输入您的问题...) if prompt_text: # 显示用户输入 input_placeholder.markdown(prompt_text) # 准备历史记录和模型状态 history st.session_state.history past_key_values st.session_state.past_key_values # 流式生成回复像真人打字一样逐字显示 full_response for response, history, past_key_values in model.stream_chat( tokenizer, prompt_text, history, past_key_valuespast_key_values, max_lengthmax_length, top_ptop_p, temperaturetemperature, return_past_key_valuesTrue, ): # 逐字更新显示 message_placeholder.markdown(response) full_response response # 保存到会话状态 st.session_state.history history st.session_state.past_key_values past_key_values # 添加用户和AI的对话到历史 st.session_state.history.append({role: user, content: prompt_text}) st.session_state.history.append({role: assistant, content: full_response})重要提示代码中的modelPath /path/to/your/chatglm3-6b这一行你需要修改为实际存放模型文件的路径。比如你的模型放在D:\AI_Models\chatglm3-6b就改成modelPath D:/AI_Models/chatglm3-6b注意Windows路径要用正斜杠或双反斜杠。4.2 代码关键部分解析为了让理解更深入我简单解释一下代码中的几个关键点st.cache_resource装饰器这是Streamlit的缓存机制。模型加载通常需要几十秒到几分钟这个装饰器确保模型只加载一次。即使你刷新浏览器页面模型也不会重新加载大大提升了使用体验。stream_chat方法这是ChatGLM3特有的流式对话方法。它能够像真人打字一样逐字输出回答而不是等全部生成完再显示。这不仅是视觉效果更好还能在生成长文本时让你提前看到部分内容。past_key_values这是实现多轮对话记忆的关键。模型通过这个参数记住之前的对话上下文这样在后续对话中才能保持连贯性。我们把它保存在st.session_state中确保页面刷新后记忆不丢失。参数调节代码中的三个滑块max_length、top_p、temperature让你可以微调AI的回答风格max_length控制回答的最大长度top_p值越小回答越确定适合事实性问题值越大回答越有创意适合创作类问题temperature控制随机性值越大回答越出人意料4.3 启动应用保存好代码文件后打开命令行确保在之前创建的虚拟环境中切换到代码文件所在的目录然后运行streamlit run chatglm3_app.py --server.port 8501这里的--server.port 8501指定了应用运行的端口号。你可以改成任何未被占用的端口比如8502、8989等。如果一切正常你会看到类似这样的输出You can now view your Streamlit app in your browser. Local URL: http://localhost:8501 Network URL: http://192.168.1.100:8501现在打开浏览器访问http://localhost:8501就能看到你的ChatGLM3智能助手界面了第一次加载由于需要加载模型约12GB首次访问可能需要1-3分钟。你会看到“正在加载模型”的提示请耐心等待。加载完成后这个提示会变成“模型加载完成”。后续使用一旦模型加载完成后续的页面刷新都会非常快因为模型已经缓存在内存中了。你可以开始和AI对话了5. 第三步开始与你的AI助手对话现在最激动人心的时刻到了——开始使用你本地的AI助手5.1 基础对话体验在浏览器中打开应用后你会看到一个简洁的聊天界面左侧边栏可以调节对话参数还有“清理会话历史”按钮主区域上方显示对话标题和说明中间区域显示历史对话记录刚开始是空的底部有一个输入框写着“请输入您的问题...”尝试第一次对话在输入框中输入一个简单的问题比如你好请介绍一下你自己。然后按回车键。你会看到AI开始“打字”回复就像真人在聊天一样。它会介绍自己是ChatGLM3一个由智谱AI开发的大语言模型等等。多轮对话测试接着问我刚才问了你什么看看AI是否记得之前的对话。由于我们使用了past_key_values保存对话状态它应该能准确回忆起来。5.2 探索不同使用场景ChatGLM3-6B的能力很全面你可以尝试各种类型的任务编程助手用Python写一个快速排序算法并添加详细注释。帮我检查这段代码有什么问题[粘贴你的代码]学习辅导用简单易懂的方式解释什么是神经网络。帮我总结《红楼梦》的主要人物关系。内容创作写一篇关于人工智能未来发展的短文300字左右。为我的咖啡店想5个有创意的宣传语。文档分析我有一段长文本[粘贴你的文本]请帮我总结核心观点。分析这段技术文档的逻辑结构是否清晰。日常聊天今天心情不好给我讲个笑话吧。推荐几部好看的科幻电影。5.3 调节参数获得不同效果左侧边栏的三个滑块可以让你微调AI的回答风格想要更准确的回答降低temperature比如0.3降低top_p比如0.5适合事实查询、代码生成等需要准确性的任务想要更有创意的回答提高temperature比如1.2提高top_p比如0.95适合创意写作、故事生成、头脑风暴等任务控制回答长度max_length设置回答的最大长度对于简单问题可以设小一点如512对于需要详细解释的问题可以设大一点如2048你可以边调节边测试找到最适合你需求的参数组合。5.4 使用技巧与注意事项利用32k长上下文 ChatGLM3-6B-32k的最大优势就是超长记忆。你可以粘贴整篇文章让它分析进行长达几十轮的深入对话上传代码文件让它逐行分析清理会话历史如果对话轮次太多或者AI的回答开始“跑偏”可以点击侧边栏的“清理会话历史”按钮。这会重置对话状态释放GPU内存开始全新的对话。处理复杂问题对于特别复杂的问题可以尝试“分步提问”先让AI理解问题背景再提出具体问题如果需要可以要求它举例说明注意隐私安全虽然所有数据都在本地但如果你在处理高度敏感的信息建议定期清理会话历史不在对话中提及真正的密码、密钥等重要文档分析后及时清理6. 常见问题与解决方案在部署和使用过程中你可能会遇到一些问题。这里我整理了最常见的几种情况及其解决方法。6.1 模型加载失败或报错问题运行应用时卡在“正在加载模型”或者直接报错。可能原因和解决方案模型路径错误症状FileNotFoundError或OSError解决检查modelPath变量是否正确指向模型文件夹。确保路径中的斜杠方向正确Windows用/或\\。CUDA/显卡问题症状CUDA out of memory或CUDA error解决# 如果显存不足可以尝试量化加载修改load_model函数 model AutoModelForCausalLM.from_pretrained( modelPath, device_mapauto, trust_remote_codeTrue, load_in_8bitTrue, # 8位量化减少显存占用 torch_dtypetorch.float16 # 半精度 )或者关闭一些其他占用显存的程序。依赖版本冲突症状各种奇怪的ImportError或AttributeError解决确保严格按照前面的步骤安装指定版本的包特别是transformers4.40.2。6.2 应用无法在浏览器中打开问题Streamlit启动成功但浏览器访问localhost:8501打不开。解决方案检查端口是否被占用# Windows netstat -ano | findstr :8501 # Linux/Mac lsof -i:8501如果端口被占用换一个端口streamlit run chatglm3_app.py --server.port 8502检查防火墙设置Windows确保防火墙允许Python和Streamlit通过Linux检查iptables或ufw设置尝试网络地址访问如果localhost不行试试用Streamlit输出的Network URL比如http://192.168.1.100:85016.3 对话响应慢或卡顿问题AI回答生成很慢或者界面卡住。可能原因和解决方案首次加载慢是正常的模型第一次加载到GPU需要时间通常1-3分钟后续对话就会很快了问题太复杂或太长如果输入文本特别长或者问题很复杂生成会慢一些可以尝试简化问题或者调小max_lengthGPU显存不足监控GPU使用情况# 命令行查看 nvidia-smi如果显存接近满载可以清理会话历史释放内存重启应用使用量化版本如前面提到的8位加载使用流式输出耐心等待流式输出是逐字显示的长回答需要时间这不是卡顿而是正在生成6.4 回答质量不理想问题AI的回答不符合预期或者“胡说八道”。解决方案调整参数降低temperature和top_p获得更保守的回答提高max_length让回答更详细优化提问方式问题要具体明确复杂问题分步骤问可以指定回答格式比如“用列表形式回答”提供更多上下文对于专业问题先提供一些背景信息对于创作任务明确风格和要求清理历史重新开始如果对话轮次太多AI可能会“混乱”点击“清理会话历史”重新开始6.5 其他实用技巧修改默认端口如果你不想每次都用--server.port参数可以创建配置文件在用户目录下的.streamlit文件夹中创建config.toml添加内容[server] port 8989这样每次运行都会自动使用8989端口查看GPU使用情况在代码中添加GPU监控import torch print(fGPU内存使用: {torch.cuda.memory_allocated()/1024**3:.2f} GB) print(fGPU内存缓存: {torch.cuda.memory_reserved()/1024**3:.2f} GB)保存对话记录如果你想保存重要的对话可以在代码中添加导出功能import json import datetime def save_chat_history(): history st.session_state.history if history: filename fchat_history_{datetime.datetime.now().strftime(%Y%m%d_%H%M%S)}.json with open(filename, w, encodingutf-8) as f: json.dump(history, f, ensure_asciiFalse, indent2) st.sidebar.success(f对话已保存到 {filename})7. 总结与进阶探索7.1 回顾与总结通过这篇文章我们完成了一个完整的本地AI助手部署理解了核心价值我们知道了为什么要在本地部署ChatGLM3——为了数据隐私、响应速度、长上下文记忆和稳定性。做好了环境准备下载了模型文件创建了Python虚拟环境安装了所有必要的依赖包。编写了应用代码创建了一个基于Streamlit的Web界面实现了模型加载、对话交互、参数调节等核心功能。成功运行应用启动了服务在浏览器中与AI进行了对话体验了流式输出的效果。掌握了使用技巧学会了如何提问、如何调节参数、如何处理常见问题。现在你已经拥有了一个完全在本地运行的、功能强大的AI助手。它不会收集你的数据不会因为网络问题而中断不会因为服务商调整而失效。它就在你的电脑上随时待命。7.2 下一步可以做什么如果你对这个项目感兴趣想要进一步探索这里有一些方向功能增强添加文件上传功能让AI能读取和分析你的文档实现对话导出保存重要的聊天记录添加多模型切换可以随时换用其他开源模型实现API接口让其他程序也能调用你的本地AI性能优化尝试4位量化进一步减少显存占用使用vLLM等推理加速框架提升速度实现模型预热减少首次响应时间界面美化自定义Streamlit主题让界面更符合你的审美添加对话气泡、头像等视觉元素实现夜间模式、字体大小调节等功能集成其他工具结合LangChain构建更复杂的AI应用集成向量数据库实现知识库问答连接本地文件系统实现文档智能管理7.3 最后的建议开始使用你的本地AI助手后我有几个小建议从简单开始先尝试一些简单的问题熟悉AI的能力边界和回答风格。耐心调教如果AI的回答不理想尝试调整提问方式或者调节侧边栏的参数。定期清理长时间对话后记得清理会话历史释放GPU内存。探索边界尝试各种类型的问题了解AI在哪些方面表现好哪些方面还有局限。享受过程最重要的是享受与AI对话的乐趣。它不仅是工具也可以是学习伙伴、创作助手甚至是聊天朋友。本地AI的世界刚刚向你打开大门。随着技术的不断发展未来我们能在个人电脑上运行的模型会越来越强大。今天你部署的ChatGLM3-6B就是一个很好的起点。祝你使用愉快探索出更多有趣的应用场景获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

零基础入门ChatGLM3-6B：手把手教你本地部署智能聊天机器人

相关文章：

零基础入门ChatGLM3-6B：手把手教你本地部署智能聊天机器人

比迪丽AI绘画模型内网穿透部署方案

告别配置迷茫：用EB Tresos Studio 29.0搞懂S32K3的DIO Channel ID计算与API调用

Qwen-Image镜像效果展示：RTX4090D上Qwen-VL对模糊/低质图像的鲁棒理解能力

MQ-5液化气传感器原理与GD32 RISC-V嵌入式集成

Chatbots in Science: How ChatGPT Can Revolutionize Your Research Workflow

AIGlasses_for_navigation免配置环境：内置supervisor服务管理，故障自动恢复

如何高效修复直播数据抓取问题：48Tools完整解决方案指南

SMUDebugTool全栈调试指南：从硬件交互到性能优化的认知升级之路

基于Python的箱包存储系统毕设

通义千问1.5-1.8B-Chat-GPTQ-Int4 WebUI创意应用：自动生成短视频分镜脚本

BGE-Reranker-v2-m3多实例并发：高负载场景压力测试案例

DLSS Swapper：一键提升显卡性能30%的深度学习超级采样版本管理工具

光伏储能并网发电模型：基于电池SOC区间动态调整MPPT与恒功率输出，双向变流器稳定公共直流母线电压

如何在MacBook Pro M1上快速部署llama.cpp实现本地AI推理（Metal加速版）

nlp_structbert_sentence-similarity_chinese-large完整指南：从Docker镜像拉取到Web界面访问全流程

基于陷波滤波器的双惯量伺服系统机械谐振抑制Matlab/Simulink仿真探索

ms-swift快速入门：从零开始，10分钟搭建你的第一个AI对话模型

3大核心技术突破！微信红包助手实现毫秒级抢收与智能管理

范围随机算法实现

Lightning AI Studio保姆级教程：从注册到运行第一个AI模型（附免费GPU获取技巧）

Vllm-v0.11.0优化升级：多卡并行如何提升并发能力？

【Redis】高可用核心讲解

轻量TTS模型崛起：CosyVoice-300M Lite行业应用分析

如何快速配置开源工具：MediaCreationTool.bat专业部署解决方案

一文彻底搞懂 Cookie 与 Token：从底层机制到实战场景全解析

小米17 vs iPhone 17：真实用户一周体验报告（附续航/拍照对比图）

OSPF实训拓扑（完整步骤）

Python+天地图API实战：批量地址转经纬度完整流程（附避坑指南）

AI万能分类器完整教程：从部署到实战的保姆级指南