当前位置：首页 > news >正文

LLM大语言模型（一）：ChatGLM3-6B本地部署

news 2026/2/9 12:07:39

前言

本机环境

ChatGLM3代码库下载

模型文件下载

修改为从本地模型文件启动

启动模型网页版对话demo

超参数设置

GPU资源使用情况（网页对话非常流畅）

前言

LLM大语言模型工程化，在本地搭建一套开源的LLM，方便后续的Agent等特性的研究。

本机环境

CPU：AMD Ryzen 5 3600X 6-Core Processor

Mem：32GB

GPU：RTX 4060Ti 16G

ChatGLM3代码库下载

# 下载代码库
git clone https://github.com/THUDM/ChatGLM3.git# 安装依赖
pip install -r requirements.txt

模型文件下载

建议从modelscope下载模型，这样就不用担心网络问题了。

模型链接如下：

chatglm3-6b · 模型库 (modelscope.cn)

git lfs install
git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git

修改为从本地模型文件启动

修改此文件basic_demo/web_demo2.py

import os
import streamlit as st
import torch
from transformers import AutoModel, AutoTokenizer# 注意
# 注意
# 注意
# 注意
# 注意 也可以通过修改环境变量MODEL_PATH来实现
MODEL_PATH = os.environ.get('MODEL_PATH', '#注意-你的本地模型文件的文件夹-注意#')
TOKENIZER_PATH = os.environ.get("TOKENIZER_PATH", MODEL_PATH)
DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu'

启动模型网页版对话demo

pip install -U streamlit

可以通过以下命令启动基于 Streamlit 的网页版 demo：

# 进入下载的代码库
cd ChatGLM3# 用streamlit启动服务
streamlit run basic_demo/web_demo2.py

网页版 demo 会运行一个 Web Server，并输出地址。在浏览器中打开输出的地址即可使用。经测试，基于 Streamlit 的网页版 Demo 会更流畅。

streamlit启动效果：

聊天窗口效果：

超参数设置

ChatGLM3-6B共有以下参数可以设置

max_length: 模型的总token限制，包括输入和输出的tokens
temperature: 模型的温度。温度只是调整单词的概率分布。其最终的宏观效果是，在较低的温度下，我们的模型更具确定性，而在较高的温度下，则不那么确定。
top_p: 模型采样策略参数。在每一步只从累积概率超过某个阈值 p 的最小单词集合中进行随机采样，而不考虑其他低概率的词。只关注概率分布的核心部分，忽略了尾部部分。

对于以下场景，我们推荐使用这样的参数进行设置

Use Case	temperature	top_p	任务描述
代码生成	0.2	0.1	生成符合既定模式和惯例的代码。输出更确定、更集中。有助于生成语法正确的代码
创意写作	0.7	0.8	生成具有创造性和多样性的文本，用于讲故事。输出更具探索性，受模式限制较少。
聊天机器人回复	0.5	0.5	生成兼顾一致性和多样性的对话回复。输出更自然、更吸引人。
调用工具并根据工具的内容回复	0.0	0.7	根据提供的内容，简洁回复用户的问题。
代码注释生成	0.1	0.2	生成的代码注释更简洁、更相关。输出更具有确定性，更符合惯例。
数据分析脚本	0.2	0.1	生成的数据分析脚本更有可能正确、高效。输出更确定，重点更突出。
探索性代码编写	0.6	0.7	生成的代码可探索其他解决方案和创造性方法。输出较少受到既定模式的限制。

GPU资源使用情况（网页对话非常流畅）

模型加载后GPU显存使用情况，约使用14G显存。

推理过程GPU使用情况， GPU使用率约88%

LLM大语言模型（一）：ChatGLM3-6B本地部署

目录前言本机环境 ChatGLM3代码库下载模型文件下载修改为从本地模型文件启动启动模型网页版对话demo 超参数设置 GPU资源使用情况 （网页对话非常流畅） 前言 LLM大语言模型工程化，在本地搭建一套开源的LLM，方便后续的…...

编程日记 2023/12/7 3:24:03

chatgpt的接口是一个标准的http请求，请求的url为 POST https://api.openai.com/v1/chat/completions 官方的接口文档地址为：https://platform.openai.com/docs/api-reference/chat/create Example request curl https://api.openai.com/v1/chat/comp…...

编程日记 2023/12/7 3:22:02

【PyTorch】数据集

文章目录 1. 创建数据集1.1. 直接继承Dataset类1.2. 使用TensorDataset类 2. 数据集的划分3. 加载数据集4. 将数据转移到GPU 1. 创建数据集主要是将数据集读入内存，并用Dataset类封装。 1.1. 直接继承Dataset类必须要重写__getitem__方法，用于根据索…...

编程日记 2023/12/7 3:17:59

oops-framework框架之本地存储(五)

引擎： CocosCreator 3.8.0 环境： Mac Gitee: oops-game-kit 注： 作者dgflash的oops-framework框架QQ群： 628575875 简介在CocosCreator中，本地存储主要使用sys.localStorage 接口，通过 key-value的格式进…...

编程日记 2023/12/7 3:12:55

编程常见的问题

在现代社会中，编程已经成为一项非常重要的技能。随着科技的不断发展和普及，计算机已经渗透到我们生活的方方面面，从个人电脑、手机到智能家居、自动驾驶等。编程作为计算机科学的基础，为我们提供了解决问题和创造新事物的工具和方…...

编程日记 2023/12/7 3:11:54

针对Arrays.asList的坑，可以有哪些处理措施

上文讲述：Error querying database. Cause: java.lang.reflect.InaccessibleObjectException: 那么如果真的只习惯用Arrays.asList，那也是有对应的解决办法的。一、解决办法大方向不管做什么事情，都是先判定一个大方向，不管是…...

编程日记 2023/12/7 3:08:51

SE考研真题总结（一）

本帖开始分享考研真题中设计【软件工程】的部分，预计会出5期左右，敬请期待~ 一.单选题 1.程序编写不是软件质量保障过程~ 静态代码扫描是今年来多数被人提及的软件应用安全解决方案之一，指程序员在编写好代码后无需进行编译，直接…...

编程日记 2023/12/7 3:07:50

Xshell远程登录AWS EC2 Linux实例

文章目录小结问题解决参考小结 Xshell远程登录AWS EC2 Linux实例碰到些问题，进行解决并记录。问题在AWS中创建 EC2 Linux实例，生成的非对称密钥对，使用Xshell远程登录碰到一些问题。解决首先在Putty中可以使用的ppk密钥文件在Xshe…...

编程日记 2023/12/7 3:05:47

Elasticsearch：对时间序列数据流进行降采样（downsampling)

降采样提供了一种通过以降低的粒度存储时间序列数据来减少时间序列数据占用的方法。指标（metrics）解决方案收集大量随时间增长的时间序列数据。随着数据老化，它与系统当前状态的相关性越来越小。降采样过程将固定时间间隔内的文档汇总为单…...

编程日记 2023/12/7 3:04:46

python自动化测试框架：unittest测试用例编写及执行

本文将介绍 unittest 自动化测试用例编写及执行的相关内容，包括测试用例编写、测试用例执行、测试报告等内容。官方文档： https://docs.python.org/zh-cn/3/library/unittest.mock.html 1. 测试用例编写在 unittest 中，一个测试用例通常…...

编程日记 2023/12/7 3:02:45

ctfhub技能树_web_web前置技能_HTTP

目录一、HTTP协议 1.1、请求方式 1.2、302跳转 1.3、Cookie 1.4、基础认证 1.5、响应包源代码一、HTTP协议 1.1、请求方式注：HTTP协议中定义了八种请求方法。这八种都有：1、OPTIONS ：返回服务器针对特定资源所支持的HTTP请求方法…...

编程日记 2023/12/7 3:00:43

mysql8报sql_mode=only_full_group_by(存储过程一直报)

1：修改数据库配置(重启失效) select global.sql_mode;会打印如下信息 ONLY_FULL_GROUP_BY,STRICT_TRANS_TABLES,NO_ENGINE_SUBSTITUTION里面包含 ONLY_FULL_GROUP_BY，那么就重新设置，在数据库中输入以下代码，去掉ONLY_FULL_GROU…...

编程日记 2023/12/7 2:57:41

Vue2中v-html引发的安全问题

前言：v-html指令 1.作用：向指定节点中渲染包含html结构的内容。 2.与插值语法的区别： (1).v-html会替换掉节点中所有的内容，{{xx}}则不会。 (2).v-html可以识别html结构。 3.严重注意：v-html有安全性问题&#xff0…...

编程日记 2023/12/7 2:56:40

java内部类详解

文章目录一、介绍二、为什么要使用内部类三、非静态内部类四、静态内部类五、局部内部类六、匿名内部类七、lambda表达式内部类八、成员重名九、序列化十、如何选择内部类一、介绍在java中，我们被允许在编写一个类(外部类OuterClass)时，在其内部再嵌…...

编程日记 2023/12/7 2:55:39

Python 潮流周刊#29：Rust 会比 Python 慢？！

△请给“Python猫”加星标 ，以免错过文章推送你好，我是猫哥。这里每周分享优质的 Python、AI 及通用技术内容，大部分为英文。本周刊开源，欢迎投稿[1]。另有电报频道[2]作为副刊，补充发布更加丰富的资讯。 &#x1f43…...

编程日记 2023/12/7 2:52:37

吴恩达《机器学习》11-1-11-2:首先要做什么、误差分析

一、首先要做什么选择特征向量的关键决策以垃圾邮件分类器算法为例，首先需要决定如何选择和表达特征向量 𝑥。视频提到的一个示例是构建一个由 100 个最常出现在垃圾邮件中的词构成的列表，根据这些词是否在邮件中出现来创建特征向量&…...

编程日记 2023/12/7 2:51:36

Pandas在Excel同一个sheet里插入多个Dataframe和行

Pandas默认的to_excel是直接把完成的Datafrme写入一个sheet里，这并不能满足我们在一个sheet里插入多个Dataframe或多行的需求。为了实现插入多行或多Dataframe的目的，我们需要新建一个ExcelWriter对象，然后依次插入数据。这里我们以插入2个Dataframe和三行单元格为例。新…...

编程日记 2023/12/7 2:50:35

查看mysql 或SQL server 的连接数，mysql超时、最大连接数配置

1、mysql 的连接数 1.1、最大可连接数 show variables like max_connections; 1.2、运行中连接数 show status like Threads_connected; 1.3、配置最大连接数， mysql版本不同可配置的最大连接数不同，mysql8.0的版本默认151个连接数，…...

编程日记 2023/12/7 2:49:34

C++学习之路（七）C++ 实现简单的Qt界面（消息弹框、按钮点击事件监听）- 示例代码拆分讲解

这个示例创建了一个主窗口，其中包含两个按钮。第一个按钮点击时会显示一个简单的消息框，第二个按钮点击时会执行一个特定的操作（在这个例子中，仅打印一条调试信息）。功能描述： 创建窗口和布局：…...

编程日记 2023/12/7 2:45:32

python实现一个计算器

实现一个计算器首先熟悉一下这个阅读器的属性import subprocess subprocess.run(["espeak", "-v", "enf3", "This is a Calculator"])class Calculator:def speaker(self,word):subprocess.run(["espeak", "-v", …...

编程日记 2023/12/7 2:40:26

R语言AI模型部署方案：精准离线运行详解

R语言AI模型部署方案：精准离线运行详解一、项目概述本文将构建一个完整的R语言AI部署解决方案，实现鸢尾花分类模型的训练、保存、离线部署和预测功能。核心特点： 100%离线运行能力自包含环境依赖生产级错误处理跨平台兼容性模型版本管理# 文件结构说明 Iris_AI_Deployme…...

编程新知 2025/12/6 1:56:35

阿里云ACP云计算备考笔记 (5)——弹性伸缩

目录第一章概述第二章弹性伸缩简介 1、弹性伸缩 2、垂直伸缩 3、优势 4、应用场景 ① 无规律的业务量波动 ② 有规律的业务量波动 ③ 无明显业务量波动 ④ 混合型业务 ⑤ 消息通知 ⑥ 生命周期挂钩 ⑦ 自定义方式 ⑧ 滚的升级 5、使用限制第三章主要定义 …...

编程新知 2026/1/22 6:07:24

基础测试工具使用经验

背景 vtune，perf, nsight system等基础测试工具，都是用过的，但是没有记录，都逐渐忘了。所以写这篇博客总结记录一下，只要以后发现新的用法，就记得来编辑补充一下 perf 比较基础的用法： 先改这…...

编程新知 2025/11/22 7:38:58

[10-3]软件I2C读写MPU6050 江协科技学习笔记（16个知识点）

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16...

编程新知 2026/1/28 8:34:48

数据结构：递归的种类（Types of Recursion）

目录尾递归（Tail Recursion） 什么是 Loop（循环）？ 复杂度分析头递归（Head Recursion） 树形递归（Tree Recursion） 线性递归（Linear Recursion）…...

编程新知 2026/2/7 2:25:07

字符串哈希+KMP

P10468 兔子与兔子 #include<bits/stdc.h> using namespace std; typedef unsigned long long ull; const int N 1000010; ull a[N], pw[N]; int n; ull gethash(int l, int r){return a[r] - a[l - 1] * pw[r - l 1]; } signed main(){ios::sync_with_stdio(false), …...

编程新知 2025/12/13 5:58:57

从实验室到产业：IndexTTS 在六大核心场景的落地实践

一、内容创作：重构数字内容生产范式在短视频创作领域，IndexTTS 的语音克隆技术彻底改变了配音流程。B 站 UP 主通过 5 秒参考音频即可克隆出郭老师音色，生成的 “各位吴彦祖们大家好” 语音相似度达 97%，单条视频播放量突破百万…...

编程新知 2025/12/8 19:05:36

Python环境安装与虚拟环境配置详解

本文档旨在为Python开发者提供一站式的环境安装与虚拟环境配置指南，适用于Windows、macOS和Linux系统。无论你是初学者还是有经验的开发者，都能在此找到适合自己的环境搭建方法和常见问题的解决方案。快速开始一分钟快速安装与虚拟环境配置 # macOS/…...

编程新知 2026/2/5 17:20:43

react更新页面数据，操作页面，双向数据绑定

// 路由不是组件的直接跳转use client，useEffect，useRouter，需3个结合， use client表示客户端 use client; import { Button,Card, Space,Tag,Table,message,Input } from antd; import { useEffect,useState } from react; impor…...

编程新知 2026/1/31 6:40:35

2025-06-08-深度学习网络介绍(语义分割,实例分割,目标检测)

深度学习网络介绍(语义分割,实例分割,目标检测) 前言在开始这篇文章之前，我们得首先弄明白，什么是图像分割？ 我们知道一个图像只不过是许多像素的集合。图像分割分类是对图像中属于特定类别的像素进行分类的过程，即像素级别的…...

编程新知 2026/2/4 10:22:53

LLM大语言模型（一）：ChatGLM3-6B本地部署

前言

本机环境

ChatGLM3代码库下载

模型文件下载

修改为从本地模型文件启动

启动模型网页版对话demo

超参数设置

GPU资源使用情况（网页对话非常流畅）

相关文章：

LLM大语言模型（一）：ChatGLM3-6B本地部署

chatgpt prompt提示词

【PyTorch】数据集

oops-framework框架之本地存储(五)

编程常见的问题

针对Arrays.asList的坑，可以有哪些处理措施

SE考研真题总结（一）

Xshell远程登录AWS EC2 Linux实例

Elasticsearch：对时间序列数据流进行降采样（downsampling)

python自动化测试框架：unittest测试用例编写及执行

ctfhub技能树_web_web前置技能_HTTP

mysql8报sql_mode=only_full_group_by(存储过程一直报)

Vue2中v-html引发的安全问题

java内部类详解

Python 潮流周刊#29：Rust 会比 Python 慢？！

吴恩达《机器学习》11-1-11-2:首先要做什么、误差分析

Pandas在Excel同一个sheet里插入多个Dataframe和行

查看mysql 或SQL server 的连接数，mysql超时、最大连接数配置

C++学习之路（七）C++ 实现简单的Qt界面（消息弹框、按钮点击事件监听）- 示例代码拆分讲解

python实现一个计算器

R语言AI模型部署方案：精准离线运行详解

阿里云ACP云计算备考笔记 (5)——弹性伸缩

基础测试工具使用经验

[10-3]软件I2C读写MPU6050 江协科技学习笔记（16个知识点）

数据结构：递归的种类（Types of Recursion）

字符串哈希+KMP

从实验室到产业：IndexTTS 在六大核心场景的落地实践

Python环境安装与虚拟环境配置详解

react更新页面数据，操作页面，双向数据绑定

2025-06-08-深度学习网络介绍(语义分割,实例分割,目标检测)

前言

本机环境

ChatGLM3代码库下载

模型文件下载

修改为从本地模型文件启动

启动模型网页版对话demo

超参数设置

GPU资源使用情况 （网页对话非常流畅）

相关文章：

GPU资源使用情况（网页对话非常流畅）