当前位置：首页 > news >正文

在矩池云使用ChatGLM-6B ChatGLM2-6B

news 2026/4/27 14:07:59

ChatGLM-6B 和 ChatGLM2-6B都是基于 General Language Model (GLM) 架构的对话语言模型，是清华大学 KEG 实验室和智谱 AI 公司于 2023 年共同发布的语言模型。模型有 62 亿参数，一经发布便受到了开源社区的欢迎，在中文语义理解和对话生成上有着不凡的表现。

ChatGLM-6B 可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。ChatGLM-6B 针对中文问答和对话进行了优化，经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，已经能生成相当符合人类偏好的回答。

ChatGLM2-6B 则是开源中英双语对话模型 ChatGLM-6B 的第二代版本，在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上，ChatGLM2-6B 引入了如下新特性：

更强大的性能：基于 ChatGLM 初代模型的开发经验，全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数，经过了 1.4T 中英标识符的预训练与人类偏好对齐训练，评测结果显示，相比于初代模型，ChatGLM2-6B 在 MMLU（+23%）、CEval（+33%）、GSM8K（+571%）、BBH（+60%）等数据集上的性能取得了大幅度的提升，在同尺寸开源模型中具有较强的竞争力。
更长的上下文：基于 FlashAttention 技术，将基座模型的上下文长度（Context Length）由 ChatGLM-6B 的 2K 扩展到了 32K，并在对话阶段使用 8K 的上下文长度训练，允许更多轮次的对话。但当前版本的 ChatGLM2-6B 对单轮超长文档的理解能力有限，会在后续迭代升级中则有望进行优化。
更高效的推理：基于 Multi-Query Attention 技术，ChatGLM2-6B 有更高效的推理速度和更低的显存占用：在官方的模型实现下，推理速度相比初代提升了 42%，INT4 量化下，6G 显存支持的对话长度由 1K 提升到了 8K。

目前 ChatGLM-6B 以及 ChatGLM2-6B 均可通过登记进行商用，为方便大家使用，矩池云已第一时间获取到相关权限并上线了这两个模型的镜像，后续也会根据模型更新而进行镜像迭代，以下是在矩池云上使用 ChatGLM2-6B 的方法，ChatGLM-6B 的使用方法与其一致。

硬件要求

矩池云已经配置好了 ChatGLM-6B 和 ChatGLM2-6B 环境，显存需要大于13G。可以选择 A4000、P100、3090 或更高配置的显卡。

租用机器

在矩池云主机市场：https://matpool.com/host-market/gpu，选择显存大于13G的机器，比如 A4000 显卡，然后点击租用按钮（选择其他满足显存要求的显卡也可以）。

租用页面，搜索 ChatGLM2-6B，选择这个镜像，再点击租用即可。

机器租用成功后，你会看到 8000 端口对应链接，这是 ChatGLM2-6B 默认的 api 接口，镜像已经设置了开机自启，也就是说现在可以直接调用这个接口使用 ChatGLM2-6B 了。

使用 ChatGLM2-6B api

调用 ChatGLM2-6B api 需要发送 POST 请求。前面租用机器我们自定义了 8000 端口，在租用页面可以获得对应的公网链接，比如：https://hz.xxxx.com:xxxx/?token=xxxxx

需要注意，实际我们请求不需要 token，所以直接用：https://hz.xxxx.com:xxxx 这段即可。

curl请求：

curl -X POST "https://hz.xxxx.com:xxxx" \-H 'Content-Type: application/json' \-d '{"prompt": "你好", "history": []}'

Python请求：

import requests
import json
def getGLM(prompt, history):'''curl -X POST "https://hz.xxxx.com:xxxx" \-H 'Content-Type: application/json' \-d '{"prompt": "你好", "history": []}''''url = 'https://hz.xxxx.com:xxxx'# 设置请求头headers = {'Content-Type': 'application/json'}data = {'prompt': prompt,'history': history}# 发送请求并获取响应response = requests.post(url, headers=headers, data=json.dumps(data))# 检查响应状态码if response.status_code == 200:# 获取响应数据rsp = response.json()return rspelse:print('请求失败，状态码：', response.status_code)# 测试请求
history=[]
prompt = "假设你是一位Python高手，请用Python Pandas 模块实现一个Excel文件批量合并脚本"
getGLM(prompt, history)

A4000 回复复杂点的问题（回复字数1.5k左右），耗时 20-40s 左右。

ChatGLM2-6B 也有 web demo，大家也可以运行测试，具体的使用方法如下文。

运行 ChatGLM2-6B web demo

首先我们需要 kill 掉系统开启自启的 ChatGLM2-6B API 服务，Jupyterlab 里新建一个 Terminal，然后输入下面指令查看api服务器进程id。

ps aux | grep api.py

kill 掉相关进程，从上面运行结果可以看出，api.py 进程id是5869，执行下面指令即可 kill 相关进程：

# 注意 5869 换成你自己租用服务器里查出来的 api.py 程序的进程id
# 注意 5869 换成你自己租用服务器里查出来的 api.py 程序的进程id
# 注意 5869 换成你自己租用服务器里查出来的 api.py 程序的进程id
kill 5869

运行 ChatGLM2-6B 版本运行

# 进入项目目录
cd /ChatGLM2-6B
# 安装依赖
pip install streamlit streamlit_chat
# 启动脚本
streamlit run web_demo2.py --server.port 8000 --server.address 0.0.0.0

运行后服务会启动到 8000端口，host 设置成0.0.0.0，这样我们访问租用页面 8000 端口链接即可访问到对应服务了。

前面租用机器我们自定义了 8000 端口，在租用页面可以获得对应的公网链接：

比如：https://hz.xxxx.com:xxxx/?token=xxxxx

需要注意的是，实际上我们在请求时候不需要 token，所以使用的地址直接用：https://hz.xxxx.com:xxxx 这段即可。

浅尝试一下生成的效果还不错，这个问题的回答有点出乎意料，给了一个用 pygame 写的猜数游戏，其他的一些模型一般回复的内容都是 cmd 版本的。

在矩池云使用ChatGLM-6B ChatGLM2-6B

硬件要求

租用机器

使用 ChatGLM2-6B api

运行 ChatGLM2-6B web demo

相关文章：

在矩池云使用ChatGLM-6B ChatGLM2-6B

7.2 手撕VGG11模型使用Fashion_mnist数据训练VGG

docker安装ES

python爬虫实战(2)--爬取某博热搜数据

k8s的Namespace详解

【Redis】Redis内存过期策略和内存淘汰策略

技术干货 | cilium 原理之sock_connect

K8S之Pod详解与进阶

【小曾同学赠书活动】开始啦—〖测试设计思想〗

【Docker晋升记】No.1--- Docker工具核心组件构成（镜像、容器、仓库）及性能属性

ROBOGUIDE教程：FANUC机器人X型焊枪气动点焊焊接

二、根据用户行为数据创建ALS模型并召回商品

[golang gin框架] 45.Gin商城项目-微服务实战之后台Rbac微服务之角色权限关联

Redis中的数据类型

java spring cloud 企业工程管理系统源码+二次开发+定制化服务 em

Java程序猿搬砖笔记(十五)

flask----内置信号的使用/django的信号/ flask-script/sqlalchemy介绍和快速使用/sqlalchemy介绍和快速使用

Zookeeper 面试题

ELK 企业级日志分析系统（二）

Linux版本 centOS 7,java连接mysql

高效智能的安卓系统瘦身方案：Universal Android Debloater完整实战指南

【企业级Dev Container性能优化白皮书】：20年微软MVP亲授VS Code远程容器开发提速300%的7大黄金法则

别再手动写Dockerfile了！Docker AI Toolkit 2026自动生成AI应用容器镜像，支持37种框架+12类硬件加速器，3步完成交付

分子建模新手村：用Moltemplate+Anaconda在Ubuntu 20.04快速搭建第一个LAMMPS模型

Sunshine游戏串流终极指南：从零开始打造你的个人云游戏平台

专业NCM解密工具深度指南：突破网易云音乐格式限制的终极方案

Clang在Dev-C++中工作正常，但运行时报错怎么办

奇异矩阵不止是数学错误：从数据质量到模型稳定的深度排查指南

c工具实战案例：用C脚本快速开发命令行工具的完整流程

多智能体强化学习实战：基于PyMARL与SMAC环境的算法解析与代码实现