当前位置：首页 > news >正文

华为昇腾NPU卡大模型LLM ChatGLM2模型推理使用

news 2025/7/8 13:26:12

参考：https://gitee.com/mindspore/mindformers/blob/dev/docs/model_cards/glm2.md#chatglm2-6b

1、安装环境：

昇腾NPU卡对应英伟达GPU卡，CANN对应CUDA底层； mindspore对应pytorch；mindformers对应transformers

本次环境：
CANN-6.3.RC2.b20231016
mindspore 2.0.0
mindformers （离线安装：https://gitee.com/mindspore/mindformers）
在这里插入图片描述

在这里插入图片描述
查看npu使用信息：

npu-smi info

在这里插入图片描述

2、ChatGLM2模型使用

参考：https://gitee.com/mindspore/mindformers/blob/dev/docs/model_cards/glm2.md

问题参考：
https://gitee.com/mindspore/mindformers/issues/I897LA#note_22105999

代码：

1）pipline方式运行：

import os
import mindspore as msos.environ['DEVICE_ID']='0'
ms.set_context(mode=ms.GRAPH_MODE, device_target="Ascend", device_id=0)  ##需要使用才能npu加速from mindformers import pipeline, TextGenerationPipelinetask_pipeline = pipeline(task='text_generation', model='glm2_6b', max_length=2048)  ##模型自动会下载到checkpoint_download文件夹下task_pipeline('你好') ## 第一次很慢，加载编译阶段
task_pipeline('写一首关于一带一路的诗') ##第二次开始速度才有提升

在这里插入图片描述

由于mindspore不支持一张卡上运行多个任务，所以启动任务都是直接默认申请31G显存占用的，挺耗资源
在这里插入图片描述
2）接口运行

import os
import mindspore as msos.environ['DEVICE_ID']='0'
ms.set_context(mode=ms.GRAPH_MODE, device_target="Ascend",device_id=0)from mindformers import AutoConfig, AutoModel, AutoTokenizertokenizer = AutoTokenizer.from_pretrained("glm2_6b")config = AutoConfig.from_pretrained("glm2_6b")
config.use_past = True
model = AutoModel.from_config(config)##第一轮问问题
inputs = tokenizer("你好")["input_ids"]
# print(inputs)
outputs = model.generate(inputs, max_new_tokens=20, do_sample=True, top_k=3)response = tokenizer.decode(outputs)
print(response)

第一轮加载编译还是很慢，后续速度才提升

##第二轮问问题
inputs = tokenizer("写一首一带一路的诗")["input_ids"]
# print(inputs)
outputs = model.generate(inputs, max_new_tokens=500, do_sample=True, top_k=3)
response = tokenizer.decode(outputs)
print(response)

在这里插入图片描述
3）流式输出（与transformers接口基本相似；基本只支持配合上面的2）接口运行使用，pipline不大支持）
参考：https://gitee.com/mindspore/mindformers/blob/dev/mindformers/generation/streamers.py#L64
https://blog.csdn.net/weixin_44491772/article/details/131205174

第一种（主要用）：TextIteratorStreamer

##加载模型
import os
import mindspore as msos.environ['DEVICE_ID']='0'
ms.set_context(mode=ms.GRAPH_MODE, device_target="Ascend",device_id=0)from mindformers import AutoConfig, AutoModel, AutoTokenizertokenizer = AutoTokenizer.from_pretrained("glm2_6b")config = AutoConfig.from_pretrained("glm2_6b")
config.use_past = True
model = AutoModel.from_config(config)##第一轮问问题
inputs = tokenizer("你好")["input_ids"]
# print(inputs)
outputs = model.generate(inputs, max_new_tokens=20, do_sample=True, top_k=3)response = tokenizer.decode(outputs)
print(response)###流式代码
from mindformers import  TextIteratorStreamer
from threading import Threadstreamer = TextIteratorStreamer(tokenizer)prompt = "写一首一带一路的诗"
inputs = tokenizer([prompt])
generation_kwargs = dict(input_ids=inputs["input_ids"], streamer=streamer, max_length=500, top_k=1)
thread = Thread(target=model.generate, kwargs=generation_kwargs)
thread.start()
generated_text = ""
for num,new_text in enumerate(streamer):# print(num,new_text)if num>1:print(new_text, end='',flush=True)#print(new_text, end='',flush=True)generated_text += new_text
generated_text

在这里插入图片描述

第二种：TextStreamer

from mindformers import  TextStreamerinputs = tokenizer(["写一首一带一路的诗"])streamer = TextStreamer(tokenizer)_ = model.generate(inputs["input_ids"], streamer=streamer, max_length=500, top_k=1)

在这里插入图片描述

4）history构建
参考：https://aistudio.baidu.com/projectdetail/6519985
https://zhuanlan.zhihu.com/p/650730807

def prepare_query_for_chat(query: str, history = None):if history is None:return queryelse:prompt = ""for i, (old_query, response) in enumerate(history):prompt += "[Round {}]\n问：{}\n答：{}\n".format(i, old_query, response)prompt += "[Round {}]\n问：{}\n答：".format(len(history), query)return promptprompt = prepare_query_for_chat(query="你是谁？", history=[("你叫小乐主要擅长是智慧城市和智慧安全方向，核心技术包括专用高性能计算，解密设备，无人机智能反制系统，云计算平台，AI行为分析等，愿景是让城市更智慧，让世界更安全;每次回答请都简要回答不超过30个字","好的，小乐很乐意为你服务")]
)
print(prompt)

完整代码：

from mindformers import  TextIteratorStreamer
from threading import Threadstreamer = TextIteratorStreamer(tokenizer)prompt = prepare_query_for_chat(query="你能做什么？", history=[("你主要擅长是智慧城市和智慧安全方向，核心技术包括专用高性能计算，解密设备，无人机智能反制系统，云计算平台，AI行为分析等，愿景是让城市更智慧，让世界更安全;每次回答请都简要回答不超过30个字","好的，小**很乐意为你服务")]
)
inputs = tokenizer([prompt])
generation_kwargs = dict(input_ids=inputs["input_ids"], streamer=streamer, max_length=5000, top_k=1)
thread = Thread(target=model.generate, kwargs=generation_kwargs)
thread.start()
generated_text = ""
for num,new_text in enumerate(streamer):# print(num,new_text)if num>=1:print(new_text, end='',flush=True)generated_text += new_text
generated_text

在这里插入图片描述

华为昇腾NPU卡大模型LLM ChatGLM2模型推理使用

1、安装环境：

2、ChatGLM2模型使用

相关文章：

华为昇腾NPU卡大模型LLM ChatGLM2模型推理使用

Git 拉取远程更新报错

腾讯云国际站服务器端口开放失败怎么办？

一句话解释什么是出口IP

深入理解强化学习——强化学习的历史：试错学习

分享一个用HTML、CSS和jQuery构建的漂亮的登录注册界面

Java学习习题 1.

第六节——Vue中的事件

设置GridView单选

[Python从零到壹] 七十二.图像识别及经典案例篇之OpenGL入门及绘制基本图形和3D图

论文-分布式-并发控制-Lamport逻辑时钟

长三角实现区块链电子医疗票据互联互通，蚂蚁链提供技术支持

Redis快速上手篇(三)(事务+Idea的连接和使用)

Spring三级缓存解决循环依赖问题

Unity 中使用波浪动画创建 UI 图像

支付功能测试用例测试点？

HFS 快速搭建 http 服务器

学生专用台灯怎么选？双十一专业学生护眼台灯推荐

Go 常用标准库之 fmt 介绍与基本使用

antv/x6 导出图片方法exportPNG

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（二）

12.找到字符串中所有字母异位词

[Java恶补day16] 238.除自身以外数组的乘积

根据万维钢·精英日课6的内容，使用AI（2025）可以参考以下方法：

Java线上CPU飙高问题排查全指南

Linux离线（zip方式）安装docker

Git 3天2K星标：Datawhale 的 Happy-LLM 项目介绍（附教程）

关于uniapp展示PDF的解决方案

永磁同步电机无速度算法--基于卡尔曼滤波器的滑模观测器

Docker拉取MySQL后数据库连接失败的解决方案