Llama-2大模型本地部署研究与应用测试
最近在研究自然语言处理过程中,正好接触到大模型,特别是在年初chatgpt引来的一大波AIGC热潮以来,一直都想着如何利用大模型帮助企业的各项业务工作,比如智能检索、方案设计、智能推荐、智能客服、代码设计等等,总得感觉相比传统的搜索和智能化辅助手段,大模型提供的方式更高效、直接和精准等,而且结合chat,能够实现多轮次的迭代,更接近或了解用户需求,提供更精准的答复。目前正在开展大模型部署应用测试,目前开源大模型主要就是Llama、ChatGLM大模型等,包括Llama-1和Llama-2,在其基础上的改进大模型有Chinese-LLaMA、OpenChineseLLaMA、Moss、baichuan等等,本文主要对原始Llama大模型进行了本地部署与测试,后续再逐步扩展,结合行业数据资源进行finetune,希望在开源模型的基础上对油气行业大模型构建有所帮助,Llama-2大模型部署及应用测试如下。
一、部署环境
环境:利用anaconda管理python环境
conda:conda 4.3.30
python:Python 3.10.4
cuda version:11.0,安装低于该版本的包即可,我安装的是cu102,GPU采用Tesla V100,详见GPU监测情况
env:/root/anaconda3/envs/torch/
require包如下,主要看torch、torchaudio、torchvision、transformers、uvicorn、fastapi、accelerate。
二、目前已部署的大模型和运行比较
Chinese-Llama-2-7b,运行速度慢,加载速度快
Chinese-Llama-2-7b-4bit,运行速度相对快,加载速度最快
chinese-alpaca-2-7b-hf,运行速度更快,加载速度慢
chinese-alpaca-2-13b-hf,运行速度更快,加载速度慢
open-chinese-llama-7b-patch,运行速度中等,加载速度慢
三、目前支持的运行方式:
1.控制台运行,详见chinese-llama2Test2.py,运行命令:python chinese-llama2Test2.py Chinese-Llama-2-7b
2.Rest服务运行,restful运行,详见restApi.py,运行命令:python restApi.py Chinese-Llama-2-7b
对于Rest服务的调用,主要用postman或DHC客户端模拟POST请求,Content-Type=application/json,post参数是json格式,如 {"prompt": "北京最佳的旅游时间", "history": []}
四、应用测试
1.单次测试代码
# 一次性访问
from transformers import AutoTokenizer, AutoModelForCausalLM, TextStreamer
model_path = "model/Chinese-Llama-2-7b"
tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=False)
model = AutoModelForCausalLM.from_pretrained(model_path).half().cuda()
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)instruction = """[INST] <<SYS>>\nYou are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature.If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.\n<</SYS>>\n\n{} [/INST]"""prompt = instruction.format("用中文回答,When is the best time to visit Beijing, and do you have any suggestions for me?")
generate_ids = model.generate(tokenizer(prompt, return_tensors='pt').input_ids.cuda(), max_new_tokens=4096, streamer=streamer)
2.输出结果

3.循环交互模式测试代码
#循环交互模式
import torch
import sys, getopt
from transformers import AutoTokenizer, AutoModelForCausalLM, TextStreamer
if (__name__ == '__main__') or (__name__ == 'main'):# 检查参数个数argc = len(sys.argv)if (argc <= 1):print('missingParms' % locals())sys.exit()#处理命令行参数modelName = sys.argv[1]#model_path = "model/Chinese-Llama-2-7b"model_path = "model/"+modelNametokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=False)if model_path.endswith("4bit"): #支持q4的轻量化模型,选择对应模型即可。model = AutoModelForCausalLM.from_pretrained(model_path,torch_dtype=torch.float16,device_map='auto')else:model = AutoModelForCausalLM.from_pretrained(model_path).half().cuda()streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)instruction = """[INST] <<SYS>>\nYou are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature.If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.\n<</SYS>>\n\n{} [/INST]"""while True:text = input("请输入提问 prompt\n")if text == "q":breakprompt = instruction.format(text)generate_ids = model.generate(tokenizer(prompt, return_tensors='pt').input_ids.cuda(), max_new_tokens=4096, streamer=streamer)
4.输出结果



五、监测GPU的使用情况
命令:watch -n 1 -d nvidia-smi
1.启动时的GPU状态

2.运行过程中的GPU状态

相关文章:
Llama-2大模型本地部署研究与应用测试
最近在研究自然语言处理过程中,正好接触到大模型,特别是在年初chatgpt引来的一大波AIGC热潮以来,一直都想着如何利用大模型帮助企业的各项业务工作,比如智能检索、方案设计、智能推荐、智能客服、代码设计等等,总得感觉…...
白嫖idea
白嫖idea 地址 https://www.jetbrains.com/toolbox-app/...
PyCharm切换虚拟环境
PyCharm切换虚拟环境 为了满足不同任务需要不同版本的包,可以在Anaconda或者Miniconda创建多个虚拟环境文件夹,并在PyCharm下切换虚拟环境。 解决方案 1、打开Ananconda Prompt 2、创建自己的虚拟环境 格式:conda create -n 虚拟环境名字…...
自动化运维工具-----Ansible入门详解
目录 一.Ansible简介 什么是Ansible? Ansible的特点 Ansible的架构 二.Ansible任务执行解析 ansible任务执行模式 ansible执行流程 ansible命令执行过程 三.Ansible配置解析 ansible的安装方式 ansible的程序结构(yum安装为例) ansibl…...
一、Mycat2介绍与下载安装
第一章 入门概述 1.1 是什么 Mycat 是数据库中间件。 1、数据库中间件 中间件:是一类连接软件组件和应用的计算机软件,以便于软件各部件之间的沟 通。 例子:Tomcat,web中间件。 数据库中间件:连接java应用程序和数据库…...
链表的介绍
链表是一种常用的数据结构,它可以动态地添加、删除、查找和遍历元素。链表由多个节点组成,每个节点包括一个数据项和一个指向下一个节点的指针。这种数据结构可以高效地插入和删除元素,但相对于数组来说,查找元素的效率较低。 插…...
深度剖析:数据服务API的安全性与隐私保护
随着互联网技术的飞速发展,数据服务API已经成为了企业和个人获取、处理和分析数据的重要工具。然而,数据服务API的安全问题也日益凸显,尤其是在用户隐私保护方面。本文将深入剖析数据服务API的安全性与隐私保护问题,并结合产品FDL…...
MediaPlayer音频与视频的播放介绍
作者:向阳逐梦 Android多媒体中的——MediaPlayer,我们可以通过这个API来播放音频和视频该类是Androd多媒体框架中的一个重要组件,通过该类,我们可以以最小的步骤来获取,解码和播放音视频。 它支持三种不同的媒体来源…...
【Terraform学习】Terraform模块基础操作(Terraform模块)
本站以分享各种运维经验和运维所需要的技能为主 《python》:python零基础入门学习 《shell》:shell学习 《terraform》持续更新中:terraform_Aws学习零基础入门到最佳实战 《k8》暂未更新 《docker学习》暂未更新 《ceph学习》ceph日常问题解…...
改进的KMeans 点云聚类算法 根据体元中的点数量计算点密度,并获取前K个点密度最大的体元作为初始聚类中心(附 matlab 代码)
KMeans函数的主要逻辑如下: 使用InitCenter函数初始化聚类中心,该函数根据体元密度选择初始聚类中心。该函数的输入参数包括数据(data)、聚类中心数量(centerNum)和体元数量(voxelNum)。根据点云的取值范围计算包围盒的体积(V)和体元边长(d)。根据体元边长将点云数…...
php user.ini详解
0x00 前言 本篇主要是讲解分析一下user.ini相关的内容。因为这个知识点涉及到文件上传的绕过 0x01 正文 .user.ini 文件是PHP的配置文件,用于自定义PHP的配置选项。该文件通常位于PHP安装目录的根目录下,或者在特定的网站目录下。 .user.ini 文件是一…...
用 PHP 和 JavaScript 显示地球卫星照片
向日葵 8 号气象卫星是日本宇宙航空研究开发机构设计制造的向日葵系列卫星之一,重约 3500 公斤,设计寿命 15 年以上。该卫星于 2014 年 10 月 7 日由 H2A 火箭搭载发射成功,主要用于监测暴雨云团、台风动向以及持续喷发活动的火山等防灾领域。…...
Ubantu安装mongodb,开启远程访问和认证
最近因为项目原因需要在阿里云服务器上部署MongoDB,操作系统为Ubuntu,网上查阅了一些资料,特此记录一下步骤。 1.运行apt-get install mongodb命令安装MongoDB服务(如果提示找不到该package,说明apt-get的资源库版本比…...
高手速成|数据库脚本生成工具
高手速成|数据库脚本生成工具 文章目录 高手速成|数据库脚本生成工具前言1、软件的安装及使用2、建立新工程3、创建Conceptual Data Model(概念数据模型)4、将E-R图转化为其他数据库模型5、导出DBMS代码(Sql执行脚本)6、执行sql脚…...
振动国标2009GB/T 19873.2-2009/ISO 13373-2:2005笔记
国标原文 1.时域,要求,采样率大于最高频率10倍(最低频率?) 2.频域,要求采样率大于最高频率2倍。 3.3.2 积分和微分,二次积分。 3.3.3 均方根。 3.4 滤波 4.1 奈奎斯特图、极坐标图、坎贝尔…...
SpringBoot中自定义starter
SpringBoot自动装配原理: EnableAutoConfiguration注解开启自动装配功能,该注解通常放在应用的主类上。spring.factories文件位于META-INF目录下的配置文件中定义各个自动装配类的全限定名 当SpringBoot启动时,会加载classpath下所有的spri…...
git-tf clone 路径有空格处理方案
git-tf clone 路径存在空格情况下,运行命令报错; 需要对路径进行双引号处理...
IP 地址与域名是一对多的关系。一个 IP 地址可以对应多个域名,但一个域名只对应一个 IP地址。这句话如何理解?
假设你有一个大型公司,拥有许多服务器和网站。每台服务器都有自己的IP地址,就像每台手机有一个电话号码一样。然而,你可能不想让客户记住一堆复杂的数字来访问你的网站。这时候,你可以为每个网站分配一个易记的域名,比…...
DNS解析分类
DNS(域名系统)解析是将域名转换为对应的IP地址的过程。根据不同的功能和角色,DNS解析可以分为以下几种分类: 递归解析(Recursive Resolution):递归解析是指DNS客户端向本地DNS服务器(…...
部署你自己的导航站-dashy
现在每天要访问的网页都太多了,尽管chrome非常好用,有强大的标签系统。但是总觉的少了点什么。 今天我就来分享一个开源的导航网站系统 dashy。这是一个国外的大佬的开源项目 github地址如下:https://github.com/Lissy93/dashy 来简单说一下…...
阿里云物联网平台OTA升级避坑指南:从版本号上报到Bin文件拉取的全流程排错
阿里云物联网平台OTA升级全链路排错实战手册 当设备固件需要远程更新时,OTA技术无疑是救星。但现实往往比理想骨感——版本号莫名失踪、升级包半路"走失"、设备在关键时刻"装聋作哑"。这些问题不仅耽误进度,更可能让生产线停摆。本文…...
如何破解Godot游戏的黑盒:解密PCK文件中的资源宝藏
如何破解Godot游戏的黑盒:解密PCK文件中的资源宝藏 【免费下载链接】godot-unpacker godot .pck unpacker 项目地址: https://gitcode.com/gh_mirrors/go/godot-unpacker 你是否曾好奇Godot游戏内部隐藏着怎样的资源结构?当面对那些看似神秘的.pc…...
八股文的终结:为什么2026年大厂面试开始大规模考察“内存安全”?
在2026年的北美IT求职市场中,底层系统开发(Infrastructure, Backend, Systems Engineering)岗位的技术面试逻辑正在经历一场深刻的底层范式转换。过去几年中,候选人凭借熟练背诵C虚函数表、STL底层源码剖析、以及各类设计模式等标…...
通信协议:那些让硬件“说话“的规则
通信协议:那些让硬件"说话"的规则硬件工程师每天都在和协议打交道——调SPI、写驱动、配CAN报文。但很多人对协议的理解停留在"查手册配寄存器"层面,没有建立起系统感。这篇文章试着把这个系统搭起来:从最基本的"01…...
利用NSGA-III算法优化随机森林模型超参数的实践与可视化展示:从理论到实现的全过程解析
利用NSGA-III算法优化机器学习模型 通过Optuna库实现机器学习模型超参数的优化与可视化,通过精心设计的目标函数,将搜索多个超参数空间,最终确定使模型性能最优的参数组合 为了更直观地展示调参过程,最后利用3D曲面图对调参效果进…...
Phi-3-mini-4k-instruct-gguf完整指南:GGUF轻量模型在边缘设备的适配实践
Phi-3-mini-4k-instruct-gguf完整指南:GGUF轻量模型在边缘设备的适配实践 1. 模型概述 Phi-3-mini-4k-instruct-gguf是微软Phi-3系列中的轻量级文本生成模型GGUF版本,专为边缘计算设备优化设计。这个模型特别适合在资源受限的环境中执行问答、文本改写…...
【光学】基于matlab偏振光线追迹【含Matlab源码 15265期】
💥💥💥💥💥💥💞💞💞💞💞💞💞💞欢迎来到海神之光博客之家💞💞💞Ὁ…...
从电影字幕到新闻分析:手把手教你构建专属领域语料库
从电影字幕到新闻分析:手把手教你构建专属领域语料库 当我们需要分析某个特定领域的文本时,通用语料库往往难以满足需求。比如你想研究电影对白中的情感表达模式,或者分析地方新闻中的事件关联性,这时候就需要构建自己的专属语料库…...
计算机毕业设计springboot职业中介信息管理系统 基于SpringBoot的人力资源招聘与求职匹配平台 SpringBoot驱动的在线人才招聘与就业服务系统
计算机毕业设计springboot职业中介信息管理系统 (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。随着经济的发展和社会的进步,就业市场变得越来越复杂。求职者需要面对…...
互联网大厂Java求职者面试全场景详解(含技术栈解析与问答)
互联网大厂Java求职者面试全场景详解(含技术栈解析与问答) 文章标签 Java SE, Jakarta EE, JVM, Spring Boot, Maven, 微服务, 消息队列, 互联网大厂面试, 求职招聘, 技术问答 文章简述 本文围绕互联网大厂Java求职者面试场景,设计了由严肃面…...
