当前位置: 首页 > news >正文

大模型部署手记(12)LLaMa2+Chinese-LLaMA-Plus-2-7B+Windows+text-gen+中文对话

1.简介:

组织机构:Meta(Facebook)

代码仓:https://github.com/facebookresearch/llama

模型:chinese-alpaca-2-7b-hf

下载:使用百度网盘下载

硬件环境:暗影精灵7Plus

Windows版本:Windows 11家庭中文版 Insider Preview 22H2

内存 32G

GPU显卡:Nvidia GTX 3080 Laptop (16G)

从 https://github.com/ymcui/Chinese-LLaMA-Alpaca-2​

的README.md可以看出,中文LLaMA&Alpaca大模型支持不同的LLaMA生态:

这里面有

  • transformers

  • llama.cpp

  • text-generation-webui:

  • LangChain

  • privateGPT

  • vLLM

等多种。

在这里也介绍了不同环境上的部署方式:

2.代码和模型下载:

d:

cd \

git clone https://github.com/oobabooga/text-generation-webui

https://blog.csdn.net/snmper/article/details/133744735大模型部署手记(11)LLaMa2+Chinese-LLaMA-Plus-2-7B+Windows+llama.cpp+中文对话icon-default.png?t=N7T8https://blog.csdn.net/snmper/article/details/133744735下载的完整版权重目录 D:\llama.cpp\models2\chinese-alpaca-2-7b-hf 复制到 D:\text-generation-webui\models 目录下:

3.安装依赖

参考 https://github.com/ymcui/Chinese-LLaMA-Alpaca-2/wiki/text-generation-webui_zh

和 https://github.com/oobabooga/text-generation-webui#installation

创建conda环境

conda create -n textgen python=3.10.9

conda activate textgen

cd text-generation-webui

安装pytorch

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117

安装依赖:

pip install -r requirements.txt

4.部署验证

加载模型并启动:

python server.py --model chinese-alpaca-2-7b-hf --chat

打开地址:

可以参考下面的指引操作:

在打开的网页中,依次选择Chat setting->Instruction template,在Instruction template中下拉选择Llama-v2,并将Context输入框中的Answer the questions.提示语替换为You are a helpful assistant. 你是一个乐于助人的助手。,最后回到Text generation界面,在input输入框中输入你的指令,即可与chinese-alpaca-2对话了。

不过张小白点击Model,发现这个模型已经加载上去了!

回到Chat屏幕,可以跟AI对话:

这个部署起来还是非常快的。

相关文章:

大模型部署手记(12)LLaMa2+Chinese-LLaMA-Plus-2-7B+Windows+text-gen+中文对话

1.简介: 组织机构:Meta(Facebook) 代码仓:https://github.com/facebookresearch/llama 模型:chinese-alpaca-2-7b-hf 下载:使用百度网盘下载 硬件环境:暗影精灵7Plus Windows版…...

C#导出本机Win32native dll

C# 使用 "3f/DllExport" 工具导出C风格的本机函数 [文 / 张赐荣] 首先,让我们来了解一下什么是争渡读屏软件,以及什么是争渡文本预处理API。争渡读屏软件是一款屏幕朗读软件,用于协助视力障碍人士操作电脑。 争渡文本预处理API是一…...

express-generator快速构建node后端项目

express-generator是express官方团队开发者准备的一个快速生成工具,可以非常快速的生成一个基于express开发的框架基础应用。 npm安装 npm install express-generator -g初始化应用 express my_node_test 创建了一个名为 my_node_test 的express骨架项目通过 Exp…...

视频监控系统/视频汇聚平台EasyCVR如何反向代理进行后端保活?

安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安…...

金融信创黄金三年:小程序生态+跨端技术框架构建

小程序应用场景生态的发展,受益于开源技术的发展,以及响应快速开发的实际业务需求,一些跨端框架如:Electron、wxPython、FinClip、Tauri、Flutter等发展也非常迅速,小程序生态跨端技术框架,不仅能满足自有超…...

这短短 6 行代码你能数出几个bug?

前言:本文仅仅只是分享笔者一年前见到的诡异代码,大家可以看看乐子,随便数一数一共有多少个bug,这数bug多少还是要点水平的 在初学编程的时候,写的第一个代码大多都是 hello world,可是就算是 hello world…...

【毕设选题】深度学习 机器视觉 车位识别车道线检测 - python opencv

0 前言 🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。 为了大家能够顺利以及最少的精力通过…...

不同数据类型在单片机内存中占多少字节?

文章目录 前言一、不同编译器二、C51* 指针型 三、sizeof结构体联合体 前言 在C语言中,数据类型指的是用于声明不同类型的变量或者函数的一个广泛的系统。变量的类型决定了变量存储占用的空间 一、不同编译器 类型16位编译器大小32位编译器大小64位编译器大小char…...

安卓LinearLayout让控件居中的办法

在控件属性上&#xff0c;是处理不了的。必须是在LinearLayout处理&#xff1a; 垂直居中 <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"android:layout_width&…...

uniapp下拉刷新

为什么要使用uniapp的下拉刷新呢 跨平台兼容性&#xff1a; Uniapp 允许你一次编写代码&#xff0c;然后在多个平台&#xff08;如微信小程序、H5、iOS 和 Android 等&#xff09;上运行。使用 Uniapp 的下拉刷新功能&#xff0c;可以确保在不同平台上都能提供一致的用户体验&a…...

【工作记录】css3 grid布局笔记

概述 Grid 布局即网格布局&#xff0c;是一种新的 CSS 布局模型&#xff0c;比较擅长将一个页面划分为几个主要区域&#xff0c;以及定义这些区域的大小、位置、层次等关系。号称是最强大的的 CSS 布局方案&#xff0c;是目前唯一一种 CSS 二维布局 参数配置说明 属性说明可…...

区块链技术-比特币数据结构

背景 随着近几年区块链技术的迅速发展&#xff0c;越来越多的行业正在将区块链技术应用到实际中去。例如&#xff0c;金融、物流、交易所等行业都开始尝试使用区块链技术来替代传统技术。伴随着区块链迅速发展的期间&#xff0c;诞生了比特币&#xff08;BTC&#xff09;、以太…...

SpringBoot结合dev-tool 实现IDEA项目热部署

什么是热部署&#xff1f; 应用正在运行的时候升级功能, 不需要重新启动应用对于Java应用程序来说, 热部署就是在运行时更新Java类文件 通俗的来讲&#xff0c;应用在运行状态下&#xff0c;修改项目源码后&#xff0c;不用重启应用&#xff0c;会把编译的内容部署到服务器上…...

flink中使用外部定时器实现定时刷新

背景&#xff1a; 我们经常会使用到比如数据库中的配置表信息&#xff0c;而我们不希望每次都去查询db&#xff0c;那么我们就想定时把db配置表的数据定时加载到flink的本地内存中&#xff0c;那么如何实现呢&#xff1f; 外部定时器定时加载实现 1.在open函数中进行定时器的…...

Spring Cloud Pipelines 入门实践

文章目录 1. 前言2. Spring Cloud Pipelines 是做什么的2.1. 预定义的流程2.2. 集成测试和契约测试2.3.部署策略 4. Spring Cloud Pipelines的使用示例4.1. 创建一个Spring Boot应用4.2. 将代码托管到GitHub仓库4.3. 添加Spring Cloud Pipelines依赖4.4. 配置Spring Cloud Pipe…...

G1 GC详解及设置

一、概述 G1 GC&#xff0c;全称Garbage-First Garbage Collector&#xff0c;在JDK1.7中引入了G1 GC&#xff0c;从JAVA 9开始&#xff0c;G1 GC是默认的GC算法。通过-XX:UseG1GC参数来启用。G1收集器是工作在堆内不同分区上的收集器&#xff0c;分区既可以是年轻代也可以是老…...

GitHub详细教程

将代码推送到GitHub仓库涉及一系列的步骤。以下是详细的步骤说明&#xff1a; 创建一个新的仓库&#xff08;如果还没有的话&#xff09;&#xff1a; 访问 GitHub。登录您的帐户。点击页面右上角的图标&#xff0c;然后选择“New repository”。填写仓库名称、描述等信息&…...

【小沐学Python】Python实现Web图表功能(Dash)

文章目录 1、简介2、安装3、功能示例3.1 Hello World3.2 连接到数据3.3 可视化数据3.4 控件和回调3.5 设置应用的样式3.5.1 HTML and CSS3.5.2 Dash Design Kit (DDK)3.5.3 Dash Bootstrap Components3.5.4 Dash Mantine Components 4、更多示例4.1 Basic Dashboard4.2 Using C…...

【RabbitMQ】docker rabbitmq集群 docker搭建rabbitmq集群

docker rabbitmq集群 docker搭建rabbitmq集群 RabbitMQ提供了两种常用的集群模式 1.普通集群模式 2.镜像集群模式 普通集群模式只能同步主节点上的交换机和队列信息&#xff0c;但对于队列中的消息不做同步&#xff0c;主节点宕机也不能进行切换&#xff08;故障转移&#xff…...

Linux 网络驱动实验

本文章对Linux 网络驱动实验中的设备树进行介绍&#xff0c;Linux网络驱动程序比较复杂&#xff0c;只要学会应用。 1、I.MX6ULL 网络外设设备树 I.MX6ULL 有两个 10/100M 的网络 MAC 外设&#xff0c;因此 I.MX6ULL 网络驱动主要就是这两个网络 MAC 外设的驱动。 fec1…...

云原生安全工具:保护云原生环境

云原生安全工具&#xff1a;保护云原生环境 一、云原生安全工具概述 1.1 云原生安全工具的定义 云原生安全工具是指专为云原生环境设计的安全工具和解决方案。它们用于保护容器、Kubernetes集群、微服务和Serverless应用的安全。 1.2 云原生安全工具的价值 安全防护&#xff1a…...

Faderwave合成器:用16个推子实时绘制波形,打造硬件交互式音色

1. 项目概述&#xff1a;用16个推子“画”出你的声音如果你玩过合成器&#xff0c;肯定知道波形是声音的基石。正弦波的纯净、方波的硬朗、锯齿波的锋利&#xff0c;每一种经典波形都定义了合成器音色的灵魂。但你是否想过&#xff0c;如果能像画家调色一样&#xff0c;亲手“绘…...

Linux光标主题管理工具x-cursor-help:从原理到实战

1. 项目概述&#xff1a;一个被低估的鼠标光标辅助工具如果你在Linux桌面环境下工作&#xff0c;尤其是使用像GNOME、KDE Plasma这类现代化的桌面环境&#xff0c;你可能会遇到一个不大不小但很恼人的问题&#xff1a;鼠标光标主题的安装和管理。从网上下载了一个漂亮的.tar.gz…...

给UE4蓝图和C++开发者的Lua/UnLua入门:什么时候该用,怎么设计架构?

UE4架构设计指南&#xff1a;何时引入Lua与UnLua的最佳实践 当你在UE4项目中频繁修改玩法逻辑时&#xff0c;是否经历过这样的困境&#xff1a;每次调整都需要重新编译C代码&#xff0c;等待时间从几分钟到几小时不等&#xff1b;或者蓝图节点越连越多&#xff0c;最终变成难以…...

记一次在双 RTX 3090 工作站上部署 vLLM 与 Qwen3.6-35B-AWQ 的实战记录

记一次在双 RTX 3090 工作站上部署 vLLM 与 Qwen3.6-35B-AWQ 的实战记录 1. 升级目的 最近需要本地部署大模型推理服务&#xff0c;目标是运行 Qwen3.6-35B 的 INT4 量化版本&#xff08;AWQ 格式&#xff09;&#xff0c;并使用高性能推理引擎 vLLM 提供服务。由于模型采用 …...

BeagleBone Black设备树覆盖层实战:从原理到自定义SPI/UART配置

1. 项目概述&#xff1a;为什么BeagleBone Black开发者必须掌握设备树&#xff1f;如果你正在使用BeagleBone Black&#xff08;BBB&#xff09;进行嵌入式开发&#xff0c;并且已经不止一次地困惑于为什么某个外设&#xff08;比如UART、SPI或者某个GPIO&#xff09;无法按预期…...

芯片/半导体/CPO光模块 深度分析报告

芯片/半导体/CPO光模块 深度分析报告报告生成时间&#xff1a;2026年5月16日 分析标的&#xff1a;芯片半导体板块 CPO光模块产业链 龙头标的&#xff1a;中际旭创(300308)、天孚通信(300394)、新易盛(300502)、寒武纪(688256)、海光信息(688041) 数据来源&#xff1a;公开市场…...

ROFL-Player:终极免费英雄联盟回放播放器解决方案

ROFL-Player&#xff1a;终极免费英雄联盟回放播放器解决方案 【免费下载链接】ROFL-Player (No longer supported) One stop shop utility for viewing League of Legends replays! 项目地址: https://gitcode.com/gh_mirrors/ro/ROFL-Player ROFL-Player是一款专门为《…...

AI 术语通俗词典:优化器

优化器是机器学习、深度学习、神经网络和人工智能中非常核心的一个术语。它用来描述&#xff1a;模型在得到梯度之后&#xff0c;如何更新权重和偏置&#xff0c;使损失函数逐渐变小。 换句话说&#xff0c;优化器是在回答&#xff1a;模型已经知道自己错在哪里之后&#xff0c…...

Cadence Allegro铺铜实战:从动态避让到静态优化,我的多层板效率提升心得

Cadence Allegro铺铜实战&#xff1a;从动态避让到静态优化&#xff0c;我的多层板效率提升心得 在高速PCB设计领域&#xff0c;Cadence Allegro作为行业标准工具&#xff0c;其铺铜功能直接影响设计效率与产品质量。当板层超过8层、元件密度突破500pin/inch时&#xff0c;动态…...