当前位置：首页 > news >正文

Llama2通过llama.cpp模型量化 WindowsLinux本地部署

news 2025/11/21 7:47:01

Llama2通过llama.cpp模型量化 Windows&Linux本地部署

什么是LLaMA 1 and 2

LLaMA，它是一组基础语言模型，参数范围从7B到65B。在数万亿的tokens上训练的模型，并表明可以专门使用公开可用的数据集来训练最先进的模型，而无需求助于专有和不可访问的数据集。特别是，LLaMA-13B在大多数基准测试中都优于GPT-3（175B），并且LLaMA65B与最好的型号Chinchilla-70B和PaLM-540B具有竞争力。

Meta 出品的 Llama 续作 Llama2，一系列模型（7b、13b、70b）均开源可商用。Llama2 在各个榜单上精度全面超过 Llama1，同时也超过此前所有开源模型。

但是对于本机部署大模型，LLaMA要求相对于还是偏高，因此本次使用开源方案llama.cpp进行模型量化，在Windows平台进行CPU量化版本测试，Linux平台进行GPU量化版本测试。

注：以下所有下载步骤均需要科学上网，否则会很折磨。

实验设备详情（供参考）

Windows平台

为笔记本平台，拯救者Y9000P

CPU: 13th Intel i9-13900HX $\times$ 1
GPU: NVIDIA GeForce RTX4060 (8GB) $\times$ 1
内存: 32GB

运行情况：CPU流畅运行llama2-13B-chat 8Bit量化版本，卡顿运行16Bit量化版本。GPU版本加速超级快，相当于文心一言或者Chatgpt的生成速度。

运行情况：
在这里插入图片描述

Linux平台

实验室服务器

COU: 9th Intel® Core™ i9-9940X CPU @ 3.30GHz $\times$ 14
GPU: NVIDIA GeForce RTX2080Ti (11GB) $\times$ 4
内存: 64GB

运行情况：13B和7B都运行十分流程，但70B的不知道为啥突然下载不了了，没法测试。

模型部署详细步骤

下载并配置llama库

下载llama

git clone https://github.com/facebookresearch/llama.git

配置环境

创建虚拟环境，防止之前其他环境安装的包导致的冲突
```
conda create -n llama python=3.10
```
进入虚拟环境
```
conda activate llama
```
进入工程目录
```
cd llama
```
安装环境依赖
```
pip install -e .
```
申请模型下载链接

进入该链接：Mete website申请下载模型，内容如实填写，为了尽快通过，可以填写美国机构和学校，应该会快一些，当时没敢试国内的，怕被拒（被OpenAI搞怕了）

之后会来如下邮件，复制马赛克部分的网址：
下载模型
- Windows平台
```
sh download.sh
```
- Linux平台
```
bash download.sh
```
之后跟着流程将之前复制的链接粘贴进入即可，然后选择需要下载的模型，关于模型的区别可以自行Bing，chat版本的这里更加推荐，参数量方面7B的一般大部分设备都可以跑，我使用13B版本的也可以正常运行，根据个人所需进行选择。
- 注：Windows平台在下载的时候，可能会面临wget: command not found错误，跟下述链接进行即可
  
  关于在Windows10环境下运行.sh文件报错 wget: command not found的解决办法

下载并配置llama.cpp库

下载llama.cpp

git clone https://github.com/ggerganov/llama.cpp.git

cd llama.cpp

编译 Build
- Linux平台
  
  直接进入工程目录make即可：
```
make
```
  我在autodl服务器和实验室服务器实测都没有问题
- Windows平台
  
  Windows平台需要安装cmake和gcc，这个我本机此前有安装好，如果有没有安装的请自行百度安装
  
  编译：
```
mkdir build
```
```
cd build
```
```
cmake ..
```
```
cmake --build . --config Release
```

CUDA加速版编译，添加一部分指令即可

Linux平台
```
make LLAMA_CUBLAS=1
```

Windows平台

mkdir build
cd build
cmake .. -DLLAMA_CUBLAS=ON
cmake --build . --config Release

模型量化

准备数据

将llama中下载好的数据 (llama-2-7B-chat) 拷贝到llama.cpp中的./models中，同时将llama主目录中的tokenizer_checklist.chk和tokenizer.model也复制到./models中。

参考以下：

G:.
│  .editorconfig
│  ggml-vocab-aquila.gguf
│  ggml-vocab-baichuan.gguf
│  ggml-vocab-falcon.gguf
│  ggml-vocab-gpt-neox.gguf
│  ggml-vocab-llama.gguf
│  ggml-vocab-mpt.gguf
│  ggml-vocab-refact.gguf
│  ggml-vocab-starcoder.gguf
│  tokenizer.model
│  tokenizer_checklist.chk
│
└─13Bchecklist.chkconsolidated.00.pthconsolidated.01.pthparams.json

进行量化

进入虚拟环境，安装依赖
```
cd llama.cpp
```
```
conda activate llama
```
安装依赖
```
pip install -r requirements.txt
```
进行16Bit转换
```
python convert.py models/13B/
```
这一步如果报错。修改./models/(模型存放文件夹)/params.json
将最后"vocab_size":中的值改为32000即可
- Linux 4 or 8 bit量化
```
./quantize ./models/7B/ggml-model-f16.gguf ./models/7B/ggml-model-q4_0.gguf q4_0
```
  路径根据自己的路径进行调整，如果进行8bit量化，将命令中的q4_0改为q8_0:
```
./quantize ./models/7B/ggml-model-f16.gguf ./models/7B/ggml-model-q8_0.gguf q8_0
```
  8bit肯定比4bit好，但根据设备情况量力而行
- Windows 4 or 8 bit量化
```
.\build\bin\Release\quantize.exe .\models\13B\ggml-model-f16.gguf .\models\13B\7B\ggml-model-q4_0.gguf q4_0
```
  更改bit也参考上述

加载并启动模型

CPU版本

Windows平台

.\build\bin\Release\main.exe -m .\models\13B\ggml-model-q4_0.gguf  -n 256 -t 18 --repeat_penalty 1.0 --color -i -r "User:" -f .\prompts\chat-with-bob.txt

Linux平台

./main -m ./models/13B/ggml-model-q8_0.gguf  -n 256 -t 18 --repeat_penalty 1.0 --color -i -r "User:" -f .\prompts\chat-with-bob.txt

GPU加速

只需在命令中加上加上-ngl 1

其中可以对数量进行修改，最大为35，我在4060上实测20达到最佳

Windows平台

.\build\bin\Release\main.exe -m .\models\13B\ggml-model-q4_0.gguf  -n 256 -t 18 --repeat_penalty 1.0 --color -i -r "User:" -f .\prompts\chat-with-bob.txt -ngl 20

Linux平台

./main -m ./models/13B/ggml-model-q8_0.gguf  -n 256 -t 18 --repeat_penalty 1.0 --color -i -r "User:" -f ./prompts/chat-with-bob.txt -ngl 20

在提示符 > 之后输入你的prompt，cmd/ctrl+c中断输出，多行信息以\作为行尾。如需查看帮助和参数说明，请执行./main -h命令。下面介绍一些常用的参数：

-c 控制上下文的长度，值越大越能参考更长的对话历史（默认：512）
-ins 启动类ChatGPT对话交流的instruction运行模式
-f 指定prompt模板，alpaca模型请加载prompts/alpaca.txt
-n 控制回复生成的最大长度（默认：128）
-b 控制batch size（默认：8），可适当增加
-t 控制线程数量（默认：4），可适当增加
--repeat_penalty 控制生成回复中对重复文本的惩罚力度
--temp 温度系数，值越低回复的随机性越小，反之越大
--top_p, top_k 控制解码采样的相关参数

具体信息参考：https://github.com/ggerganov/llama.cpp/tree/master/examples/main

Llama2通过llama.cpp模型量化 WindowsLinux本地部署

Llama2通过llama.cpp模型量化 Windows&Linux本地部署什么是LLaMA 1 and 2 LLaMA，它是一组基础语言模型，参数范围从7B到65B。在数万亿的tokens上训练的模型，并表明可以专门使用公开可用的数据集来训练最先进的模型，而无需求…...

编程日记 2023/11/12 10:47:05

Coding面试题之手写线程池

原理图 JDK线程池原理实现代码 1.线程类（PoolThread） 这个类用于执行任务队列中的任务。 public class PoolThread extends Thread {private final Queue<Runnable> taskQueue;private boolean isStopped false;private long lastTaskTime …...

编程日记 2023/11/12 10:46:04

【objectarx.net】删除零长度曲线和获取零长度曲线的数量

删除零长度曲线和获取零长度曲线的数量...

编程日记 2023/11/12 10:45:03

Win11专业版安装Docker Desktop，并支持映射主机的gpu

一、Windows环境下安装 Docker 必须满足： 1. 64位Windows 11 Pro(专业版和企业版都可以) 2. Microsoft Hyper-V，Hyper-V是微软的虚拟机，在win11上是自带的，我们只需要启动就可以了二、下载Docker Desktop安装包方式一：进入官网下载 https://docs.docker.com/desktop…...

编程日记 2023/11/12 10:42:59

Mac代码文本编辑器Sublime Text 4

Sublime Text 4 for Mac拥有快速响应的功能，可以快速加载文件和执行命令，并提供多种语言支持，包括C 、Java、Python、HTML、CSS等。此外，该编辑器还支持LaTeX、Markdown、JSON、XML等技术领域。 Sublime Text 4 for Mac的插件丰富…...

编程日记 2023/11/12 10:41:58

MATLAB中plot函数用法

目录语法说明向量和矩阵数据表数据其他选项示例创建线图绘制多个线条根据矩阵创建线图指定线型指定线型、颜色和标记在特定的数据点显示标记指定线宽、标记大小和标记颜色添加标题和轴标签绘制持续时间并指定刻度格式基于表绘制坐标在一个轴…...

编程日记 2023/11/12 10:40:57

1 Download Visual Studio Code - Mac, Linux, Windows 2 this user installer is not meant to be run as an administrator . if ou would like to install vs code for all users i this sys download the system installer instead form are u want to con 提示的意思是&a…...

编程日记 2023/11/12 10:39:57

MATLAB中Arrow 属性说明

目录颜色和样式位置 Arrow 属性是箭头的外观和行为。 Arrow 属性控制 Arrow 对象的外观和行为。通过更改属性值，可以修改箭头的特定方面。使用圆点表示法查询和设置属性。 ar annotation("arrow"); c ar.Color; ar.Color "red"; 颜色和…...

编程日记 2023/11/12 10:37:53

MYSQL 慢查询和慢查询日志

在数据库管理中，慢查询是指执行时间较长的 SQL 查询语句。这类查询可能导致系统性能下降，影响用户体验。为了帮助识别和解决这些性能问题，数据库管理系统通常提供了慢查询日志，用于记录执行时间超过一定阈值的查询。本文将深入探讨…...

编程日记 2023/11/12 10:36:52

Longhorn跨AZ实现存储高可用

Longhorn跨AZ实现存储高可用 longhorn基础组件功能及其作用这里就不做介绍了方案一 Longhorn跨AZ的高可用的就是一个PVC的replicas 均匀打散的不同的AZ区域之间，这样当某个AZ挂掉后，engine会立即使用另外一个数据副本，并重建这个副本&…...

编程日记 2023/11/12 10:35:51

maven 私有仓库配置

1.整体库信息 2.配置阿里云库 （可以配置多个库，再引用代理库） 3.建立自己的发布，快照库 4.建立自由的公共库- 引用所有需要的库 5.maven setting 中配置用户名密码 <server><id>mv-releases</id><usernam…...

编程日记 2023/11/12 10:34:49

TypeScript: 判断两个数组的内容是否相等

一、直接遍历 // 1.直接遍历 const arr1: any[] ["apple", "banana", NaN]; const arr2: any[] ["apple", NaN, "banana"];function fn1(arr1: any[], arr2: any[]) {// Array.some(): 有一项不满足，返回falseif (arr1.…...

编程日记 2023/11/12 10:33:47

STM32MPU6050角度的读取（STM32驱动MPU6050）

注：文末附STM32驱动MPU6050代码工程链接，需要的读者请自取。一、MPU6050介绍 MPU6050是一款集成了三轴陀螺仪和三轴加速度计的传感器芯片，由英国飞利浦半导体（现为恩智浦半导体）公司生产。它通过电子接口&#xff08…...

编程日记 2023/11/12 10:32:46

海康Visionmaster-环境配置：CSharp 二次开发环境配置方法

C#二次开发环境的配置方法以 WinForm 为例，进行 VM 二次开发的环境配置分为三步： 第一步，使用 VS 新建一个框架为.NET Framework 4.6.1 的工程，平台首选 32 位取消勾选，重新生成解决方案，保证工程 Debug 下…...

编程日记 2023/11/12 10:31:45

Xilinx DDR3 MIG系列——ddr3控制器的时钟架构

本节目录一、ddr3控制器的时钟架构 1、PLL输入时钟——系统时钟system_clk 2、PLL输出时钟——sync_pulse、mem_refclk、freq_refclk、MMCM1的输入时钟 3、MMCM1的输入时钟和输出时钟 4、MMCM2的输入时钟和输出时钟一、ddr3控制器的时钟架构对于FPGA开发来说，调用IP或者移植…...

编程日记 2023/11/12 10:30:44

2560 动物保护宣传网站设计JSP【程序源码+文档+调试运行】

摘要本文介绍了一个动物保护宣传网站的系统的设计与实现。该系统包括前台用户模块和后台管理员模块，具有用户注册/登录、新闻、资源库、法律法规、图片赏析、留言板、关于我们、用户后台等功能。通过数据库设计和界面设计，实现了系统的基本功能&#x…...

编程日记 2023/11/12 10:29:43

【算法】牛的旅行（图的直径，floyd算法求最短路）

题目农民John的农场里有很多牧区，有的路径连接一些特定的牧区。一片所有连通的牧区称为一个牧场。但是就目前而言，你能看到至少有两个牧区不连通。现在，John想在农场里添加一条路径（注意，恰好一条）。一…...

编程日记 2023/11/12 10:28:42

QML12、QML 对象类型

QML 对象类型 QML 对象类型是可以从中实例化 QML 对象的类型。在句法术语中，QML 对象类型是一种可用于通过指定类型名称后跟一组包含该对象属性的花括号来声明对象的类型。这与基本类型不同，基本类型不能以相同的方式使用。例如，Rectangle 是一个 QML 对象类型：…...

编程日记 2023/11/12 10:27:41

JavaWeb Day08 Mybatis-入门

目录编辑编辑编辑一、快速入门程序 ①准备工作 ②引入Mybatis相关依赖，配置Mybatis ③编写SQL（注解/XML） ④单元测试 ⑤相关代码 1.pom.xml 2. application.properties 3.User.java 4. UserMapper.java 5.Test.java ⑥配置…...

编程日记 2023/11/12 10:24:39

【计算机网络笔记】IP分片

系列文章目录什么是计算机网络？ 什么是网络协议？ 计算机网络的结构数据交换之电路交换数据交换之报文交换和分组交换分组交换 vs 电路交换计算机网络性能（1）——速率、带宽、延迟计算机网络性能（2）…...

编程日记 2023/11/12 10:23:38

UE5 学习系列（二）用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇，在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下： 【Note】：如果你已经完成安装等操作，可以只执行第一篇博客中 2. 新建一个空白游戏项目章节操作，重…...

编程新知 2025/11/20 1:58:43

【网络】每天掌握一个Linux命令 - iftop

在Linux系统中，iftop是网络管理的得力助手，能实时监控网络流量、连接情况等，帮助排查网络异常。接下来从多方面详细介绍它。目录【网络】每天掌握一个Linux命令 - iftop工具概述安装方式核心功能基础用法进阶操作实战案例面试题场景生产场景…...

编程新知 2025/10/10 17:03:53

多场景 OkHttpClient 管理器 - Android 网络通信解决方案

下面是一个完整的 Android 实现，展示如何创建和管理多个 OkHttpClient 实例，分别用于长连接、普通 HTTP 请求和文件下载场景。 <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas…...

编程新知 2025/9/30 14:27:04

【第二十一章 SDIO接口(SDIO)】

第二十一章 SDIO接口目录第二十一章 SDIO接口(SDIO) 1 SDIO 主要功能 2 SDIO 总线拓扑 3 SDIO 功能描述 3.1 SDIO 适配器 3.2 SDIOAHB 接口 4 卡功能描述 4.1 卡识别模式 4.2 卡复位 4.3 操作电压范围确认 4.4 卡识别过程 4.5 写数据块 4.6 读数据块 4.7 数据流…...

编程新知 2025/11/18 23:57:28

spring：实例工厂方法获取bean

spring处理使用静态工厂方法获取bean实例，也可以通过实例工厂方法获取bean实例。实例工厂方法步骤如下： 定义实例工厂类（Java代码），定义实例工厂（xml），定义调用实例工厂&#xff…...

编程新知 2025/8/27 18:01:27

python爬虫：Newspaper3k 的详细使用（好用的新闻网站文章抓取和解析的Python库）

更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录一、Newspaper3k 概述1.1 Newspaper3k 介绍1.2 主要功能1.3 典型应用场景1.4 安装二、基本用法2.2 提取单篇文章的内容2.2 处理多篇文档三、高级选项3.1 自定义配置3.2 分析文章情感四、实战案例4.1 构建新闻摘要聚合器…...

编程新知 2025/10/25 7:51:48

关于 WASM：1. WASM 基础原理

一、WASM 简介 1.1 WebAssembly 是什么？ WebAssembly（WASM） 是一种能在现代浏览器中高效运行的二进制指令格式，它不是传统的编程语言，而是一种低级字节码格式，可由高级语言（如 C、C、Rust&am…...

编程新知 2025/11/19 10:53:07

在鸿蒙HarmonyOS 5中使用DevEco Studio实现录音机应用

1. 项目配置与权限设置 1.1 配置module.json5 {"module": {"requestPermissions": [{"name": "ohos.permission.MICROPHONE","reason": "录音需要麦克风权限"},{"name": "ohos.permission.WRITE…...

编程新知 2025/10/3 17:30:30