当前位置：首页 > news >正文

在Windows或Mac上安装并运行LLAMA2

news 2025/11/5 13:00:43

LLAMA2在不同系统上运行的结果

LLAMA2 在windows 上运行的结果

LLAMA2 在Mac上运行的结果

安装Llama2的不同方法

方法一：

编译 llama.cpp

克隆 llama.cpp

git clone https://github.com/ggerganov/llama.cpp.git

通过conda 创建或者venv. 下面是通过conda 创建的。

conda create --name llama_test python=3.9
conda activate llama_test

安装python依赖的包

pip3 install -r requirements.txt

编译llama.cpp

mac

LLAMA_METAL=1 make

windows , 用powershell 运行 make

下载llama2模型

直接在huggingface里下载量化了的 gguf格式的llama2模型。

https://huggingface.co/TheBloke/Llama-2-7B-Chat-GGUF/tree/main

我下载的是llama-2-7b-chat.Q4_0.gguf

拷贝llama-2-7b-chat.Q4_0.gguf 到llama.cpp目录里的models目录里

运行模型

如果是windows，要用powershell

./main -m ./models/llama-2-7b-chat.Q4_0.gguf --color --ctx_size 2048 -n -1 -ins -b 256 --top_k 10000 --temp 0.2 --repeat_penalty 1.1 -t 8

方法二：

Meta已将llama2开源，任何人都可以通过在meta ai上申请并接受许可证、提供电子邮件地址来获取模型。 Meta 将在电子邮件中发送下载链接。

下载llama2

获取download.sh文件，将其存储在mac上
打开mac终端，执行 chmod +x ./download.sh 赋予权限。
运行 ./download.sh 开始下载过程
复制电子邮件中的下载链接，粘贴到终端
仅下载13B-chat

安装系统依赖的东西

必须安装 Xcode 才能编译 C++ 项目。如果您没有，请执行以下操作：

xcode-select --install

接下来，安装用于构建 C++ 项目的依赖项。

brew install pkgconfig cmake

最后，我们安装 Torch。

如果您没有安装python3，请通过以下方式安装

brew install python@3.11

像这样创建一个虚拟环境：

/opt/homebrew/bin/python3.11 -m venv venv

激活 venv。

source venv/bin/activate

安装 PyTorch:

pip install --pre torch torchvision --extra-index-url https://download.pytorch.org/whl/nightly/cpu

编译 llama.cpp

克隆 llama.cpp

git clone https://github.com/ggerganov/llama.cpp.git

安装python依赖包

pip3 install -r requirements.txt

编译

LLAMA_METAL=1 make

如果你有两个arch (x86_64, arm64), 可以用下面指定arm64

arch -arm64 make

将下载的 13B 移至 models 文件夹下的 llama.cpp 项目。

将模型转换为ggml格式
13B和70B是不一样的。 Convert-pth-to-ggml.py 已弃用，请使用 Convert.py 代替

13B-chat

 python3 convert.py --outfile ./models/llama-2-13b-chat/ggml-model-f16.bin --outtype f16 ./models/llama-2-13b-chat

Quantize 模型:

In order to run these huge LLMs in our small laptops we will need to reconstruct and quantize the model with the following commands, here we will convert the model’s weights from float16 to int4 requiring less memory to be executed and only losing a little bit of quality in the process.

13B-chat:

./quantize ./models/llama-2-13b-chat/ggml-model-f16.bin ./models/llama-2-13b-chat/ggml-model-q4_0.bin q4_0

运行模型

./main -m ./models/llama-2-13b-chat/ggml-model-q4_0.bin -t 4 -c 2048 -n 2048 --color -i -r '### Question:' -p '### Question:'

您可以使用 -ngl 1 命令行参数启用 GPU 推理。任何大于 0 的值都会将计算负载转移到 GPU。例如：

./main -m ./models/llama-2-13b-chat/ggml-model-q4_0.bin -t 4 -c 2048 -n 2048 --color -i -ngl 1 -r '### Question:' -p '### Question:'

在我的 Mac 上测试时，它比纯 cpu 快大约 25%。

其它

ggml格式的llama2

如果你下载的是ggml格式的，要运行下面命令转换格式

python convert-llama-ggml-to-gguf.py --eps 1e-5 -i ./models/llama-2-13b-chat.ggmlv3.q4_0.bin -o ./models/llama-2-13b-chat.ggmlv3.q4_0.gguf.bin

(llama) C:\Users\Harry\PycharmProjects\llama.cpp>python convert-llama-ggml-to-gguf.py --eps 1e-5 -i ./models/llama-2-13b-chat.ggmlv3.q4_0.bin -o ./models/llama-2-13b-chat.ggmlv3.q4_0.gguf.bin
* Using config: Namespace(input=WindowsPath('models/llama-2-13b-chat.ggmlv3.q4_0.bin'), output=WindowsPath('models/llama-2-13b-chat.ggmlv3.q4_0.gguf.bin'), name=None, desc=None, gqa=1, eps='1e-5', context_length=2048, model_metadata_dir=None, vocab_dir=None, vocabtype='spm')=== WARNING === Be aware that this conversion script is best-effort. Use a native GGUF model if possible. === WARNING ===- Note: If converting LLaMA2, specifying "--eps 1e-5" is required. 70B models also need "--gqa 8".
* Scanning GGML input file
* File format: GGJTv3 with ftype MOSTLY_Q4_0
* GGML model hyperparameters: <Hyperparameters: n_vocab=32000, n_embd=5120, n_mult=256, n_head=40, n_layer=40, n_rot=128, n_ff=13824, ftype=MOSTLY_Q4_0>=== WARNING === Special tokens may not be converted correctly. Use --model-metadata-dir if possible === WARNING ===* Preparing to save GGUF file
This gguf file is for Little Endian only
* Adding model parameters and KV items
* Adding 32000 vocab item(s)
* Adding 363 tensor(s)gguf: write headergguf: write metadatagguf: write tensors
* Successful completion. Output saved to: models\llama-2-13b-chat.ggmlv3.q4_0.gguf.bin

参考资料

GitHub - facebookresearch/llama: Inference code for LLaMA models

A comprehensive guide to running Llama 2 locally – Replicate

在Windows或Mac上安装并运行LLAMA2

LLAMA2在不同系统上运行的结果 LLAMA2 在windows 上运行的结果 LLAMA2 在Mac上运行的结果安装Llama2的不同方法方法一： 编译 llama.cpp 克隆 llama.cpp git clone https://github.com/ggerganov/llama.cpp.git 通过conda 创建或者venv. 下面是通过conda 创建…...

编程日记 2023/11/8 23:26:01

初始化与销毁 Spring提供了多种初始化和销毁手段它们的执行顺序 A07Application.java package com.lucifer.itheima.a07;import org.springframework.boot.SpringApplication; import org.springframework.boot.autoconfigure.SpringBootApplication; import org.springfram…...

编程日记 2023/11/8 23:25:00

基于斑马算法的无人机航迹规划-附代码

基于斑马算法的无人机航迹规划文章目录基于斑马算法的无人机航迹规划1.斑马搜索算法2.无人机飞行环境建模3.无人机航迹规划建模4.实验结果4.1地图创建4.2 航迹规划 5.参考文献6.Matlab代码摘要：本文主要介绍利用斑马算法来优化无人机航迹规划。 1.斑马搜索算法 …...

编程日记 2023/11/8 23:23:59

干货 | 接口自动化测试分层设计与实践总结

接口测试三要素： 参数构造发起请求，获取响应校验结果一、原始状态当我们的用例没有进行分层设计的时候，只能算是一个“苗条式”的脚本。以一个后台创建商品活动的场景为例，大概流程是这样的(默认已经是登录状态下)&#…...

编程日记 2023/11/8 23:22:59

【Linux】服务器与磁盘补充知识，硬raid操作指南

服务器硬件 cpu 主板内存硬盘网卡电源 raid卡风扇远程管理卡 1.硬盘尺寸：目前生产环境中主流的两种类型硬盘 3.5寸和2.5寸硬盘 2.5寸硬盘可以通过使用硬盘托架后适用于3.5寸硬盘的服务器但是3.5寸没法转换成2.5寸 2.如何在服务器上制作raid 华为服务器为例子做…...

编程日记 2023/11/8 23:21:57

【java】实现自定义注解校验——方法二

自定义注解校验的实现步骤： 1.创建注解类，编写校验注解，即类似NotEmpty注解 2.编写自定义校验的逻辑实体类，编写具体的校验逻辑。(这个类可以实现ConstraintValidator这个接口，让注解用来校验) 3.开启使用自定义注解进…...

编程日记 2023/11/8 23:20:54

算法通关村第六关|白银|二叉树的层次遍历【持续更新】

1.二叉树基本的层序遍历仅仅遍历并输出全部元素。 List<Integer> simpleLevelOrder(TreeNode root) {if (root null) {return new ArrayList<Integer>();}List<Integer> res new ArrayList<Integer>();LinkedList<TreeNode> queue new Lin…...

编程日记 2023/11/8 23:19:52

vue中通过js控制scss变量

<template><div height"100%" class"b"><inp…...

编程日记 2023/11/8 23:18:52

深度学习理论知识入门【EM算法、VAE算法、GAN算法】和【RBM算法、MCMC算法、HMC算法】

目录深度学习理论知识入门首先，让我们了解第一个流程：现在，让我们看看第二个流程： EM算法GMM（高斯混合模型） 深度学习理论知识入门首先，让我们了解第一个流程： EM（Exp…...

编程日记 2023/11/8 23:16:49

Java8实战-总结47

Java8实战-总结47 CompletableFuture：组合式异步编程让代码免受阻塞之苦使用定制的执行器对多个异步任务进行流水线操作 CompletableFuture：组合式异步编程让代码免受阻塞之苦使用定制的执行器就这个主题而言，明智的选择似乎是创建一个…...

编程日记 2023/11/8 23:15:48

功能: 在web应用程序中、读取文件

通过使用文件 API，web 内容可以要求用户选择本地文件，然后读取这些文件的内容。这种选择可以通过使用 HTML <input type"file"> 元素或通过拖放来完成。 1.通过 click() 方法使用隐藏的文件 input 元素你可以隐藏公认难看的文件 <…...

编程日记 2023/11/8 23:14:47

TDD、BDD、ATDD以及SBE的概念和区别

在软件开发或是软件测试中会遇到以下这些词：TDD 、BDD 、ATDD以及SBE，这些词代表什么意思呢？ 它们之间有什么关系吗？ TDD 、BDD 、ATDD以及SBE的基本概念 TDD：（Test Driven Development）是一种…...

编程日记 2023/11/8 23:13:46

Android studio：打开应用程序闪退的问题

目录问题描述分析原因解决方法在开发Android应用程序的过程中遇到的问题问题描述在开发（或者叫测试，这么简单的程序可能很难叫开发）好一个android之后，在Android studio中调试开发好的app时，编辑器没有提示错误&a…...

编程日记 2023/11/8 23:12:45

Mysql数据库性能优化--performance_SCHEMA.STATEMENTS语句分析

使用performance_schema解决常见的故障案例 1 检查sql语句使用performance_schema很容易找到引起性能问题的查询以及原因。要启动语句检测，需要启动statement类型的插装。插装类： statement/sql sql语句，如select,或者create table。s…...

编程日记 2023/11/8 23:10:43

[C/C++]数据结构链表OJ题: 反转链表

描述: 给你单链表的头节点 head ，请你反转链表，并返回反转后的链表示例: 方法一: 让链表指向反向如图所示: 代码思路: struct ListNode* reverseList(struct ListNode* head) {struct ListNode* n1NULL;struct ListNode* n2head;struct ListNode*…...

编程日记 2023/11/8 23:08:41

深度学习之基于YoloV5交通信号标志识别系统

欢迎大家点赞、收藏、关注、评论啦 ，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四. 总结一项目简介基于YoloV5交通信号标志识别系统介绍基于YoloV5的交通信号标志识别系统是一种深度学习应用，旨在通过使…...

编程日记 2023/11/8 23:07:40

Linux命令大全

荒诞也好，愚笨也好，总会过去的文章目录文件相关压缩相关tarzip 进程相关pskill 网络相关netstat IPC相关ipcsipcrm 系统资源相关topfreefdiskdfdu 权限相关umaskchmodchownchgrp 总结文件相关 ls：列出当前目录中的文件和子目录。 ls常用…...

编程日记 2023/11/8 23:05:38

元宇宙是否为噱头？若不是，什么是元宇宙？他的概念、技术、应用和影响是什么？

文章来源：元宇宙的概念、技术、应用与影响——一项系统性文献综述 - 中国知网 (cnki.net) 摘要 [目的/意义]系统综述与分析当前国内外的元宇宙研究现状，有利于准确把握元宇宙发展方向，强化元宇宙基础研究，争取元宇宙建构权。[方法…...

编程日记 2023/11/8 23:04:37

293_C++_告警类

2、IncPos S32 AlarmList::IncPos(U32 *pu32Pos, U32 *pu32Cycle) {if((pu32Pos == NULL) || (pu32Cycle == NULL))</...

编程日记 2023/11/8 23:03:36

MySQL基础操作

注:mysql是大小写不敏感的. 1.数据库基础操作(展示) //1.展示当前数据库 show databases;//2.创建数据库 create database 数据库名;//3.使用数据库 use 数据库名;//4.删除数据库 drop database 数据库名;2.SQL中基本类型 2.1 数值类型(整数和浮点型) 注:decimal和numeric…...

编程日记 2023/11/8 23:02:34

React hook之useRef

React useRef 详解 useRef 是 React 提供的一个 Hook，用于在函数组件中创建可变的引用对象。它在 React 开发中有多种重要用途，下面我将全面详细地介绍它的特性和用法。基本概念 1. 创建 ref const refContainer useRef(initialValue);initialValu…...

编程新知 2025/6/11 15:21:26

以下是对华为 HarmonyOS NETX 5属性动画（ArkTS）文档的结构化整理，通过层级标题、表格和代码块提升可读性：

一、属性动画概述NETX 作用：实现组件通用属性的渐变过渡效果，提升用户体验。支持属性：width、height、backgroundColor、opacity、scale、rotate、translate等。注意事项： 布局类属性（如宽高）变化时&#…...

编程新知 2025/11/5 3:45:16

循环冗余码校验CRC码算法步骤+详细实例计算

通信过程：（白话解释） 我们将原始待发送的消息称为 M M M，依据发送接收消息双方约定的生成多项式 G ( x ) G(x) G(x)（意思就是 G （ x ) G（x) G（x) 是已知的）&#xff0…...

编程新知 2025/11/2 4:51:14

unix/linux，sudo，其发展历程详细时间线、由来、历史背景

sudo 的诞生和演化，本身就是一部 Unix/Linux 系统管理哲学变迁的微缩史。来，让我们拨开时间的迷雾，一同探寻 sudo 那波澜壮阔（也颇为实用主义）的发展历程。历史背景：su的时代与困境 ( 20 世纪 70 年代 - 80 年代初) 在 sudo 出现之前，Unix 系统管理员和需要特权操作的…...

编程新知 2025/10/21 3:46:44

GC1808高性能24位立体声音频ADC芯片解析

1. 芯片概述 GC1808是一款24位立体声音频模数转换器（ADC），支持8kHz~96kHz采样率，集成Δ-Σ调制器、数字抗混叠滤波器和高通滤波器，适用于高保真音频采集场景。 2. 核心特性高精度：24位分辨率&#xff0c…...

编程新知 2025/10/29 23:15:58

使用Matplotlib创建炫酷的3D散点图：数据可视化的新维度

文章目录基础实现代码代码解析进阶技巧1. 自定义点的大小和颜色2. 添加图例和样式美化3. 真实数据应用示例实用技巧与注意事项完整示例（带样式）应用场景在数据科学和可视化领域，三维图形能为我们提供更丰富的数据洞察。本文将手把手教你如何使用Python的Matplotlib库创建引…...

编程新知 2025/10/4 3:01:43

2025季度云服务器排行榜

在全球云服务器市场，各厂商的排名和地位并非一成不变，而是由其独特的优势、战略布局和市场适应性共同决定的。以下是根据2025年市场趋势，对主要云服务器厂商在排行榜中占据重要位置的原因和优势进行深度分析： 一、全球“三巨头”…...

编程新知 2025/10/24 14:40:23

纯 Java 项目（非 SpringBoot）集成 Mybatis-Plus 和 Mybatis-Plus-Join

纯 Java 项目（非 SpringBoot）集成 Mybatis-Plus 和 Mybatis-Plus-Join 1、依赖1.1、依赖版本1.2、pom.xml 2、代码2.1、SqlSession 构造器2.2、MybatisPlus代码生成器2.3、获取 config.yml 配置2.3.1、config.yml2.3.2、项目配置类 2.4、ftl 模板2.4.1、…...

编程新知 2025/9/26 12:26:35

MFC 抛体运动模拟：常见问题解决与界面美化

在 MFC 中开发抛体运动模拟程序时，我们常遇到轨迹残留、无效刷新、视觉单调、物理逻辑瑕疵等问题。本文将针对这些痛点，详细解析原因并提供解决方案，同时兼顾界面美化，让模拟效果更专业、更高效。问题一：历史轨迹与小球残影残留现象小球运动后，历史位置的 “残影”…...

编程新知 2025/10/29 3:16:46

MySQL 部分重点知识篇

一、数据库对象 1. 主键定义 ：主键是用于唯一标识表中每一行记录的字段或字段组合。它具有唯一性和非空性特点。作用 ：确保数据的完整性，便于数据的查询和管理。示例 ：在学生信息表中，学号可以作为主键&#xff…...

编程新知 2025/8/19 22:24:50

LLAMA2在不同系统上运行的结果

安装Llama2的不同方法

方法一：

编译 llama.cpp

下载llama2模型

运行模型

方法二：

下载llama2

安装系统依赖的东西

编译 llama.cpp

Quantize 模型:

运行模型

其它

ggml格式的llama2

参考资料

相关文章：