当前位置：首页 > news >正文

Windows11(非WSL)安装Installing llama-cpp-python with GPU Support

news 2026/2/10 2:03:03

直接安装，只支持CPU。想支持GPU，麻烦一些。

1. 安装CUDA Toolkit (NVIDIA CUDA Toolkit (available at https://developer.nvidia.com/cuda-downloads)

2. 安装如下物件：

git
python
cmake
Visual Studio Community (make sure you install this with the following settings)
- Desktop development with C++
- development
- Linux embedded development with C++

3. Clone git repository recursively to get llama.cpp submodule as well

git clone --recursive -j8 https://github.com/abetlen/llama-cpp-python.git

4. Open up a command Prompt and set the following environment variables.

set FORCE_CMAKE=1
set CMAKE_ARGS=-DLLAMA_CUBLAS=ON

5. 复制文件从Cuda到VS：**

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.3\extras\visual_studio_integration\MSBuildExtensions下面有四个文件，全部copy。
在这里插入图片描述
然后复制到：
C:\Program Files\Microsoft Visual Studio\2022\Community\MSBuild\Microsoft\VC\v170\BuildCustomizations下面。

6. Compiling and installing

cd\llama-cpp-python
python -m pip install -e .

7. 检查成果：

>>> from llama_cpp import Llama
>>> llm = Llama(model_path="llama-2-7b-chat.Q8_0.gguf",n_gpu_layers=-1)

结果：

ggml_init_cublas: GGML_CUDA_FORCE_MMQ:   no
ggml_init_cublas: CUDA_USE_TENSOR_CORES: yes
ggml_init_cublas: found 1 CUDA devices:Device 0: NVIDIA GeForce RTX 4090, compute capability 6.1, VMM: yes
llama_model_loader: loaded meta data with 19 key-value pairs and 291 tensors from llama-2-7b-chat.Q8_0.gguf (version GGUF V2)
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = llama
llama_model_loader: - kv   1:                               general.name str              = LLaMA v2
llama_model_loader: - kv   2:                       llama.context_length u32              = 4096
llama_model_loader: - kv   3:                     llama.embedding_length u32              = 4096
llama_model_loader: - kv   4:                          llama.block_count u32              = 32
llama_model_loader: - kv   5:                  llama.feed_forward_length u32              = 11008
llama_model_loader: - kv   6:                 llama.rope.dimension_count u32              = 128
llama_model_loader: - kv   7:                 llama.attention.head_count u32              = 32
llama_model_loader: - kv   8:              llama.attention.head_count_kv u32              = 32
llama_model_loader: - kv   9:     llama.attention.layer_norm_rms_epsilon f32              = 0.000001
llama_model_loader: - kv  10:                          general.file_type u32              = 7
llama_model_loader: - kv  11:                       tokenizer.ggml.model str              = llama
llama_model_loader: - kv  12:                      tokenizer.ggml.tokens arr[str,32000]   = ["<unk>", "<s>", "</s>", "<0x00>", "<...
llama_model_loader: - kv  13:                      tokenizer.ggml.scores arr[f32,32000]   = [0.000000, 0.000000, 0.000000, 0.0000...
llama_model_loader: - kv  14:                  tokenizer.ggml.token_type arr[i32,32000]   = [2, 3, 3, 6, 6, 6, 6, 6, 6, 6, 6, 6, ...
llama_model_loader: - kv  15:                tokenizer.ggml.bos_token_id u32              = 1
llama_model_loader: - kv  16:                tokenizer.ggml.eos_token_id u32              = 2
llama_model_loader: - kv  17:            tokenizer.ggml.unknown_token_id u32              = 0
llama_model_loader: - kv  18:               general.quantization_version u32              = 2
llama_model_loader: - type  f32:   65 tensors
llama_model_loader: - type q8_0:  226 tensors
llm_load_vocab: special tokens definition check successful ( 259/32000 ).
llm_load_print_meta: format           = GGUF V2
llm_load_print_meta: arch             = llama
llm_load_print_meta: vocab type       = SPM
llm_load_print_meta: n_vocab          = 32000
llm_load_print_meta: n_merges         = 0
llm_load_print_meta: n_ctx_train      = 4096
llm_load_print_meta: n_embd           = 4096
llm_load_print_meta: n_head           = 32
llm_load_print_meta: n_head_kv        = 32
llm_load_print_meta: n_layer          = 32
llm_load_print_meta: n_rot            = 128
llm_load_print_meta: n_embd_head_k    = 128
llm_load_print_meta: n_embd_head_v    = 128
llm_load_print_meta: n_gqa            = 1
llm_load_print_meta: n_embd_k_gqa     = 4096
llm_load_print_meta: n_embd_v_gqa     = 4096
llm_load_print_meta: f_norm_eps       = 0.0e+00
llm_load_print_meta: f_norm_rms_eps   = 1.0e-06
llm_load_print_meta: f_clamp_kqv      = 0.0e+00
llm_load_print_meta: f_max_alibi_bias = 0.0e+00
llm_load_print_meta: n_ff             = 11008
llm_load_print_meta: n_expert         = 0
llm_load_print_meta: n_expert_used    = 0
llm_load_print_meta: rope scaling     = linear
llm_load_print_meta: freq_base_train  = 10000.0
llm_load_print_meta: freq_scale_train = 1
llm_load_print_meta: n_yarn_orig_ctx  = 4096
llm_load_print_meta: rope_finetuned   = unknown
llm_load_print_meta: model type       = 7B
llm_load_print_meta: model ftype      = Q8_0
llm_load_print_meta: model params     = 6.74 B
llm_load_print_meta: model size       = 6.67 GiB (8.50 BPW)
llm_load_print_meta: general.name     = LLaMA v2
llm_load_print_meta: BOS token        = 1 '<s>'
llm_load_print_meta: EOS token        = 2 '</s>'
llm_load_print_meta: UNK token        = 0 '<unk>'
llm_load_print_meta: LF token         = 13 '<0x0A>'

显卡终于在列，可以玩儿了。
在这里插入图片描述

Windows11(非WSL)安装Installing llama-cpp-python with GPU Support

直接安装，只支持CPU。想支持GPU，麻烦一些。 1. 安装CUDA Toolkit (NVIDIA CUDA Toolkit (available at https://developer.nvidia.com/cuda-downloads) 2. 安装如下物件： gitpythoncmakeVisual Studio Community (make sure you install t…...

编程日记 2024/2/19 9:11:20

rtt设备io框架面向对象学习-脉冲编码器设备

目录 1.脉冲编码器设备基类2.脉冲编码器设备基类的子类3.初始化/构造流程3.1设备驱动层3.2 设备驱动框架层3.3 设备io管理层 4.总结5.使用 1.脉冲编码器设备基类此层处于设备驱动框架层。也是抽象类。在/ components / drivers / include / drivers 下的pulse_encoder.h定义…...

编程日记 2024/2/19 9:10:18

华为OD机试真题- 攀登者2-2024年OD统一考试（C卷）

题目描述：攀登者喜欢寻找各种地图，并且尝试攀登到最高的山峰。地图表示为一维数组，数组的索引代表水平位置，数组的高度代表相对海拔高度。其中数组元素0代表地面。例如[0,1,4,3,1,0,0,1,2,3,1,2,1,0], 代表如下图所示的地图，地图中有两个山脉位置分别为 1,2,3,4,5和8,9,1…...

编程日记 2024/2/19 9:00:07

19.Qt 组合框的实现和应用

目录前言： 技能： 内容： 1. 界面 2.槽 3.样式表参考： 前言： 学习QCombox控件的使用技能： 简单实现组合框效果内容： 1. 界面在ui编辑界面找到input widget里面的comboBox&#xff…...

编程日记 2024/2/19 8:54:01

【Linux】进程地址空间的理解

进程地址空间的理解一，什么是程序地址空间二，页表和虚拟地址空间三，为什么要有进程地址空间一，什么是程序地址空间在我们写程序时，都会有这样下面的内存结构，来存放变量和代码等数据。一个进程要执行…...

编程日记 2024/2/19 8:49:57

【Jvm】类加载机制(Class Loading Mechanism)原理及应用场景

文章目录 Jvm基本组成一.什么是JVM类的加载二.类的生命周期阶段1：加载阶段2：验证阶段3：准备阶段4：解析阶段5：初始化三.类初始化时机四.类加载器1.引导类加载器（Bootstrap Class Loader）2.拓展类…...

编程日记 2024/2/19 8:44:52

Spring AOP的实现方式

AOP基本概念 Spring框架的两大核心：IoC和AOP AOP：Aspect Oriented Programming（面向切面编程） AOP是一种思想，是对某一类事情的集中处理面向切面编程：切面就是指某一类特定的问题，所以AOP可…...

编程日记 2024/2/19 8:42:50

Linux------环境变量

目录前言一、环境变量二、添加PATH环境变量三、HOME环境变量四、查看所有环境变量 1.指令获取 2.代码获取 2.1 getenv 2.2main函数的第三个参数 2.3 全局变量environ 五、环境变量存放地点六、添加自命名环境变量七、系统环境变量具有全局属性八、环境变…...

编程日记 2024/2/19 8:40:49

计算机视觉所需要的数学基础

计算机视觉领域中使用的数学知识广泛而深入，以下是一些关键知识点及其在计算机视觉中的应用： 线性代数： - 矩阵运算：用于图像的表示和处理，如图像旋转、缩放、裁剪等。 - 向量空间：用于描述图像中的…...

编程日记 2024/2/19 8:37:46

ChatGPT魔法1：背后的原理

1. AI的三个阶段 1） 上世纪50~60年代，计算机刚刚产生 2） Machine learning 3） Deep learning， 有神经网络， 最有代表性的是ChatGPT, GPT(Generative Pre-Trained Transformer) 2. 深度神经网络 llya Suts…...

编程日记 2024/2/19 8:33:42

【c/c++】获取时间

在一些应用的编写中我们有时候需要用到时间，或者需要一个“锚点”来确定一些数的值。在c/c中有两个用来确定时间的函数：time/gettimeofday 一、time time_t time(time_t *timer);time 函数返回当前时间的时间戳（自 1970 年 1 月 1 日以来经…...

编程日记 2024/2/19 8:31:41

uniapp富文本文字长按选中（用于复制，兼容H5、APP、小程序三端）

方案：使用u-parse的selectable属性 <u-parse :selectable"true" :html"content"></u-parse> 注意：u-parse直接使用是不兼容小程序的，需要对u-parse进行改造： 1. 查看u-parse源码发现小程序走到以…...

编程日记 2024/2/19 8:27:36

常见的几种Web安全问题测试简介

Web项目比较常见的安全问题 1.XSS(CrossSite Script)跨站脚本攻击 XSS(CrossSite Script)跨站脚本攻击。它指的是恶意攻击者往Web 页面里插入恶意html代码，当用户浏览该页之时，嵌入其中Web 里面的html 代码会被执行，从而达到恶意用户的特殊…...

编程日记 2024/2/19 8:26:35

linux信号机制[一]

目录信号量时序问题原子性什么是信号信号如何产生引入信号的处理方法常见信号如何理解组合键变成信号呢？ 如何理解信号被进程保存以及信号发送的本质？ 为什么要有信号信号怎么用？ 样例代码 core文件有什么用呢&#…...

编程日记 2024/2/19 8:24:33

elementui 中el-date-picker 选择年后输出的是Wed Jan 01 2025 00:00:00 GMT+0800 (中国标准时间)

文章目录问题分析问题在使用 el-date-picker 做只选择年份的控制器时，出现如下问题：el-date-picker选择年后输出的是Wed Jan 01 2025 00:00:00 GMT0800 (中国标准时间)，输出了两次如下分析在 el-date-picker 中，我们使用…...

编程日记 2024/2/19 8:22:32

Redis 集群(Cluster)

集群概念 Redis 的哨兵模式，提高了系统的可用性，但是正在用来存储数据的还是 master 和 slave 节点，所有的数据都需要存储在单个 master 和 salve 节点中。如果数据量很大，接近超出了 master / slave 所在机器的物理内存&#…...

编程日记 2024/2/19 8:21:31

260.【华为OD机试真题】信道分配（贪心算法-JavaPythonC++JS实现）

🚀点击这里可直接跳转到本专栏，可查阅顶置最新的华为OD机试宝典~ 本专栏所有题目均包含优质解题思路，高质量解题代码(Java&Python&C++&JS分别实现)，详细代码讲解，助你深入学习，深度掌握！文章目录一. 题目-信道分配二.解题思路三.题解代码Python题解代码…...

编程日记 2024/2/19 8:20:30

Python打发无聊时光：3.实现简单电路的仿真

看到这个标题肯定有人会问：好好的multisim、 proteus之类的专门电路仿真软件不用，非要写一个简陋的python程序来弄，是不是精神失常了。实际上，我也不知道为什么要这么干，前两篇文章是我实际项目中的一些探索&#xff0…...

编程日记 2024/2/19 8:19:29

MyBatis-Plus:通用分页实体封装

分页查询实体：PageQuery package com.example.demo.demos.model.query;import com.baomidou.mybatisplus.core.metadata.OrderItem; import com.baomidou.mybatisplus.extension.plugins.pagination.Page; import lombok.Data; import org.springframework.util.St…...

编程日记 2024/2/19 8:16:26

MVC 、DDD(domain-driven design,软件主动学习业务)、中台、Java SPI（Service Provider Interface）

文章目录引言I 单体架构DDD实现版本1.1 核心概念1.2 DDD四层架构规范1.3 案例1.4 请求转发流程II 领域服务调用2.1 菱形对称架构2.2 中台III Java SPI3.1 概念3.2 实现原理3.3 例子：本地SPI找服务see alsojava -cp<...

编程日记 2024/2/19 8:11:22

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向深度学习与微纳光子学的结合主要集中在以下几个方向： 逆向设计通过神经网络快速预测微纳结构的光学响应，替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。特征提取与优化从复杂的光学数据中自…...

编程新知 2026/2/8 15:03:04

java_网络服务相关_gateway_nacos_feign区别联系

1. spring-cloud-starter-gateway 作用：作为微服务架构的网关，统一入口，处理所有外部请求。核心能力： 路由转发（基于路径、服务名等）过滤器（鉴权、限流、日志、Header 处理）支持负…...

编程新知 2025/11/28 2:51:33

ubuntu搭建nfs服务centos挂载访问

在Ubuntu上设置NFS服务器在Ubuntu上，你可以使用apt包管理器来安装NFS服务器。打开终端并运行： sudo apt update sudo apt install nfs-kernel-server创建共享目录创建一个目录用于共享，例如/shared： sudo mkdir /shared sud…...

编程新知 2026/2/6 23:18:59

反向工程与模型迁移：打造未来商品详情API的可持续创新体系

在电商行业蓬勃发展的当下，商品详情API作为连接电商平台与开发者、商家及用户的关键纽带，其重要性日益凸显。传统商品详情API主要聚焦于商品基本信息（如名称、价格、库存等）的获取与展示，已难以满足市场对个性化、智能…...

编程新知 2025/9/15 5:56:53

盘古信息PCB行业解决方案：以全域场景重构，激活智造新未来

一、破局：PCB行业的时代之问在数字经济蓬勃发展的浪潮中，PCB（印制电路板）作为 “电子产品之母”，其重要性愈发凸显。随着 5G、人工智能等新兴技术的加速渗透，PCB行业面临着前所未有的挑战与机遇。产品迭代…...

编程新知 2026/2/7 17:29:24

MMaDA: Multimodal Large Diffusion Language Models

CODE ： https://github.com/Gen-Verse/MMaDA Abstract 我们介绍了一种新型的多模态扩散基础模型MMaDA，它被设计用于在文本推理、多模态理解和文本到图像生成等不同领域实现卓越的性能。该方法的特点是三个关键创新:(i) MMaDA采用统一的扩散架构&#xf…...

编程新知 2026/2/3 15:24:36

什么？连接服务器也能可视化显示界面？：基于X11 Forwarding + CentOS + MobaXterm实战指南

文章目录什么是X11？环境准备实战步骤1️⃣ 服务器端配置（CentOS）2️⃣ 客户端配置（MobaXterm）3️⃣ 验证X11 Forwarding4️⃣ 运行自定义GUI程序(Python示例)5️⃣ 成功效果![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/55aefaea8a9f477e86d065227851fe3d.pn…...

编程新知 2025/10/2 17:12:14

稳定币的深度剖析与展望

一、引言在当今数字化浪潮席卷全球的时代，加密货币作为一种新兴的金融现象，正以前所未有的速度改变着我们对传统货币和金融体系的认知。然而，加密货币市场的高度波动性却成为了其广泛应用和普及的一大障碍。在这样的背景下，稳定…...

编程新知 2025/10/24 12:31:26

ip子接口配置及删除

配置永久生效的子接口，2个IP 都可以登录你这一台服务器。重启不失效。永久的 [应用] vi /etc/sysconfig/network-scripts/ifcfg-eth0修改文件内内容 TYPE"Ethernet" BOOTPROTO"none" NAME"eth0" DEVICE"eth0" ONBOOT&q…...

编程新知 2025/10/26 5:04:25

JavaScript 数据类型详解

JavaScript 数据类型详解 JavaScript 数据类型分为原始类型（Primitive） 和对象类型（Object） 两大类，共 8 种（ES11）： 一、原始类型（7种） 1. undefined 定…...

编程新知 2025/12/25 4:05:41