当前位置：首页 > news >正文

LLM | llama.cpp 安装使用（支持CPU、Metal及CUDA的单卡/多卡推理）

news 2026/5/20 3:51:04

1. 详细步骤

1.1 安装 cuda 等 nvidia 依赖（非CUDA环境运行可跳过）

# 以 CUDA Toolkit 12.4: Ubuntu-22.04/24.04(x86_64) 为例，注意区分 WSL 和 Ubuntu，详见 https://developer.nvidia.com/cuda-12-4-1-download-archive?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=22.04&target_type=runfile_local
wget https://developer.download.nvidia.com/compute/cuda/12.4.1/local_installers/cuda_12.4.1_550.54.15_linux.run
sudo sh cuda_12.4.1_550.54.15_linux.run注：通过 nvcc -V 来确定 cuda 等依赖是否安装到位，缺少的话根据提示再安装别的依赖，如 sudo apt install nvidia-cuda-toolkit 等

1.2 安装 llama.cpp (C/C++环境)

# 手动下载也可以
git clone https://github.com/ggerganov/llama.cppcd llama.cpp# 没安装 make，通过 brew/apt 安装一下（cmake 也可以，但是没有 make 命令更简洁）
# Metal(MPS)/CPU
make
# CUDA
make GGML_CUDA=1注：以前的版本好像一直编译挺快的，现在最新的版本CUDA上编译有点慢，多等一会

1.3 安装 llama-cpp (Python 环境)

# 也可以手动安装 torch 之后，再安装剩下的依赖
pip install -r requirements.txt

1.4 转换 HF 模型为 GGUF 文件

本步骤开始都以 Qwen2-7B-Instruct 为例

# 示例: 生成 FP-16 模型
python convert_hf_to_gguf.py /model_path/Qwen/Qwen-2.7B-Instruct/

1.5 GGUF 模型量化

# 示例: Q4_K_M 量化
./llama-quantize /model_path/Qwen/Qwen-2.7B-Instruct/ggml-model-f16.gguf /model_path/Qwen/Qwen-2.7B-Instruct/ggml-model-Q4_K_M.gguf Q4_K_M

1.6 GGUF 模型测试

# Metal(MPS)/CPU
./llama-cli -m /model_path/Qwen/Qwen-2.7B-Instruct/ggml-model-Q4_K_M.gguf -cnv -p "You are a helpful assistant"
# CUDA: 单卡推理
./llama-cli -m /model_path/Qwen/Qwen-2.7B-Instruct/ggml-model-Q4_K_M.gguf -cnv -p "You are a helpful assistant" -ngl 9999
# CUDA: 多卡推理(以双卡为例)，-ts等参数含义详见 https://github.com/ggerganov/llama.cpp/blob/master/examples/server/README.md
./llama-cli -m /model_path/Qwen/Qwen-2.7B-Instruct/ggml-model-Q4_K_M.gguf -cnv -p "You are a helpful assistant" -ngl 9999 -ts 1,1注: ngl可以灵活调整，取 9999 不是常规做法，比大模型实际的 100 以内的 ngl 大很多（不同模型的实际 ngl 也不一样）来确保所有的 ngl 都在 GPU 上运行（当然前提是显存足够）

2. 参考资料

2.1 llama.cpp

2.1.1 GitHub

官方页面

https://github.com/ggerganov/llama.cpp

build

https://github.com/ggerganov/llama.cpp/blob/master/docs/build.md

quantize

https://github.com/ggerganov/llama.cpp/blob/master/examples/quantize/README.md

http server

https://github.com/ggerganov/llama.cpp/blob/master/examples/server/README.md

2.2 NVIDIA DEVELOPER

CUDA Toolkit Archive

https://developer.nvidia.com/cuda-toolkit-archive

CUDA Toolkit 12.4: Ubuntu-22.04/24.04(x86_64)

https://developer.nvidia.com/cuda-12-4-1-download-archive?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=22.04&target_type=runfile_local

3. 资源

3.1 llama.cpp

3.1.1 GitHub

Python Bindings for llama.cpp

https://github.com/abetlen/llama-cpp-python

3.2 NVIDIA DEVELOPER

官方页面

https://developer.nvidia.com/

CUDA Toolkit

https://developer.nvidia.com/cuda-downloads

LLM | llama.cpp 安装使用（支持CPU、Metal及CUDA的单卡/多卡推理）

1. 详细步骤 1.1 安装 cuda 等 nvidia 依赖（非CUDA环境运行可跳过） # 以 CUDA Toolkit 12.4: Ubuntu-22.04/24.04(x86_64) 为例，注意区分 WSL 和 Ubuntu，详见 https://developer.nvidia.com/cuda-12-4-1-download-archive?targ…...

编程日记 2024/10/6 3:39:43

矩阵求解复数（aniwoth求解串扰）

所以这种求解串扰的格式是因为，有串扰的共轭项在方程组中复数共轭项的作用，但是这是二次方程，...

编程日记 2024/10/6 3:38:42

Redis: Sentinel哨兵监控架构及环境搭建

概述在主从模式下，我们通过从节点只读模式提高了系统的并发能力并发不断增加，只需要扩展从节点即可，只要主从服务器之间，网络连接正常主服务器就会将写入自己的数据同步更新给从服务器，从而保证主从服务器的数据相同…...

编程日记 2024/10/6 3:35:39

C++ 语言特性30 - 模板介绍

目录一：C11 之前的模板特性 1. 函数模板： 2. 类模板： 3. 模板特化： 4. 模板参数： 5. 模板元编程： 二：C11的模板特性 1. 变长模板（Variadic Templates）&#xff…...

编程日记 2024/10/6 3:34:37

算法笔记（七）——哈希表

文章目录两数之和判定是否互为字符重排存在重复元素存在重复元素 II字母异位词分组哈希表：一种存储数据的容器； 可以快速查找某个元素，时间复杂度O(1)； 当频繁查找某一个数时，我们可以使用哈希表创建一个容器&#…...

编程日记 2024/10/6 3:30:32

【基础算法总结】链表篇

目录一， 链表常用技巧和操作总结二，算法原理和代码实现2.两数相加24.两两交换链表中的节点143.重排链表23.合并k个升序链表25.k个一组翻转链表三，算法总结一， 链表常用技巧和操作总结有关链表的算法题也是一类常见并且经典的题…...

编程日记 2024/10/6 3:28:30

探索路由器静态IP的获取方式

在网络配置中，路由器静态IP是一个重要的概念。对于家庭网络或办公室网络而言，正确配置静态IP地址是确保网络稳定性和管理的关键步骤之一。但是，很多人对于静态IP地址的获取方式可能感到困惑。在本文中，我们将探讨它的获取途径&…...

编程日记 2024/10/6 3:26:27

Vivado - JTAG to AXI Master (GPIO、IIC、HLS_IP)

目录 1. 简介 2. JTAG to AXI Master 2.1 添加 IP Core 2.2 基本TCL命令 2.2.1 复位 JTAG-to-AXI Master 2.2.2 创建并运行写入传输事务 2.2.3 创建并运行读取传输事务 2.2.4 命令列表 2.3 帮助信息 2.4 创建TCL读写程序 2.4.1 Read proc 2.4.2 Write proc 2.4.3 …...

编程日记 2024/10/6 3:24:24

Java中JWT（JSON Web Token）的运用

目录 1. JWT的结构2. JWT的优点3. JWT的流转过程4.具体案例一、项目结构二、依赖配置三、用户模型四、JWT工具类五、JWT请求过滤器六、安全配置七、身份验证控制器八、测试JWT JWT（JSON Web Token）是一种开放标准（RFC 7519）&#…...

编程日记 2024/10/6 3:22:18

CSS3练习--电商web

免责声明：本文仅做分享！ 目录小练--小兔鲜儿目录构建 SEO 三大标签 Favicon 图标布局网页版心快捷导航（shortcut） 头部（header） logo 导航搜索购物车底部（footer&#xff0…...

编程日记 2024/10/6 3:20:16

Linux 默认内核版本更改

随笔记录目录 1. 背景介绍 2. 解决方法 2.1 查看所有可用版本 2.2 安装指定版本内核 2.3 检查当前内核列表 2.4 检查当前默认内核 2.5 设置新的默认内核 2.6 确认内核是否成功加载 2.7 重启 2.8 删除其他版本内核 1. 背景介绍 linux 一般安装多个内核版本&…...

编程日记 2024/10/6 3:18:14

【ubuntu】修改用户名、主机名、主文件夹名、登录名、密码

目录 1.他们是什么 2.修改方法 2.1 修改用户密码 2.2 修改主机名 2.2.1 切换到root用户 2.2.2 修改名称 2.3 修改用户名主文件夹名登录名 2.2.1 sudoers 2.2.2 passwd 2.2.3 shadow 2.2.4 group 2.2.5 修改主文件夹名 3.重启 1.他们是什么 （1&#xf…...

编程日记 2024/10/6 3:16:13

深入理解JavaScript 的原型继承

JavaScript 的原型链继承机制和 Java 的类继承机制有明显的区别，虽然它们都用于实现对象之间的继承，但它们的实现方式、概念以及运行机制都不同。 1. JavaScript 的原型继承 JavaScript 是基于原型链的继承，主要依赖对象的 __proto__ 属性或…...

编程日记 2024/10/6 3:14:11

Error while loading conda entry point: conda-libmamba-solver

问题解决方法 conda install --solverclassic conda-forge::conda-libmamba-solver conda-forge::libmamba conda-forge::libmambapy conda-forge::libarchive...

编程日记 2024/10/6 3:10:07

FANUC机器人—PCDK

前言 FANUC提供了一种使用其 PC 开发人员套件 （PCDK） 从 PC 命令和配置机器人的简单方法。该套件允许 PC 访问机器人上的变量、寄存器、IO、程序、位置和警报；接下来，我将如何开始使用 C#。连接到机器人将以下突出显示的行添加…...

编程日记 2024/10/6 3:09:06

寫一個名為bc4的文件，內容如下： #!/bin/sh /mnt/c/Program\ Files/Beyond\ Compare\ 4/BComp.com $(wslpath -aw $1) $(wslpath -aw $2)bc4 file1 file2參考：https://forum.scootersoftware.com/forum/beyond-compare-4-discussion/version-…...

编程日记 2024/10/6 3:08:05

CNN+Transformer在自然语言处理中的具体应用

在自然语言处理（NLP）领域，CNN（卷积神经网络）和Transformer架构各自有着广泛的应用。NLP中的具体应用： CNN在NLP中的应用 1.文本分类：CNN可以用于文本分类任务，如情感分析、垃圾邮件…...

编程日记 2024/10/6 3:02:57

DotNetty ChannelRead接收数据为null

问题：C#使用Dotnetty和Java netty服务器通讯，结果能正确发送数据到服务器，却始终接收不到服务器返回的数据。解决：一定一定要注意服务器和客户端使用的编码一定要完全一样才行我先前在客户端添加了StringDecoder,服务器却没有…...

编程日记 2024/10/6 2:58:53

3分钟学会下载 blender

1. blender简介 Blender是一款开源的3D创作套件，它由Blender Foundation维护，并得到了全球志愿者和专业开发者的支持。Blender广泛应用于3D模型的制作、动画、渲染、视频编辑、游戏创建、模拟、 composting以及3D打印等多个领域。功能特点&#xff1a…...

编程日记 2024/10/6 2:57:52

实现Xshell与虚拟机中Linux服务器的连接（附常见错误解决）

前言 Xshell是一个强大的安全终端模拟软件，它支持SSH1, SSH2, 以及Microsoft Windows 平台的TELNET 协议。Xshell 通过互联网到远程主机的安全连接以及它创新性的设计和特色帮助用户在复杂的网络环境中享受他们的工作。本文将介绍Xshell与虚拟机中Linux服务器连接…...

编程日记 2024/10/6 2:54:47

VIGOR：跨越“一对一”检索的理想假设，面向真实场景的跨视角地理定位数据集

一、数据集背景与开创性意义 VIGOR (Cross-View Image Geo-localization beyond One-to-one Retrieval) 是一个面向真实世界应用的全新大规模跨视角图像地理定位基准数据集，由 Sijie Zhu, Taojiannan Yang 和 Chen Chen 提出，相关论文发表于 CVPR 2021。…...

编程新知 2026/5/20 3:43:49

检索增强生成RAG基础架构与手动模拟

检索增强生成RAG基础什么是RAG? 检索增强生成(RAG)是指对大型语言模型输出进行优化，使其能够在生成响应之前引用训练数据来源之外的权威知识库。大型语言模型(LLM)用海量数据进行训练，使用数十亿个参数为回答问题、翻译语言和完成句子等任务生成原始输…...

编程新知 2026/5/20 2:14:55

别再被0.1+0.2≠0.3搞懵了！用Python和Java代码手把手拆解IEEE-754浮点数存储

浮点数精度之谜：用代码揭开0.10.2≠0.3的真相当你在Python控制台输入0.1 0.2时，得到的不是预期的0.3，而是0.30000000000000004。这个看似简单的数学运算为何会出现如此"诡异"的结果？本文将带你用Python和Java代码深入…...

编程新知 2026/5/20 1:01:40

为什么你的课程推荐越来越不准？Perplexity查询功能2024Q2算法升级内幕（附绕过冷启动限制的私有指令）

更多请点击： https://kaifayun.com 第一章：为什么你的课程推荐越来越不准？Perplexity查询功能2024Q2算法升级内幕（附绕过冷启动限制的私有指令） Perplexity 在 2024 年第二季度对课程推荐核心查询模块进行了深度重构&…...

编程新知 2026/5/20 0:18:51

Cadence Allegro 16.6 环境设置保姆级教程：从绘图参数到自动保存，新手避坑指南

Cadence Allegro 16.6 环境设置实战指南：从零配置到高效设计第一次打开Cadence Allegro 16.6时，满屏的菜单选项和参数设置可能会让新手感到无所适从。作为一款专业的PCB设计工具，Allegro提供了高度可定制的工作环境，但这也意味着…...

编程新知 2026/5/19 23:37:24

Spring AI 快速对接 AI 大模型（开箱即用）

一、项目准备（最简依赖）1. 创建 Spring Boot 项目推荐版本：Spring Boot 3.2.x JDK 版本：172. pom.xml 核心依赖<?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.o…...

编程新知 2026/5/19 22:59:55

【Perplexity医生信息搜索实战指南】：3大隐藏技巧让临床决策效率提升70%

更多请点击： https://kaifayun.com 第一章：Perplexity医生信息搜索实战指南概述 Perplexity 是一款基于大语言模型的智能搜索工具，其核心优势在于支持自然语言提问、实时联网检索与引用溯源。在医疗健康领域，尤其面向医生资质核查…...

编程新知 2026/5/19 22:28:26

高并发下是先写数据库，还是先写缓存？

前言数据库和缓存（比如：redis）双写数据一致性问题，是一个跟开发语言无关的公共问题。尤其在高并发的场景下，这个问题变得更加严重。我很负责的告诉你，该问题无论在面试，还是工作中遇到的概率…...

编程新知 2026/5/19 22:23:57

如何在Windows电脑上直接运行安卓应用：APK安装器终极解决方案

如何在Windows电脑上直接运行安卓应用：APK安装器终极解决方案【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否曾经希望在Windows电脑上直接运行安卓应…...

编程新知 2026/5/19 20:41:26

Taotoken多模型API助力MATLAB用户解决复杂建模问题

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度 Taotoken多模型API助力MATLAB用户解决复杂建模问题对于在MATLAB环境中进行算法开发与系统仿真的研究人员而言，日常工作…...

编程新知 2026/5/19 20:25:04

1. 详细步骤

1.1 安装 cuda 等 nvidia 依赖（非CUDA环境运行可跳过）

1.2 安装 llama.cpp (C/C++环境)

1.3 安装 llama-cpp (Python 环境)

1.4 转换 HF 模型为 GGUF 文件

1.5 GGUF 模型量化

1.6 GGUF 模型测试

2. 参考资料

2.1 llama.cpp

2.1.1 GitHub

官方页面

build

quantize

http server

2.2 NVIDIA DEVELOPER

CUDA Toolkit Archive

CUDA Toolkit 12.4: Ubuntu-22.04/24.04(x86_64)

3. 资源

3.1 llama.cpp

3.1.1 GitHub

Python Bindings for llama.cpp

3.2 NVIDIA DEVELOPER

官方页面

CUDA Toolkit

相关文章：