当前位置：首页 > news >正文

纯新手教程：用llama.cpp本地部署DeepSeek蒸馏模型

news 2026/2/11 4:05:15

0. 前言

llama.cpp是一个基于纯C/C++实现的高性能大语言模型推理引擎，专为优化本地及云端部署而设计。其核心目标在于通过底层硬件加速和量化技术，实现在多样化硬件平台上的高效推理，同时保持低资源占用与易用性。

最近DeepSeek太火了，就想用llama.cpp在本地部署一下试试效果，当然在个人电脑上部署满血版那是不可能的，选个小点的蒸馏模型玩一玩就好了。

1. 编译llama.cpp

首先从Github上下载llama.cpp的源码:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

llama.cpp支持多种硬件平台，可根据实际的硬件配置情况选择合适的编译参数进行编译，具体可以参考文档docs/build.md。

编译CPU版本

cmake -B build
cmake --build build --config Release -j 8

编译GPU版本

编译英伟达GPU版本需要先装好驱动和CUDA，然后执行下面的命令进行编译

cmake -B build -DGGML_CUDA=ON -DGGML_CUDA_ENABLE_UNIFIED_MEMORY=1
cmake --build build --config Release -j 8

编译完成后，可执行文件和库文件被存放在build/bin目录下。

2. 模型转换与量化

本文以DeepSeek R1的蒸馏模型DeepSeek-R1-Distill-Qwen-7B为例进行介绍。

2.1 模型下载与转换

首先从魔搭社区下载模型：

pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --local_dir DeepSeek-R1-Distill-Qwen-7B

下载好的模型是以HuggingFace的safetensors格式存放的，而llama.cpp使用的是GGUF格式，因此需要先要把模型转换为GGUF格式：

# 安装python依赖库
pip install -r requirements.txt
# 转换模型
python convert_hf_to_gguf.py DeepSeek-R1-Distill-Qwen-7B/

转换成功后，在该目录下会生成一个FP16精度、GGUF格式的模型文件DeepSeek-R1-Distill-Qwen-7B-F16.gguf。

2.2 模型量化

FP16精度的模型跑起来可能会有点慢，我们可以对模型进行量化以提升推理速度。

llama.cpp主要采用了分块量化（Block-wise Quantization）和K-Quantization算法来实现模型压缩与加速，其核心策略包括以下关键技术：

分块量化（Block-wise Quantization）
该方法将权重矩阵划分为固定大小的子块（如32或64元素为一组），每个子块独立进行量化。通过为每个子块分配独立的缩放因子（Scale）和零点（Zero Point），有效减少量化误差。例如，Q4_K_M表示每个权重用4比特存储，且子块内采用动态范围调整。
K-Quantization（混合精度量化）
在子块内部进一步划分更小的单元（称为“超块”），根据数值分布动态选择量化参数。例如，Q4_K_M将超块拆分为多个子单元，每个子单元使用不同位数的缩放因子（如6bit的缩放因子和4bit的量化值），通过混合精度平衡精度与压缩率。
重要性矩阵（Imatrix）优化
通过分析模型推理过程中各层激活值的重要性，动态调整量化策略。高重要性区域保留更高精度（如FP16），低重要性区域采用激进量化（如Q2_K），从而在整体模型性能损失可控的前提下实现高效压缩。
量化类型分级策略
提供Q2_K至Q8_K等多种量化级别，其中字母后缀（如_M、_S）表示优化级别：
- Q4_K_M：中等优化级别，平衡推理速度与精度（常用推荐）。
- Q5_K_S：轻量化级别，侧重减少内存占用
典型场景下，Q4_K_M相比FP16模型可减少70%内存占用，推理速度提升2-3倍，同时保持95%以上的原始模型精度。实际部署时需根据硬件资源（如GPU显存容量）和任务需求（如生成文本长度）选择量化策略。

执行下面的命令可将FP16精度的模型采用Q4_K_M的量化策略进行量化：

./build/bin/llama-quantize DeepSeek-R1-Distill-Qwen-7B/DeepSeek-R1-Distill-Qwen-7B-F16.gguf DeepSeek-R1-Distill-Qwen-7B/DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf Q4_K_M

量化完成后，模型文件由15.2G减少到4.7G。

3. 运行模型

模型量化完后，我们就可以运行模型来试试效果了。llama.cpp提供了多种运行模型的方式：

命令行方式

执行下面的命令就可以在命令行与模型进行对话了：

./build/bin/llama-cli -m DeepSeek-R1-Distill-Qwen-7B/DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf -cnv

HTTP Server方式

由于模型是以Markdown格式输出内容，因此用命令行的方式看着不太方便。llama.cpp还提供HTTP Server的方式运行，交互性要好很多。

首先在终端执行命令

./build/bin/llama-server -m DeepSeek-R1-Distill-Qwen-7B/DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf --port 8088

然后打开浏览器，输入地址http://127.0.0.1:8088就可以在网页上与模型进行交互了，非常方便！

纯新手教程：用llama.cpp本地部署DeepSeek蒸馏模型

0. 前言 llama.cpp是一个基于纯C/C实现的高性能大语言模型推理引擎，专为优化本地及云端部署而设计。其核心目标在于通过底层硬件加速和量化技术，实现在多样化硬件平台上的高效推理，同时保持低资源占用与易用性。最近DeepSeek太火了&#x…...

编程日记 2025/2/20 5:15:23

JDK 8+新特性（Stream API、Optional、模块化等）

JDK 8新特性（Stream API、Optional、模块化等） 一、Stream API 1.1 概述 Stream API 是 Java 8 引入的一个新的抽象概念，它允许以声明式的方式处理数据集合。Stream 不是一个数据结构，而是对数据源（如集合、数组等&…...

编程日记 2025/2/20 5:14:22

国产编辑器EverEdit - 独门暗器：自动监视剪贴板内容

1 监视剪贴板 1.1 应用场景如果需要对剪贴板的所有历史进行记录，并进行分析和回顾，则可以使用监视剪贴板功能，不仅在EverEdit中的复制会记录，在其他应用的复制也会记录。 1.2 使用方法新建一个空文档(重要：防止扰乱…...

编程日记 2025/2/20 5:13:20

贪心算法-买卖股票的最佳时机

买卖股票的最佳时机给定一个数组 prices ，它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的价格。你只能选择某一天买入这只股票，并选择在未来的某一个不同的日子卖出该股票。设计一个算法来计算你所能获取的最大利润。返回你可以从这笔交易…...

编程日记 2025/2/20 5:12:18

文本操作基础知识：正则表达式

目录摘要： 一、语法二、匹配模式pattern 1、普通字符[ ] 2、限定字符 3、定位字符 4、运算字符( ) 三、修饰符flags 四、各语言的正则使用 1、Python的re 参考资料： 摘要： 常用匹配：[A-C]、[^A-C]、\w、\d、\n、\r、…...

编程日记 2025/2/20 5:11:17

【Scrapy】Scrapy教程6——提取数据

前一小节我们拿到了页面的数据，那页面中那么多内容，我们想要其中的部分内容，该如何获取呢？这就需要对我们下载到的数据进行解析，提取出来想要的数据，这节就讲讲如何提取数据。引入我们编辑保存下来的shouye.html文件看下，发现这是什么鬼，全是如下图的代码。没错…...

编程日记 2025/2/20 5:08:14

PHP 网络编程介绍

PHP 学习资料 PHP 学习资料 PHP 学习资料在当今数字化时代，网络编程是开发各类应用必不可少的技能。PHP 作为一门广泛应用于 Web 开发的编程语言，同样具备强大的网络编程能力。接下来，我们将深入探讨 PHP 中网络连接的建立、Socket 编程、…...

编程日记 2025/2/20 5:06:12

【C语言】C语言食堂自动化管理系统（源码+数据文件）【独一无二】

👉博__主👈：米码收割机 👉技__能👈：C/Python语言 👉专__注👈：专注主流机器人、人工智能等相关领域的开发、测试技术。【C语言】C语言食堂自动化管理系统（源…...

编程日记 2025/2/20 5:02:07

mybatis存储过程返回list

在MyBatis中，要想通过调用存储过程返回一个List集合，你需要在Mapper接口中定义一个方法，并使用Param注解来传递存储过程的参数。同时，你需要在Mapper XML文件中配置相应的<select>标签，并指定statementType"…...

编程日记 2025/2/20 5:01:06

【vue】nodejs版本管理利器：nvm

nvm（Node Version Manager）即 Node 版本管理器，是一个用于在系统中轻松安装、管理和切换不同版本 Node.js 的工具。在实际开发中，不同的项目可能基于不同版本的 Node.js 构建。比如一个旧项目依赖于 Node.js 12.x 版本的特定功能…...

编程日记 2025/2/20 5:00:05

负载测试工具有哪些？

Apache JMeter Apache JMeter 是一款开源的性能测试工具，主要用于对 Web 应用程序进行功能、负载和压力测试。JMeter 支持多种协议和技术，包括 HTTP, HTTPS, FTP 和 WebSocket 等。通过模拟大量并发用户访问来评估应用程序的表现1。 jmeter -n -t testp…...

编程日记 2025/2/20 4:56:00

路由基础 | 路由引入实验 | 不同路由引入方式存在的问题

注：本文为 “路由基础 | 路由表 | 路由引入” 相关文章合辑。未整理去重。路由基本概念 1—— 路由表信息、路由进表以及转发流程、最长掩码匹配原则静下心来敲木鱼已于 2023-11-26 14:06:22 修改什么是路由路由就是指导报文转发的路径信息，可以…...

编程日记 2025/2/20 4:54:57

网络安全不分家网络安全不涉及什么

何为网络安全信息安全是指系统的硬件、软件及其信息受到保护，并持续正常运行和服务。信息安全的实质是保护信息系统和信息资源免受各种威胁、干扰和破坏，即保证信息的安全性。网络安全是指利用网络技术、管理和控制等措施，保证网络系统和…...

编程日记 2025/2/20 4:52:54

智能编程助手功能革新与价值重塑之：GitHub Copilot

引言： GitHub Copilot 的最新更新为开发者带来了显著变化，其中 Agent Mode 功能尤为引人注目。该模式能够自动识别并修复代码错误、自动生成终端命令，并具备多级任务推理能力，这使得开发者在开发复杂功能时，可大幅减少…...

编程日记 2025/2/20 4:49:51

wordpress企业官网建站的常用功能

WordPress 是一个功能强大的内容管理系统(CMS)，广泛用于企业官网的建设。以下是企业官网建站中常用的 WordPress 功能： 1. 页面管理自定义页面模板：企业官网通常需要多种页面布局，如首页、关于我们、产品展示、联系我们等。Wor…...

编程日记 2025/2/20 4:48:50

讯方·智汇云校华为官方授权培训机构

1.官方授权讯方智汇云校是华为领先级授权培训机构（华为授权培训合作伙伴（HALP）体系，分为认证、优选、领先三个等级，领先级是HALP最高级），代表着华为对培训合作伙伴在专业能力、师资队伍、合作…...

编程日记 2025/2/20 4:47:49

C语言中的文件

文章目录文件1. 流1.1 文件缓冲1.2 标准流1.3 文本文件和二进制文件 2. 打开/关闭文件2.1 fopen2.2 fclose 3. 读写文件3.1 fgetc & fputc3.2 fgets & futs3.3 fscanf & fprintf3.4 fread & fwrite 4. 文件定位5. 错误处理5.1 errno 文件 1. 流在 C 语言中…...

编程日记 2025/2/20 4:43:45

利用分治策略优化快速排序

1. 基本思想分治快速排序（Quick Sort）是一种基于分治法的排序算法，采用递归的方式将一个数组分割成小的子数组，并通过交换元素来使得每个子数组元素按照特定顺序排列，最终将整个数组排序。快速排序的基本步骤&#…...

编程日记 2025/2/20 4:39:38

前端工程化的具体实现细节

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…...

编程日记 2025/2/20 4:31:28

数据分析--数据清洗

一、数据清洗的重要性：数据质量决定分析成败 1.1 真实案例警示电商平台事故：2019年某电商大促期间，因价格数据未清洗导致错误标价，产生3000万元损失医疗数据分析：未清洗的异常血压值（如300mmHg&#xff…...

编程日记 2025/2/20 4:29:25

变量 varablie 声明- Rust 变量 let mut 声明与 C/C++ 变量声明对比分析

一、变量声明设计：let 与 mut 的哲学解析 Rust 采用 let 声明变量并通过 mut 显式标记可变性，这种设计体现了语言的核心哲学。以下是深度解析： 1.1 设计理念剖析安全优先原则：默认不可变强制开发者明确声明意图 let x 5; …...

编程新知 2025/9/28 20:12:12

2021-03-15 iview一些问题

1.iview 在使用tree组件时，发现没有set类的方法，只有get，那么要改变tree值，只能遍历treeData，递归修改treeData的checked，发现无法更改，原因在于check模式下，子元素的勾选状态跟父节…...

编程新知 2026/2/5 3:29:13

关于 WASM：1. WASM 基础原理

一、WASM 简介 1.1 WebAssembly 是什么？ WebAssembly（WASM） 是一种能在现代浏览器中高效运行的二进制指令格式，它不是传统的编程语言，而是一种低级字节码格式，可由高级语言（如 C、C、Rust&am…...

编程新知 2025/11/19 10:53:07

排序算法总结（C++）

目录一、稳定性二、排序算法选择、冒泡、插入排序归并排序随机快速排序堆排序基数排序计数排序三、总结一、稳定性排序算法的稳定性是指：同样大小的样本 **（同样大小的数据）**在排序之后不会改变原始的相对次序。稳定性对基础类型对象…...

编程新知 2026/2/10 5:05:24

快刀集(1): 一刀斩断视频片头广告

一刀流：用一个简单脚本，秒杀视频片头广告，还你清爽观影体验。 1. 引子作为一个爱生活、爱学习、爱收藏高清资源的老码农，平时写代码之余看看电影、补补片，是再正常不过的事。电影嘛，要沉浸，…...

编程新知 2026/1/8 0:40:27

宇树科技，改名了！

提到国内具身智能和机器人领域的代表企业，那宇树科技（Unitree）必须名列其榜。最近，宇树科技的一项新变动消息在业界引发了不少关注和讨论，即： 宇树向其合作伙伴发布了一封公司名称变更函称，因…...

编程新知 2026/1/28 9:44:45

webpack面试题

面试题：webpack介绍和简单使用一、webpack（模块化打包工具）1. webpack是把项目当作一个整体，通过给定的一个主文件，webpack将从这个主文件开始找到你项目当中的所有依赖文件，使用loaders来处理它们&#x…...

编程新知 2025/10/19 1:38:36

高抗扰度汽车光耦合器的特性

晶台光电推出的125℃光耦合器系列产品（包括KL357NU、KL3H7U和KL817U），专为高温环境下的汽车应用设计，具备以下核心优势和技术特点： 一、技术特性分析高温稳定性采用先进的LED技术和优化的IC设计，确保在…...

编程新知 2026/2/5 4:25:30

用js实现常见排序算法

以下是几种常见排序算法的 JS实现，包括选择排序、冒泡排序、插入排序、快速排序和归并排序，以及每种算法的特点和复杂度分析 1. 选择排序（Selection Sort） 核心思想：每次从未排序部分选择最小元素，与未排…...

编程新知 2025/9/25 19:59:14

react更新页面数据，操作页面，双向数据绑定

// 路由不是组件的直接跳转use client，useEffect，useRouter，需3个结合， use client表示客户端 use client; import { Button,Card, Space,Tag,Table,message,Input } from antd; import { useEffect,useState } from react; impor…...

编程新知 2026/1/31 6:40:35