LLM - 使用 HuggingFace + Ollama 部署最新大模型 (GGUF 格式 与 Llama 3.1)
欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/141028040
免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。

Ollama 是用于构建和运行大型语言模型(LLM)应用的开源工具,提供了一个简洁易用的命令行界面和服务器,让用户能够轻松下载、运行和管理各种开源 LLM,默认支持大量模型,如果是 HuggingFace 最新模型,或者自制模型,支持转换成 GGUF 格式,再进行调用。
1. 下载 Llama 3.1 8B Instruct 模型
Llama 3.1 包括两个版本,即 Llama 3.1 与 Llama 3.1 Instruct,主要区别在于训练目标和用途:
-
Llama 3.1 8B:基础模型,主要用于生成文本完成任务,接受输入提示并生成相应的文本,但没有特别针对指令或对话进行优化。
-
Llama 3.1 8B Instruct:在基础模型上进行指令微调的版本,专门针对指令跟随和多轮对话进行了优化,适用于助手型任务和更复杂的对话场景。这种微调使得在处理用户指令和对话时表现更好,更加自然和连贯。
参考:HuggingFace - Meta Llama

安装 HuggingFace 下载工具,使用镜像下载速度明显加快:
export HF_ENDPOINT="https://hf-mirror.com"
pip install -U huggingface_hub hf-transfer
以 Meta-Llama-3.1-8B-Instruct 为例,下载脚本,如下:
huggingface-cli download --token [your token] meta-llama/Meta-Llama-3.1-8B-Instruct --local-dir Meta-Llama-3.1-8B-Instruct
下载之前需要申请权限,Token 地址来源于:https://huggingface.co/settings/tokens,全部勾选即可生成。
2. HuggingFace 大模型转换成 GGUF 格式
GGUF (GPT-Generated Unified Format) 是专为大型语言模型设计的二进制文件格式,由 Georgi Gerganov 提出,目的是解决大模型在存储、加载、兼容性和扩展性方面的挑战。
主要特点和优势:
- 高效存储:优化了数据的存储方式,减少了存储空间的占用。
- 快速加载:支持快速加载模型数据,适用于需要即时响应的应用场景。
- 兼容性:提高了不同平台和框架之间的兼容性,使得模型可以在不同环境和硬件上无缝运行。
- 可扩展性:设计时考虑了未来的扩展性,以适应更大规模的模型和更复杂的数据结构。
GGUF 格式在 Hugging Face 等开源社区中广受欢迎,特别适用于大型模型的部署和分享。
工程:https://github.com/ggerganov/llama.cpp.git
下载与编译工程:
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
编译 make 完成的日志,如下:
OPENMP -DGGML_USE_LLAMAFILE -c examples/deprecation-warning/deprecation-warning.cpp -o examples/deprecation-warning/deprecation-warning.o
c++ -std=c++11 -fPIC -O3 -g -Wall -Wextra -Wpedantic -Wcast-qual -Wno-unused-function -Wmissing-declarations -Wmissing-noreturn -pthread -fopenmp -march=native -mtune=native -Wno-array-bounds -Wno-format-truncation -Wextra-semi -Iggml/include -Iggml/src -Iinclude -Isrc -Icommon -D_XOPEN_SOURCE=600 -D_GNU_SOURCE -DNDEBUG -DGGML_USE_OPENMP -DGGML_USE_LLAMAFILE examples/deprecation-warning/deprecation-warning.o -o main
NOTICE: The 'main' binary is deprecated. Please use 'llama-cli' instead.
c++ -std=c++11 -fPIC -O3 -g -Wall -Wextra -Wpedantic -Wcast-qual -Wno-unused-function -Wmissing-declarations -Wmissing-noreturn -pthread -fopenmp -march=native -mtune=native -Wno-array-bounds -Wno-format-truncation -Wextra-semi -Iggml/include -Iggml/src -Iinclude -Isrc -Icommon -D_XOPEN_SOURCE=600 -D_GNU_SOURCE -DNDEBUG -DGGML_USE_OPENMP -DGGML_USE_LLAMAFILE examples/deprecation-warning/deprecation-warning.o -o server
NOTICE: The 'server' binary is deprecated. Please use 'llama-server' instead.
将大语言模型由 HuggingFace 格式转换成 GGUF 格式:
python llama.cpp/convert_hf_to_gguf.py llm/Meta-Llama-3-8B/ --outfile Meta-Llama-3-8B.gguf
编译完成的
Meta-Llama-3-8B.gguf大约 15G 左右。
编写 modelfile 文件,vim Meta-Llama-3-8B.modelfile,需要修改 GGUF 的文件路径,其余保持不变,即:
FROM "./Meta-Llama-3-8B.gguf"
TEMPLATE "{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>{{ end }}<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
"
PARAMETER stop <|im_start|>
PARAMETER stop <|im_end|>
注意:modelfile之后的指令内容,必须保持一致,或者符合一定规则,否则 Ollama 运行时,回答混乱。
使用 Ollama 创建模型服务:
ollama create Meta-Llama-3-8B -f Meta-Llama-3-8B.modelfile
ollama list
其他模型的 modelfile,即:
ollama show --modelfile qwen:7b
输出如下:
# Modelfile generated by "ollama show"
# To build a new Modelfile based on this, replace FROM with:
# FROM qwen:7bFROM ollama_models/blobs/sha256-87f26aae09c7f052de93ff98a2282f05822cc6de4af1a2a159c5bd1acbd10ec4
TEMPLATE "{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>{{ end }}<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
"
PARAMETER stop <|im_start|>
PARAMETER stop <|im_end|>
# ...
Meta-Llama-3-8B 的输出如下:

Meta-Llama-3.1-8B-Instruct 的输出如下:

界面参考 Ollama + OpenWebUI,即 使用 Ollama + OpenWebUI 在 Linux 服务器中高效部署大语言模型
配置 Conda 环境,自动初始化 conda:
# >>> conda initialize >>>
# !! Contents within this block are managed by 'conda init' !!
__conda_setup="$('/opt/conda/bin/conda' 'shell.bash' 'hook' 2> /dev/null)"
if [ $? -eq 0 ]; theneval "$__conda_setup"
elseif [ -f "/opt/conda/etc/profile.d/conda.sh" ]; then. "/opt/conda/etc/profile.d/conda.sh"elseexport PATH="/opt/conda/bin:$PATH"fi
fi
unset __conda_setup
# <<< conda initialize <<<
构建 conda 环境:
conda create -n ollama-default python=3.9
下载最新版本的 PyTorch:

pip3 install torch=2.4.0 torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple
清华源的下载速度,明显快于阿里云的源。
测试:
pythonimport torch
print(torch.__version__) # 1.13.1
print(torch.cuda.is_available()) # True
exit()
参考:
- GitHub - Ollama Model File
- Ollama教程——进阶篇:【自定义模型】如何将模型高效导入到ollama框架
- Ollama + HuggingFace - by Sudarshan Koirala
相关文章:
LLM - 使用 HuggingFace + Ollama 部署最新大模型 (GGUF 格式 与 Llama 3.1)
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/141028040 免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。 Ollama…...
如何实现Redis和Mysql中数据双写一致性
在我们的实际开发中,我们用到了redis缓存一些常用的数据(如热点数据)用来提高系统的吞吐量。 但是不可以避免的出现了数据的修改场景,这就导致了数据库中的数据和Redis中出现不一致性的情况。如何保证数据一致性就显得非常重要了&…...
three.js 模型高亮效果实现说明(结合react)
three.js react 实现鼠标移入模型高亮选中效果 使用EffectComposer和其附加的渲染效果Passes(如RenderPass和OutlinePass)来实现高级渲染效果。首先创建EffectComposer实例,并添加RenderPass和OutlinePass,最后在渲染循环中调用…...
入营测评题解
第一题:first 第二题:chengji 打擂台,每个数跟当前最大、最小值比较,维护当前最值即可。 #include<bits/stdc.h> using lllong long; using namespace std;const int N1e610;int n; int x;//1e9, ll最大9e18 ll maxn0,minn…...
制造知识普及(十)-- 常见的工业软件介绍
「 1. ERP」 企业资源计划(enterprise resource planning,ERP)是制造企业的核心管理软件。ERP系统的基本思想是以销定产,协同管控企业的产、供、销、人、财、物等资源,帮助企业按照销售订单,基于产品的制造…...
Windows系统设置网络IPv4和IPv6优先访问级
Windows系统设置网络IPv4和IPv6优先访问级 资源宝整理分享:www.httple.net 在数字化的世界中,我们离不开互联网,而互联网协议(IP协议)则扮演着至关重要的角色。IPv4曾是互联网的主要标准,但随着IP地址枯竭问…...
yolov8 剪枝 - DepGraph
2024年8月5 5000张图片,2个类别。 yolov8n 初始: 185 layers, 3151904 parameters, 31936 gradients, 8.7 GFLOPs 经过三次finetune后: 185 layers, 2327024 parameters, 31936 gradients, 6.6 GFLOPs 经过第四次fintune后: …...
【网络】套接字socket编程预备知识
1.源IP地址和目的IP 计算机网络中的源地址和目的地址是用来标识网络中的不同主机的。 源地址是指发送数据包的主机的地址,而目的地址则是指接收数据包的主机的地址,在数据包传输过程中,每经过一个路中器感交换机,都会根据目的地址…...
【学习笔记】Day 8
写在开头: 最近老板突然提出一个全新的组会主题,是关于 “最近我犯的傻”,其目的在于提供乐子的同时引以为戒。本来我还在愁到底去哪里找干的啥事儿,结果今天直接拉了个大的。什么叫无心插柳柳成荫啊,悲。 一…...
springboot整合libreoffice(两种方式,使用本地和远程的libreoffice);docker中同时部署应用和libreoffice
一、 背景 因为项目中需要使用word转pdf功能,因为转换速度原因,最后选用了libreoffice,原因及部署请参考 linux ubuntu环境安装libreoffice,word转pdf 远程调用的话可选docker部署,请看2.3.1 二、springboot整合libr…...
从入门到精通:大学生编程技能提升全攻略
文章目录 每日一句正能量前言编程语言选择编程语言选择:为新手导航Python:初学者的友好伙伴JavaScript:Web开发的核心Java:企业级应用的经典C:系统编程的基石Ruby:优雅高效的编程Swift:iOS开发的…...
C# .NET Framework的特殊委托
C# .NET Framework的特殊委托 .NET Framework中定义了几种特殊的委托类型,以简化委托的使用。以下是一些常用的特殊委托类型: Predicate<T> 这是一个返回布尔值的委托,接受一个类型为T的参数。常用于定义过滤条件。 using System; …...
C# 判断电脑是否联网
项目中连接webAPI需要判断是否联网,故找到这个方法,不需要引用任何dll,代码复制一下,直接使用。wininet.dll是系统自带的 public void Initial(){try{ if (IsNetworkConnected){SvMaster.Log.WriteInfo("网络…...
爬虫解析代码结构
在设计中加入一个顶层接口是有益的,特别是当您希望实现统一的接口来处理所有类型的排行榜数据时。这样做可以提供更好的灵活性和扩展性,同时保持代码的整洁和易于维护。 设计概述 接口: 定义一个 RankingDataCollector 接口,它定义了所有数…...
day 23 进程间通信—管道
注意事项: 1、如果管道中至少有一个写端: 如果管道中有数据,直接读出 如果管道中没有数据,会阻塞等待直到有数据写入后读出 2、如果管道中没有写端: 如果管道中有数据,直接…...
Python酷库之旅-第三方库Pandas(073)
目录 一、用法精讲 296、pandas.Series.dt.as_unit方法 296-1、语法 296-2、参数 296-3、功能 296-4、返回值 296-5、说明 296-6、用法 296-6-1、数据准备 296-6-2、代码示例 296-6-3、结果输出 297、pandas.Series.dt.days属性 297-1、语法 297-2、参数 297-3、…...
使用easyexcel导出,发生了Exception: could not find acceptable repesentation
报错信息: 原因以及解决方案: 原因是我的代码使用Resp响应返回实体,其实使用EasyExcel导出已经设置了响应编码,导致重复了。 当你通过 HttpServletResponse 的输出流写入文件时,你已经直接控制了响应体。如果此时还尝…...
android display 笔记(五)HWC(Hardware Composer)
HWC 简单来说HWC是用来合成图形和显示图形的,可以把多个图形缓存传给硬件混合渲染器,让硬件混合渲染器执行合成操作,显示图形就是直接将图形缓存显示到屏幕。 android 14 /hardware/interfaces/graphics/composer/2.1/IComposer.hal 19 im…...
【模电笔记】——集成运算放大电路
tips:本章节的笔记已经打包到word文档里啦,建议大家下载文章顶部资源(有时看不到是在审核中,等等就能下载了。手机端下载后里面的插图可能会乱,建议电脑下载,兼容性更好且易于观看),…...
Android Studio Gradle多渠道打包
原理使用Android Studio打一次渠道包,用反编译工具反编译后,修改渠道信息重新编译 准备文件 分渠道配置文件:channel.txt ↓ # 多渠道配置里“统计平台”、“市场名称”、“渠道编号”分别代表什么意思? # 统计平台:…...
文本文件批量转 UTF-8 与「仅检测编码」操作备忘
需要在 Windows 桌面端对一批文本类文件统一编码或先摸清当前编码时,可以用【批量文件编码转换工具】。下文只记界面流程与注意点,不写检测与转换的实现细节。源路径支持拖入文件或文件夹、多次追加,也可用浏览菜单选文件夹、单文件或多文件。…...
效率提升秘籍:用快马AI一键生成可复用的课堂管理系统登录组件代码
在开发课堂管理系统这类教育软件时,登录模块往往是第一个需要实现的组件。传统手动编写方式不仅耗时,还容易遗漏关键细节。最近尝试用InsCode(快马)平台的AI生成功能,发现它能快速产出符合生产标准的代码,这里分享我的实践心得。 …...
Pixel Script Temple参数详解:LoRA秩(Rank)对剧本专业度与风格稳定性的权衡
Pixel Script Temple参数详解:LoRA秩(Rank)对剧本专业度与风格稳定性的权衡 1. 理解LoRA秩(Rank)的基本概念 1.1 什么是LoRA秩 LoRA(Low-Rank Adaptation)是一种高效的大模型微调技术&#x…...
.prettierrc 典型配置(通用版)
文章目录一、完整版标准配置(推荐)二、极简版配置(新手够用)三、常用配置项说明(一看就懂)四、配套使用(必看)五、总结.prettierrc 典型配置(通用版)是前端项…...
Qwen3.5-9B中微子:探测器结构理解+相互作用模拟+数据分析提示
Qwen3.5-9B中微子:探测器结构理解相互作用模拟数据分析提示 1. 项目概述 Qwen3.5-9B是一款拥有90亿参数的开源大语言模型,具备强大的逻辑推理、代码生成和多轮对话能力。该模型支持多模态理解(图文输入)和长上下文处理ÿ…...
C语言编译器工具集终极指南:从GCC、Clang到现代编译技术
C语言编译器工具集终极指南:从GCC、Clang到现代编译技术 【免费下载链接】awesome-c A curated list of awesome C frameworks, libraries, resources and other shiny things. Inspired by all the other awesome-... projects out there. 项目地址: https://git…...
GLM-OCR嵌入式部署轻量化实践:从服务器到边缘设备的模型压缩
GLM-OCR嵌入式部署轻量化实践:从服务器到边缘设备的模型压缩 最近在做一个智能零售柜的项目,需要实时识别商品包装上的文字信息。一开始我们用的是云端API,识别效果确实不错,但网络延迟和稳定性成了大问题——有时候网络一波动&a…...
FireRedASR-AED-L效果实测:微信语音转文字→长语音断句与上下文连贯性
FireRedASR-AED-L效果实测:微信语音转文字→长语音断句与上下文连贯性 你是不是也遇到过这种情况?微信里收到一段长达5分钟的语音消息,点开听吧,太费时间;不听吧,又怕错过重要信息。更让人头疼的是&#x…...
OpenClaw代码审查助手:Qwen2.5-VL-7B生成带示意图的代码优化建议
OpenClaw代码审查助手:Qwen2.5-VL-7B生成带示意图的代码优化建议 1. 为什么需要AI代码审查助手 作为开发者,我每天都要面对大量的代码审查工作。传统的人工CR(Code Review)过程往往耗时费力,尤其是当项目规模扩大后&…...
Qwen3.5推理模型效果实测:分步骤解题、结构化分析惊艳展示
Qwen3.5推理模型效果实测:分步骤解题、结构化分析惊艳展示 1. 模型核心能力概览 Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF作为一款专精推理的蒸馏模型,在结构化问题解决方面展现出独特优势。经过实测,其核心能力可归纳为三个维…...
