当前位置：首页 > article >正文

Xinference大模型配置介绍并通过git-lfs、hf-mirror安装

article 2026/3/9 14:35:54

在这里插入图片描述

文章目录

一、Xinference开机服务systemd
二、语言（LLM）模型
- 2.1 配置介绍
- 2.2 DeepSeek-R1-Distill-Qwen-32B（大杯）
- - 工具下载git-lfs（可以绕过Hugging Face）
- 2.3 DeepSeek-R1-Distill-Qwen-32B-Q4_K_M-GGUF（小杯）
三、嵌入（Embedding）模型
- 3.1 安装BAAI/bge-large-zh-v1.5
四、重排序（Rerank）模型
- 4.1 git
- 4.2 wget
五、接入dify
六、多模态模型支持

通过HF-Mirror镜像wget下载，常用的模型。

一、Xinference开机服务systemd

使用 systemd（适用于服务器长期运行）

创建 systemd 服务：

sudo vi /etc/systemd/system/xinference.service

填入：

[Unit]
Description=Xinference Service
After=network.target[Service]
ExecStart=/root/anaconda3/envs/xinference_env/bin/xinference --host 0.0.0.0 --port 9997
WorkingDirectory=/root
Restart=always
User=root[Install]
WantedBy=multi-user.target

重新加载 systemd 并启动服务：

sudo systemctl daemon-reload
sudo systemctl start xinference
sudo systemctl enable xinference  # 开机自启

查看日志：

sudo journalctl -u xinference -f

停止服务：

sudo systemctl stop xinference

二、语言（LLM）模型

2.1 配置介绍

模型引擎

在这里插入图片描述

分别是：

Transformers
- 依赖 Hugging Face Transformers 库，适用于标准 PyTorch 或 TensorFlow 部署，通常兼容性较好，支持多种硬件加速（如 GPU）。
vLLM
- 适用于高吞吐量推理，利用 PagedAttention 进行优化，推荐用于大规模推理场景，减少显存占用。
SGLang
- 可能是专门优化的推理引擎，具体表现需要查看官方文档或测试。
llama.cpp
- 适用于 CPU 运行，优化了低资源设备上的 LLM 推理，适合本地运行或嵌入式环境。

选择建议：

高性能 GPU 推理：vLLM
通用部署（PyTorch / TensorFlow 支持）：Transformers
低资源或本地运行（CPU 推理）：llama.cpp
特定优化需求：SGLang（需要进一步了解其特点）

模型格式

在这里插入图片描述

现在的 模型格式 选项增加了 gptq，它与 awq 一样是 量化推理优化 方案，但两者在优化策略上有所不同：

pytorch
- 原生 PyTorch 格式，未量化，最高精度但占用更多显存。
- 适用于 高精度推理，但对硬件要求较高。
awq (Activation-aware Weight Quantization)
- 量化方案，主要优化 激活值感知权重量化，可以减少推理时的计算开销，同时保持较高的精度。
- 适用于 低显存 GPU 或高吞吐场景，如 vLLM 和 llama.cpp。
- 更适合多种硬件，特别是 NVIDIA GPU 运行。
gptq (Generalized Post-Training Quantization)
- 另一种 后训练量化 方法，目标是 最小化量化误差，尤其对 Transformer 模型进行优化。
- GPTQ 量化后的模型通常比 AWQ 更轻量，适用于 极限压缩场景（如 4-bit GPTQ）。
- 适用于 低功耗设备 或 超大模型的轻量化部署。

选择建议：

如果显存足够，追求最佳模型精度 → pytorch
如果需要在低显存 GPU（如 24GB 以内）高效推理 → awq
如果显存极其受限（如 16GB 或更低），或需要极端优化 → gptq

如果你打算在 Deepseek 上 高效部署一个大模型，建议选择 awq 或 gptq。

2.2 DeepSeek-R1-Distill-Qwen-32B（大杯）

工具下载git-lfs（可以绕过Hugging Face）

解决方案：安装 git-lfs

你需要先安装 git-lfs，然后才能正确克隆和下载模型。

步骤 1：安装 git-lfs

根据你的系统类型选择对应的安装方法：

Ubuntu / Debian

apt update && apt install -y git-lfs

CentOS / RHEL

yum install -y epel-release
yum install -y git-lfs

Mac (如果你在本地 Mac 运行)

brew install git-lfs

Windows（如果你在 Windows 本地）
直接去官网下载安装：https://git-lfs.github.com/

步骤 2：启用 git-lfs

安装完成后，执行：

git lfs install

如果成功，你会看到：

Git LFS initialized.

步骤 3：克隆模型

git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B.git

然后进入目录：

cd DeepSeek-R1-Distill-Qwen-32B
ls -lh

如果 .safetensors 还没有下载完整，执行：

git lfs pull

这将确保所有 LFS 文件正确下载。

当然可能git: ‘lfs’ is not a git command. See ‘git --help’.

问题分析
系统 无法安装 git-lfs，因为 apt update 过程中出现了 GPG 错误 和 无法解析某些仓库地址 的问题：

NO_PUBKEY A4B469963BF863CC
- 说明你的系统缺少 NVIDIA CUDA 仓库的 GPG 公钥。
Could not resolve 'mirror.rightscale.com'
- 这个仓库地址已经不可用或 DNS 解析失败。

解决方案

1. 先修复 apt update 失败的问题

① 删除无效的 RightScale 仓库

sudo rm -f /etc/apt/sources.list.d/rightscale*

② 添加缺失的 NVIDIA 公钥

sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pub

③ 再次更新 apt

sudo apt update

2. 安装 git-lfs
如果 apt update 修复成功，你可以尝试：

sudo apt install -y git-lfs

安装完成后，运行：

git lfs install

如果成功，你会看到：

Git LFS initialized.

3. 如果 apt 仍然无法安装 git-lfs，尝试手动安装

① 下载 Git LFS 安装包

wget https://github.com/git-lfs/git-lfs/releases/latest/download/git-lfs-linux-amd64.tar.gz

② 解压并安装

tar -xvzf git-lfs-linux-amd64.tar.gz
sudo ./install.sh

③ 验证安装

git lfs --version

④ 启用 Git LFS

git lfs install

最终测试

如果 git-lfs 安装成功，你可以尝试重新克隆模型：

git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B.git
cd DeepSeek-R1-Distill-Qwen-32B
git lfs pull

如果下载仍然不完整，可以尝试 wget 或 aria2c 下载 .safetensors 文件。

在这里插入图片描述

下载很慢，下完还要等一会，因此建议用宝塔（两个网页），方便看情况

在这里插入图片描述

下载完后，.git会很大
在这里插入图片描述
如果只是使用模型，直接删除 .git 目录 ✅
如果还想更新模型，建议保留 .git 目录 🔄
如果要节省空间但保留 git-lfs 更新能力，可精简 .git 目录 🛠
Xinference配置：GPU索引根据机器情况设置。

！！！大模型启动较慢，且Xinference用网页打开有缓存问题，因此不要着急。
在这里插入图片描述

2.3 DeepSeek-R1-Distill-Qwen-32B-Q4_K_M-GGUF（小杯）

通过hf-mirror

wget https://hf-mirror.com/roleplaiapp/DeepSeek-R1-Distill-Qwen-32B-Q4_K_M-GGUF/resolve/main/deepseek-r1-distill-qwen-32b-q4_k_m.gguf

三、嵌入（Embedding）模型

嵌入（Embedding）模型，选择合适的模型取决于你的具体需求，例如 语言支持、维度大小、最大 token 数 和 应用场景。以下是对比分析：
在这里插入图片描述

模型对比分析

模型名称	语言支持	维度	最大 Token 数	适用场景
bge-large-zh-v1.5	中文	1024	512	适用于中文语义搜索、文本匹配
bge-large-en-v1.5	英文	1024	512	适用于英文文本匹配
bge-m3	中文+英文	1024	8192	适用于多语言检索，支持更长文本
gte-Qwen2	中文+英文	3584	32000	适用于大规模检索、高质量向量表示
jina-embeddings-v3	中文+英文	1024	8192	适用于跨语言检索、语义匹配

推荐选择

如果你的任务是中文语义检索
- 选择 bge-large-zh-v1.5，它是专门针对中文优化的。
如果是英文语义检索
- 选择 bge-large-en-v1.5，它是英文版本的最佳选择。
如果需要中英混合检索，且输入文本较短
- 选择 bge-m3，支持多语言，最大 token 数较大。
如果是超长文本、高精度应用（如搜索引擎）
- 选择 gte-Qwen2，它的 维度 更高（3584），最大 token 也更长（32000）。
如果是跨语言检索
- 选择 jina-embeddings-v3，在多语言场景下表现不错。

总结

轻量级中文嵌入：bge-large-zh-v1.5
轻量级英文嵌入：bge-large-en-v1.5
通用多语言支持：bge-m3
高性能长文本支持：gte-Qwen2
跨语言匹配：jina-embeddings-v3

如果你的应用场景是 大规模检索、向量数据库存储（如 FAISS），那么 gte-Qwen2 或 bge-m3 是更好的选择。

如果仅是 普通文本匹配或短文本搜索，bge-large-zh-v1.5（中文）或 bge-large-en-v1.5（英文）就足够了。

3.1 安装BAAI/bge-large-zh-v1.5

git clone https://hf-mirror.com/BAAI/bge-large-zh-v1.5.git

四、重排序（Rerank）模型

4.1 git

git clone https://hf-mirror.com/BAAI/bge-reranker-v2-m3.git

4.2 wget

你可以按照以下步骤在 /usr/local 目录下新建文件夹，并下载模型：

创建目录并赋权

sudo mkdir -p /usr/local/models/bge-reranker-v2-m3
sudo chmod -R 777 /usr/local/models/bge-reranker-v2-m3
cd /usr/local/models/bge-reranker-v2-m3

使用 wget 从 HF Mirror 下载模型

wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/model.safetensors
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/sentencepiece.bpe.model
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/config.json
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/tokenizer.json
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/tokenizer_config.json
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/special_tokens_map.json

-c 选项用于支持断点续传，防止下载中断后需要重新开始。

检查下载文件的大小

ls -lh /usr/local/models/bge-reranker-v2-m3

确认 model.safetensors 大小是否接近 2.27 GB，其余文件大小也要和 HF Mirror 网站上保持一致。

修改 Xinference 配置

在 Xinference 的模型路径参数中，填写：

/usr/local/models/bge-reranker-v2-m3

然后重新加载模型。

这样，你的 bge-reranker-v2-m3 模型应该就能正确运行了！ 🚀

五、接入dify

以上就是常用的大模型了，我们可以介入dify使用了。

在这里插入图片描述

六、多模态模型支持

FLUX.1-dev

git clone https://hf-mirror.com/black-forest-labs/FLUX.1-dev.git
cd FLUX.1-dev
git lfs pull

以下是支持的，可去自行探索；hf-mirror
在这里插入图片描述

Xinference大模型配置介绍并通过git-lfs、hf-mirror安装

文章目录一、Xinference开机服务systemd二、语言（LLM）模型2.1 配置介绍2.2 DeepSeek-R1-Distill-Qwen-32B（大杯）工具下载git-lfs（可以绕过Hugging Face） 2.3 DeepSeek-R1-Distill-Qwen-32B-Q4_K_M-GGUF&am…...

编程日记 2026/3/6 18:36:02

Python游戏开发自学指南：从入门到实践（第四天）

Python不仅适用于数据分析、Web开发和自动化脚本，还可以用于游戏开发！虽然Python不是传统意义上的游戏开发语言，但其简洁的语法和丰富的库使其成为初学者学习游戏开发的绝佳选择。本文将为你提供一份全面的Python游戏开发自学指南&#xff0c…...

编程日记 2026/2/26 0:54:19

0x04.若依框架微服务开发（含AI模块运行）

微服务本地开发硬件资源有限，所以会将核心微服务组件先部署在服务器上比如：mysql，redis，注册中心Nacos，网关Gateway，认证中心Auth和upms模块以及低代码生成模块。 mysql、redis部署前篇已讲，这…...

编程日记 2026/3/4 16:09:17

判断是不是二叉搜索树（C++）

目录 1 问题描述 1.1 示例1 1.2 示例2 2 解题思路 3 代码实现 4 代码解析 4.1 中序遍历函数 inorder 4.2 主函数 isValidBST 初始化及中序遍历调用 4.3 检查数组中元素是否严格递增 4.4 返回验证结果 5 总结 1 问题描述给定一个二叉树根节点，请你判断…...

编程日记 2026/3/8 5:52:43

Shell条件判断

一、使用if选择结构 if单分支的语法组成： if 条件测试;then 命令序列 fi if双分支的语法组成： if 条件测试;then 命令序列1 else 命令序列2 fi if多分支的语法组成： if 条…...

编程日记 2026/3/5 22:01:54

自动化爬虫drissionpage

自动化爬虫drissionpage官网自动化测试框架：DrissionPage DrissionPage调用工具汇总网络爬虫工具比较-DrissionPage、Selenium、Playwright...

编程日记 2026/3/4 8:46:31

Linux--gdb/cgdb

ok，我们今天学习gdb的安装和使用调试器-gdb/cgdb使用 VS、VScode编写的代码一般都是release格式的，gdb 的格式一般是debug 换成debug模式命令 :-g gdb会记录最新的一条命令，直接回车就是默认执行该命令一个调试周期下，断点…...

编程日记 2026/3/7 13:32:24

超精密工件小孔几何尺寸测量：自动化解决方案

下载链接：（最新版本）超精密工件小孔几何尺寸测量：自动化解决方案python脚本代码，可直接运行，内包含测试数据，亲测好用资源-CSDN文库在现代制造业中，超精密工件的质量控制至关重要&a…...

编程日记 2026/3/7 11:04:06

Blender-MCP服务源码1-项目解读

Blender-MCP服务源码有个大佬做了一个Blender-MCP源码，第一次提交代码是【2025年3月7号】今天是【2025年月15日】也就是刚过去一周的时间，所以想从0开始学习这个代码，了解一下大佬们的开发思路 1-核心知识点 1）第一版&#xff1…...

编程日记 2026/3/4 0:58:14

小程序配置

注册小程序账号和安装开发工具参考文档：注册小程序账号和安装开发工具https://blog.csdn.net/aystl_gss/article/details/127878658 HBuilder新建项目填写项目名称，选择UNI-APP，修改路径，点击创建 manifest.json 配置需要分别…...

编程日记 2026/3/9 5:53:35

Ubuntu 下 nginx-1.24.0 源码分析 - ngx_conf_read_token-CSDN博客 static ngx_int_t ngx_conf_read_token(ngx_conf_t *cf) {u_char *start, ch, *src, *dst;off_t file_size;size_t len;ssize_t n, size;ngx_uint_t found, need_space, last_space…...

编程日记 2026/2/26 13:52:56

esProc SPL vs DuckDB：多源数据处理谁更胜一筹？

DuckDB 和 esProc SPL 都支持多样数据源处理，这里比较一下两者的差异。支持的数据源种类 DuckDB 支持的数据源类型覆盖了常见的文件格式（如 CSV、Parquet、JSON、Excel）、云存储（如 AWS S3、Azure Blob Storage）以及…...

编程日记 2026/2/28 9:52:39

基于Python的selenium入门超详细教程(第1章)--WebDriver API篇

学习路线自动化测试介绍及学习路线-CSDN博客自动化测试之Web自动化（基于pythonselenium）-CSDN博客参照博文：selenium入门超详细教程——网页自动化操作-CSDN博客目录前言一、WebDriver API介绍 1.1 什么是WebDriver? 1.2 工…...

编程日记 2026/3/3 6:04:07

每日Attention学习26——Dynamic Weighted Feature Fusion

模块出处 [ACM MM 23] [link] [code] Efficient Parallel Multi-Scale Detail and Semantic Encoding Network for Lightweight Semantic Segmentation 模块名称 Dynamic Weighted Feature Fusion (DWFF) 模块作用双级特征融合模块结构模块思想我们提出了 DWFF 策略&am…...

编程日记 2026/2/28 0:00:46

接上一篇，C++中，如何设计等价于Qt的信号与槽机制。

看下面例子： class FileManager : public QObject {Q_OBJECTpublic:FileManager(QObject* parent nullptr) : QObject(parent) {}void changeFileName(const QString& newName) {fileName newName;emit fileNameChanged(fileName);}signals:void fileNameChan…...

编程日记 2026/2/28 7:10:11

Spring(6）——Spring、Spring Boot 与 Spring MVC 的关系与区别

Spring、Spring Boot 与 Spring MVC 的关系与区别 1. 核心定位 Spring 定位：基础框架，提供 IoC（控制反转） 和 DI（依赖注入） 核心功能，管理对象生命周期及依赖关系。功能：支持事务管…...

编程日记 2026/2/22 22:07:13

安装baselines出现的环境配置问题

该错误通常是由于环境配置问题、依赖包缺失、权限不足等原因导致 1. 更新相关工具 pip install --upgrade pip setuptools 2. 检查并安装依赖 conda install setuptools pip wheel 出现新问题： 3.尝试使用 Conda 安装 conda install mpi4py 再尝试安装 baseli…...

编程日记 2026/3/2 22:24:12

【商城实战(38)】Spring Boot：从本地事务到分布式事务，商城数据一致性的守护之旅

【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用 uniapp、Element Plus、SpringBoot 搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配&#xf…...

编程日记 2025/12/2 18:32:24

当今前沿技术：人工智能与区块链的未来发展

在如今快速发展的科技时代，各种前沿技术正在改变的生活。人工智能AI）就是其中之一。它在医疗、金融、制造等多个领域发挥着巨大作用。AI可以分析数据，识别模式，还能辅助决策。比如，在医疗方面，AI帮助医生更…...

编程日记 2026/3/2 13:25:00

perl的package中“Subroutine new redefined”问题

我在一个脚本run_PMseq.V8.pl调用了一些.pm文件 $perl -c run_PMseq.V8.pl Subroutine new redefined at /mnt/lustre/user/wubin/01.Program/Scripts/01.script/GeneLab/PMSeq/package_V3/Add_mismatch.pm line 25. Subroutine generate_shell redefined at /mnt/lustre/use…...

编程日记 2026/3/7 22:30:00

markdown 转 word 工具 ‌Pandoc‌

‌Pandoc‌是一个开源的文档转换工具，由John MacFarlane开发，旨在提供一个通用的文档转换解决方案。它支持多种输入和输出格式，能够高效地将不同格式的文档进行转换‌ 功能 Pandoc支持以下格式之间的转换： **Markdown、reStruct…...

编程日记 2026/2/16 12:19:47

英语学习(GitHub学到的分享)

【英语语法：https://github.com/hzpt-inet-club/english-note】【离谱的英语学习指南：https://github.com/byoungd/English-level-up-tips/tree/master】【很喜欢文中的一句话：如果我轻轻松松的学习，生活的幸福指数会提高很多…...

编程日记 2026/3/2 12:09:20

【eNSP实战】三层交换机使用ACL实现网络安全

拓图要求： vlan1可以访问Internetvlan2和vlan3不能访问Internet和vlan1vlan2和vlan3之间可以互相访问PC配置如图所示，这里不展示 LSW1接口vlan配置 vlan batch 10 20 30 # interface Vlanif1ip address 192.168.40.2 255.255.255.0 # interface Vla…...

编程日记 2026/3/2 22:24:22

Javascript BOM,DOM 知识简介

JSON 一种数据交换格式,作为数据载体,传输数据, Json比xml 更简单,可读性更高.js的对象和Json可以相互转换. //json定义格式: var varName{"key1":value1,"key2":value2};value的数据类型为数字,字符串(在双引号中),布尔值,数组(在方括号中),对象(在花括…...

编程日记 2026/3/2 22:28:58