Xinference大模型配置介绍并通过git-lfs、hf-mirror安装

文章目录
- 一、Xinference开机服务systemd
- 二、语言(LLM)模型
- 2.1 配置介绍
- 2.2 DeepSeek-R1-Distill-Qwen-32B(大杯)
- 工具下载git-lfs(可以绕过Hugging Face)
- 2.3 DeepSeek-R1-Distill-Qwen-32B-Q4_K_M-GGUF(小杯)
- 三、嵌入(Embedding)模型
- 3.1 安装BAAI/bge-large-zh-v1.5
- 四、重排序(Rerank)模型
- 4.1 git
- 4.2 wget
- 五、接入dify
- 六、多模态模型支持
通过HF-Mirror镜像wget下载,常用的模型。
一、Xinference开机服务systemd
使用 systemd(适用于服务器长期运行)
- 创建 systemd 服务:
sudo vi /etc/systemd/system/xinference.service
填入:
[Unit]
Description=Xinference Service
After=network.target[Service]
ExecStart=/root/anaconda3/envs/xinference_env/bin/xinference --host 0.0.0.0 --port 9997
WorkingDirectory=/root
Restart=always
User=root[Install]
WantedBy=multi-user.target
- 重新加载
systemd并启动服务:
sudo systemctl daemon-reload
sudo systemctl start xinference
sudo systemctl enable xinference # 开机自启
- 查看日志:
sudo journalctl -u xinference -f
- 停止服务:
sudo systemctl stop xinference
二、语言(LLM)模型
2.1 配置介绍
模型引擎

分别是:
-
Transformers
- 依赖
Hugging Face Transformers库,适用于标准 PyTorch 或 TensorFlow 部署,通常兼容性较好,支持多种硬件加速(如 GPU)。
- 依赖
-
vLLM
- 适用于高吞吐量推理,利用 PagedAttention 进行优化,推荐用于大规模推理场景,减少显存占用。
-
SGLang
- 可能是专门优化的推理引擎,具体表现需要查看官方文档或测试。
-
llama.cpp
- 适用于 CPU 运行,优化了低资源设备上的 LLM 推理,适合本地运行或嵌入式环境。
选择建议:
- 高性能 GPU 推理:
vLLM - 通用部署(PyTorch / TensorFlow 支持):
Transformers - 低资源或本地运行(CPU 推理):
llama.cpp - 特定优化需求:
SGLang(需要进一步了解其特点)
模型格式

现在的 模型格式 选项增加了 gptq,它与 awq 一样是 量化推理优化 方案,但两者在优化策略上有所不同:
-
pytorch
- 原生
PyTorch格式,未量化,最高精度但占用更多显存。 - 适用于 高精度推理,但对硬件要求较高。
- 原生
-
awq (Activation-aware Weight Quantization)
- 量化方案,主要优化 激活值感知权重量化,可以减少推理时的计算开销,同时保持较高的精度。
- 适用于 低显存 GPU 或高吞吐场景,如
vLLM和llama.cpp。 - 更适合多种硬件,特别是
NVIDIAGPU 运行。
-
gptq (Generalized Post-Training Quantization)
- 另一种 后训练量化 方法,目标是 最小化量化误差,尤其对 Transformer 模型进行优化。
GPTQ量化后的模型通常比AWQ更轻量,适用于 极限压缩场景(如4-bit GPTQ)。- 适用于 低功耗设备 或 超大模型的轻量化部署。
选择建议:
- 如果显存足够,追求最佳模型精度 →
pytorch - 如果需要在低显存 GPU(如 24GB 以内)高效推理 →
awq - 如果显存极其受限(如 16GB 或更低),或需要极端优化 →
gptq
如果你打算在 Deepseek 上 高效部署一个大模型,建议选择 awq 或 gptq。
2.2 DeepSeek-R1-Distill-Qwen-32B(大杯)
工具下载git-lfs(可以绕过Hugging Face)
解决方案:安装
git-lfs
你需要先安装 git-lfs,然后才能正确克隆和下载模型。
步骤 1:安装
git-lfs
根据你的系统类型选择对应的安装方法:
Ubuntu / Debian
apt update && apt install -y git-lfs
CentOS / RHEL
yum install -y epel-release
yum install -y git-lfs
Mac (如果你在本地 Mac 运行)
brew install git-lfs
Windows(如果你在 Windows 本地)
直接去官网下载安装:https://git-lfs.github.com/
步骤 2:启用
git-lfs
安装完成后,执行:
git lfs install
如果成功,你会看到:
Git LFS initialized.
步骤 3:克隆模型
git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B.git
然后进入目录:
cd DeepSeek-R1-Distill-Qwen-32B
ls -lh
如果 .safetensors 还没有下载完整,执行:
git lfs pull
这将确保所有 LFS 文件正确下载。
当然可能git: ‘lfs’ is not a git command. See ‘git --help’.
问题分析
系统 无法安装 git-lfs,因为 apt update 过程中出现了 GPG 错误 和 无法解析某些仓库地址 的问题:
NO_PUBKEY A4B469963BF863CC- 说明你的系统缺少 NVIDIA CUDA 仓库的 GPG 公钥。
Could not resolve 'mirror.rightscale.com'- 这个仓库地址已经不可用或 DNS 解析失败。
解决方案
1. 先修复
apt update失败的问题
① 删除无效的 RightScale 仓库
sudo rm -f /etc/apt/sources.list.d/rightscale*
② 添加缺失的 NVIDIA 公钥
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pub
③ 再次更新 apt
sudo apt update
2. 安装 git-lfs
如果 apt update 修复成功,你可以尝试:
sudo apt install -y git-lfs
安装完成后,运行:
git lfs install
如果成功,你会看到:
Git LFS initialized.
3. 如果
apt仍然无法安装git-lfs,尝试手动安装
① 下载 Git LFS 安装包
wget https://github.com/git-lfs/git-lfs/releases/latest/download/git-lfs-linux-amd64.tar.gz
② 解压并安装
tar -xvzf git-lfs-linux-amd64.tar.gz
sudo ./install.sh
③ 验证安装
git lfs --version
④ 启用 Git LFS
git lfs install
最终测试
如果 git-lfs 安装成功,你可以尝试重新克隆模型:
git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B.git
cd DeepSeek-R1-Distill-Qwen-32B
git lfs pull
如果下载仍然不完整,可以尝试 wget 或 aria2c 下载 .safetensors 文件。

下载很慢,下完还要等一会,因此建议用宝塔(两个网页),方便看情况



下载完后,.git会很大

如果只是使用模型,直接删除 .git 目录 ✅
如果还想更新模型,建议保留 .git 目录 🔄
如果要节省空间但保留 git-lfs 更新能力,可精简 .git 目录 🛠
Xinference配置:GPU索引根据机器情况设置。
!!! 大模型启动较慢,且Xinference用网页打开有缓存问题,因此不要着急。

2.3 DeepSeek-R1-Distill-Qwen-32B-Q4_K_M-GGUF(小杯)
通过hf-mirror
wget https://hf-mirror.com/roleplaiapp/DeepSeek-R1-Distill-Qwen-32B-Q4_K_M-GGUF/resolve/main/deepseek-r1-distill-qwen-32b-q4_k_m.gguf
三、嵌入(Embedding)模型
嵌入(Embedding)模型,选择合适的模型取决于你的具体需求,例如 语言支持、维度大小、最大 token 数 和 应用场景。以下是对比分析:

模型对比分析
| 模型名称 | 语言支持 | 维度 | 最大 Token 数 | 适用场景 |
|---|---|---|---|---|
| bge-large-zh-v1.5 | 中文 | 1024 | 512 | 适用于中文语义搜索、文本匹配 |
| bge-large-en-v1.5 | 英文 | 1024 | 512 | 适用于英文文本匹配 |
| bge-m3 | 中文+英文 | 1024 | 8192 | 适用于多语言检索,支持更长文本 |
| gte-Qwen2 | 中文+英文 | 3584 | 32000 | 适用于大规模检索、高质量向量表示 |
| jina-embeddings-v3 | 中文+英文 | 1024 | 8192 | 适用于跨语言检索、语义匹配 |
推荐选择
-
如果你的任务是中文语义检索
- 选择
bge-large-zh-v1.5,它是专门针对中文优化的。
- 选择
-
如果是英文语义检索
- 选择
bge-large-en-v1.5,它是英文版本的最佳选择。
- 选择
-
如果需要中英混合检索,且输入文本较短
- 选择
bge-m3,支持多语言,最大 token 数较大。
- 选择
-
如果是超长文本、高精度应用(如搜索引擎)
- 选择
gte-Qwen2,它的维度更高(3584),最大 token也更长(32000)。
- 选择
-
如果是跨语言检索
- 选择
jina-embeddings-v3,在多语言场景下表现不错。
- 选择
总结
- 轻量级中文嵌入:
bge-large-zh-v1.5 - 轻量级英文嵌入:
bge-large-en-v1.5 - 通用多语言支持:
bge-m3 - 高性能长文本支持:
gte-Qwen2 - 跨语言匹配:
jina-embeddings-v3
如果你的应用场景是 大规模检索、向量数据库存储(如 FAISS),那么 gte-Qwen2 或 bge-m3 是更好的选择。
如果仅是 普通文本匹配或短文本搜索,bge-large-zh-v1.5(中文)或 bge-large-en-v1.5(英文)就足够了。
3.1 安装BAAI/bge-large-zh-v1.5
git clone https://hf-mirror.com/BAAI/bge-large-zh-v1.5.git
四、重排序(Rerank)模型
4.1 git
git clone https://hf-mirror.com/BAAI/bge-reranker-v2-m3.git
4.2 wget
你可以按照以下步骤在 /usr/local 目录下新建文件夹,并下载模型:
- 创建目录并赋权
sudo mkdir -p /usr/local/models/bge-reranker-v2-m3
sudo chmod -R 777 /usr/local/models/bge-reranker-v2-m3
cd /usr/local/models/bge-reranker-v2-m3
- 使用
wget从 HF Mirror 下载模型
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/model.safetensors
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/sentencepiece.bpe.model
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/config.json
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/tokenizer.json
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/tokenizer_config.json
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/special_tokens_map.json
-c 选项用于支持断点续传,防止下载中断后需要重新开始。
- 检查下载文件的大小
ls -lh /usr/local/models/bge-reranker-v2-m3
确认 model.safetensors 大小是否接近 2.27 GB,其余文件大小也要和 HF Mirror 网站上保持一致。
- 修改
Xinference配置
在 Xinference 的模型路径参数中,填写:
/usr/local/models/bge-reranker-v2-m3
然后重新加载模型。
这样,你的 bge-reranker-v2-m3 模型应该就能正确运行了! 🚀
五、接入dify
以上就是常用的大模型了,我们可以介入dify使用了。

六、多模态模型支持
FLUX.1-dev
git clone https://hf-mirror.com/black-forest-labs/FLUX.1-dev.git
cd FLUX.1-dev
git lfs pull
以下是支持的,可去自行探索;hf-mirror

相关文章:
Xinference大模型配置介绍并通过git-lfs、hf-mirror安装
文章目录 一、Xinference开机服务systemd二、语言(LLM)模型2.1 配置介绍2.2 DeepSeek-R1-Distill-Qwen-32B(大杯)工具下载git-lfs(可以绕过Hugging Face) 2.3 DeepSeek-R1-Distill-Qwen-32B-Q4_K_M-GGUF&am…...
Python游戏开发自学指南:从入门到实践(第四天)
Python不仅适用于数据分析、Web开发和自动化脚本,还可以用于游戏开发!虽然Python不是传统意义上的游戏开发语言,但其简洁的语法和丰富的库使其成为初学者学习游戏开发的绝佳选择。本文将为你提供一份全面的Python游戏开发自学指南,…...
0x04.若依框架微服务开发(含AI模块运行)
微服务本地开发硬件资源有限,所以会将核心微服务组件先部署在服务器上比如:mysql,redis,注册中心Nacos,网关Gateway,认证中心Auth和upms模块以及低代码生成模块。 mysql、redis部署前篇已讲,这…...
判断是不是二叉搜索树(C++)
目录 1 问题描述 1.1 示例1 1.2 示例2 2 解题思路 3 代码实现 4 代码解析 4.1 中序遍历函数 inorder 4.2 主函数 isValidBST 初始化及中序遍历调用 4.3 检查数组中元素是否严格递增 4.4 返回验证结果 5 总结 1 问题描述 给定一个二叉树根节点,请你判断…...
Shell条件判断
一、使用if选择结构 if单分支的语法组成: if 条件测试;then 命令序列 fi if双分支的语法组成: if 条件测试;then 命令序列1 else 命令序列2 fi if多分支的语法组成: if 条…...
自动化爬虫drissionpage
自动化爬虫drissionpage官网 自动化测试框架:DrissionPage DrissionPage调用工具汇总 网络爬虫工具比较-DrissionPage、Selenium、Playwright...
Linux--gdb/cgdb
ok,我们今天学习gdb的安装和使用 调试器-gdb/cgdb使用 VS、VScode编写的代码一般都是release格式的,gdb 的格式一般是debug 换成debug模式命令 :-g gdb会记录最新的一条命令,直接回车就是默认执行该命令 一个调试周期下,断点…...
超精密工件小孔几何尺寸测量:自动化解决方案
下载链接:(最新版本)超精密工件小孔几何尺寸测量:自动化解决方案python脚本代码,可直接运行,内包含测试数据,亲测好用资源-CSDN文库 在现代制造业中,超精密工件的质量控制至关重要&a…...
Blender-MCP服务源码1-项目解读
Blender-MCP服务源码 有个大佬做了一个Blender-MCP源码,第一次提交代码是【2025年3月7号】今天是【2025年月15日】也就是刚过去一周的时间,所以想从0开始学习这个代码,了解一下大佬们的开发思路 1-核心知识点 1)第一版࿱…...
小程序配置
注册小程序账号和安装开发工具 参考文档:注册小程序账号和安装开发工具https://blog.csdn.net/aystl_gss/article/details/127878658 HBuilder新建项目 填写项目名称,选择UNI-APP,修改路径,点击创建 manifest.json 配置 需要分别…...
ngx_conf_read_token
Ubuntu 下 nginx-1.24.0 源码分析 - ngx_conf_read_token-CSDN博客 static ngx_int_t ngx_conf_read_token(ngx_conf_t *cf) {u_char *start, ch, *src, *dst;off_t file_size;size_t len;ssize_t n, size;ngx_uint_t found, need_space, last_space…...
esProc SPL vs DuckDB:多源数据处理谁更胜一筹?
DuckDB 和 esProc SPL 都支持多样数据源处理,这里比较一下两者的差异。 支持的数据源种类 DuckDB 支持的数据源类型覆盖了常见的文件格式(如 CSV、Parquet、JSON、Excel)、云存储(如 AWS S3、Azure Blob Storage)以及…...
基于Python的selenium入门超详细教程(第1章)--WebDriver API篇
学习路线 自动化测试介绍及学习路线-CSDN博客 自动化测试之Web自动化(基于pythonselenium)-CSDN博客 参照博文:selenium入门超详细教程——网页自动化操作-CSDN博客 目录 前言 一、WebDriver API介绍 1.1 什么是WebDriver? 1.2 工…...
每日Attention学习26——Dynamic Weighted Feature Fusion
模块出处 [ACM MM 23] [link] [code] Efficient Parallel Multi-Scale Detail and Semantic Encoding Network for Lightweight Semantic Segmentation 模块名称 Dynamic Weighted Feature Fusion (DWFF) 模块作用 双级特征融合 模块结构 模块思想 我们提出了 DWFF 策略&am…...
接上一篇,C++中,如何设计等价于Qt的信号与槽机制。
看下面例子: class FileManager : public QObject {Q_OBJECTpublic:FileManager(QObject* parent nullptr) : QObject(parent) {}void changeFileName(const QString& newName) {fileName newName;emit fileNameChanged(fileName);}signals:void fileNameChan…...
Spring(6)——Spring、Spring Boot 与 Spring MVC 的关系与区别
Spring、Spring Boot 与 Spring MVC 的关系与区别 1. 核心定位 Spring 定位:基础框架,提供 IoC(控制反转) 和 DI(依赖注入) 核心功能,管理对象生命周期及依赖关系。功能:支持事务管…...
安装baselines出现的环境配置问题
该错误通常是由于环境配置问题、依赖包缺失、权限不足等原因导致 1. 更新相关工具 pip install --upgrade pip setuptools 2. 检查并安装依赖 conda install setuptools pip wheel 出现新问题: 3.尝试使用 Conda 安装 conda install mpi4py 再尝试安装 baseli…...
【商城实战(38)】Spring Boot:从本地事务到分布式事务,商城数据一致性的守护之旅
【商城实战】专栏重磅来袭!这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建,运用 uniapp、Element Plus、SpringBoot 搭建商城框架,到用户、商品、订单等核心模块开发,再到性能优化、安全加固、多端适配…...
当今前沿技术:人工智能与区块链的未来发展
在如今快速发展的科技时代,各种前沿技术正在改变的生活。人工智能AI)就是其中之一。它在医疗、金融、制造等多个领域发挥着巨大作用。AI可以分析数据,识别模式,还能辅助决策。比如,在医疗方面,AI帮助医生更…...
perl的package中“Subroutine new redefined”问题
我在一个脚本run_PMseq.V8.pl调用了一些.pm文件 $perl -c run_PMseq.V8.pl Subroutine new redefined at /mnt/lustre/user/wubin/01.Program/Scripts/01.script/GeneLab/PMSeq/package_V3/Add_mismatch.pm line 25. Subroutine generate_shell redefined at /mnt/lustre/use…...
markdown 转 word 工具 Pandoc
Pandoc是一个开源的文档转换工具,由John MacFarlane开发,旨在提供一个通用的文档转换解决方案。它支持多种输入和输出格式,能够高效地将不同格式的文档进行转换 功能 Pandoc支持以下格式之间的转换: **Markdown、reStruct…...
英语学习(GitHub学到的分享)
【英语语法:https://github.com/hzpt-inet-club/english-note】 【离谱的英语学习指南:https://github.com/byoungd/English-level-up-tips/tree/master】 【很喜欢文中的一句话:如果我轻轻松松的学习,生活的幸福指数会提高很多…...
【eNSP实战】三层交换机使用ACL实现网络安全
拓图 要求: vlan1可以访问Internetvlan2和vlan3不能访问Internet和vlan1vlan2和vlan3之间可以互相访问PC配置如图所示,这里不展示 LSW1接口vlan配置 vlan batch 10 20 30 # interface Vlanif1ip address 192.168.40.2 255.255.255.0 # interface Vla…...
Javascript BOM,DOM 知识简介
JSON 一种数据交换格式,作为数据载体,传输数据, Json比xml 更简单,可读性更高.js的对象和Json可以相互转换. //json定义格式: var varName{"key1":value1,"key2":value2};value的数据类型为数字,字符串(在双引号中),布尔值,数组(在方括号中),对象(在花括…...
拆解 “ES 已死“ 伪命题:Agentic RAG 时代搜索引擎的终极形态
作者:来自 Elastic 李捷 xxx:“ES已死,#%#……” 我:??? 最近,某厂商发了一堆公关文章,翻来覆去地炒作 “ES 已死”,“放弃 ES”。这哪是什么正经的技术文章&…...
关于ISP Pipeline LSC(镜头阴影校正)位置的一些想法
关于LSC校正的一些基本原理可以参考如下链接: ISP之LSC 【ISP】浅析Lens Shading ISP-镜头阴影校正(LSC) 这篇博文不打算讲具体的LSC校正原理。 主要是答复一位网友关于LSC校正在ISP Pipeline的问题。 网友问题如下: Rin_Cyn…...
Vue学习笔记集--六大指令
内容渲染指令 内容渲染指令用来辅助开发者渲染 DOM 元素的文本内容。常用的内容渲染指令有如下2 个: v-text(类似innerText) 使用语法:<p v-text"name">hello</p>,意思是将 name 值渲染到 p 标…...
.net 6程序在IIS中部署后点击IIS设置报错“执行此操作时出错”
.net 6写的程序,需要在Windows服务器的IIS中部署,由于是刚装的系统,先安装.net 6运行时,装了才发现没有IIS,于是又通过“添加角色和功能”添加与IIS相关的功能。安装完毕后,在IIS中添加网站,并将…...
《从零手写Linux Shell:详解进程控制、环境变量与内建命令实现 --- 持续更新》
承接上文Linux 进程的创建、终止、等待与程序替换保姆级讲解-CSDN博客,涉及所用到的代码,本文所绑定的资源就是上篇文章的主要代码。 完整代码在文章末尾 目录 1.实现编写代码输出一个命令行 a.如何获取自己的用户名,主机名,路径…...
【Go语言圣经2.4】
目标 理解 在 Go 中,赋值操作既包括最基本的形式(左边一个变量,右边一个表达式),也包括复合赋值、元组赋值和隐式赋值。表达式求值的顺序、变量更新时的副作用以及如何处理多返回值和下划线(_)…...
