当前位置: 首页 > news >正文

Ollama部署 DeepSeek-R1:70B 模型的详细步骤

1. 确认环境准备

(1) 硬件要求
  • 显存需求:70B 参数的模型需要大量显存。若使用 NVIDIA T4(16GB 显存),需多卡并行(如 8 卡)或开启量化(如 q4_0q8_0)。
  • 内存需求:建议至少 64GB 系统内存。
  • 存储空间:模型文件约 40-140GB(取决于量化方式)。
(2) 软件依赖
  • 安装 Ollama(确保版本支持自定义模型):
    curl -fsSL https://ollama.com/install.sh | sh
    

2. 下载 DeepSeek-R1:70B 模型

(1) 若模型已存在于本地
  • 直接通过 Ollama 加载:
    ollama run deepseek-r1:70b
    
(2) 若需自定义模型
  • 创建 Modelfile 定义模型参数(示例):
    FROM deepseek-r1:70b
    PARAMETER num_gpu 8  # 使用 8 卡 GPU
    PARAMETER num_ctx 4096  # 上下文长度
    PARAMETER quantize q4_0  # 量化方式(可选)
    
  • 构建自定义模型:
    ollama create deepseek-r1-custom -f Modelfile
    

3. 启动 Ollama 服务

(1) 启动模型
  • 前台运行(调试模式):
    ollama serve
    
  • 后台运行(生产环境):
    systemctl start ollama
    
(2) 检查模型状态
  • 查看已加载模型:
    ollama list
    
    输出应包含:
    NAME            ID              SIZE      MODIFIED
    deepseek-r1:70b 0c1615a8ca32    42 GB     2 hours ago
    

4. 配置外部访问

默认情况下,Ollama 仅监听 127.0.0.1:11434,需修改为允许外部访问:

(1) 修改监听地址
  • 编辑 Ollama 环境变量:
    sudo vim /etc/systemd/system/ollama.service
    
    添加:
    [Service]
    Environment="OLLAMA_HOST=0.0.0.0:11434"
    
  • 重启服务:
    sudo systemctl daemon-reload
    sudo systemctl restart ollama
    
(2) 开放防火墙端口
  • 开放 11434 端口:
    sudo ufw allow 11434/tcp
    sudo ufw reload
    
(3) 验证监听状态
netstat -tuln | grep 11434

输出应为:

tcp  0  0 0.0.0.0:11434  0.0.0.0:*  LISTEN

5. 调用模型 API

(1) 通过 Curl 测试
curl http://<服务器IP>:11434/api/generate -d '{"model": "deepseek-r1:70b","prompt": "你好,DeepSeek!","stream": false
}'
(2) 使用 Python 客户端
import requestsresponse = requests.post("http://<服务器IP>:11434/api/generate",json={"model": "deepseek-r1:70b","prompt": "如何部署大模型?","stream": False}
)
print(response.json()["response"])

6. 性能优化

(1) 多 GPU 并行
  • 启动时指定 GPU 数量:
    OLLAMA_NUM_GPU=8 ollama serve
    
(2) 量化模型
  • 使用 q4_0q8_0 量化减少显存占用:
    ollama run deepseek-r1:70b --quantize q4_0
    
(3) 调整批处理大小
  • Modelfile 中设置:
    PARAMETER num_batch 512  # 根据显存调整
    

7. 常见问题解决

(1) 显存不足
  • 现象CUDA out of memory
  • 解决
    • 减少 num_batch
    • 启用量化(quantize q4_0)。
    • 增加 GPU 数量。
(2) 服务无法启动
  • 现象Failed to bind port 11434
  • 解决
    • 检查端口占用:lsof -i :11434
    • 关闭冲突进程或更换端口。
(3) 模型加载失败
  • 现象Model deepseek-r1:70b not found
  • 解决
    • 确认模型文件路径正确。
    • 重新下载模型:ollama pull deepseek-r1:70b

总结

通过上述步骤,你可以在 Ollama 上成功部署 DeepSeek-R1:70B 模型,并支持外部网络访问。如果遇到性能问题,优先通过量化多 GPU 并行优化资源占用。若需进一步扩展,可结合 Kubernetes 或 Docker Swarm 实现集群化部署。

相关文章:

Ollama部署 DeepSeek-R1:70B 模型的详细步骤

1. 确认环境准备 (1) 硬件要求 显存需求&#xff1a;70B 参数的模型需要大量显存。若使用 NVIDIA T4&#xff08;16GB 显存&#xff09;&#xff0c;需多卡并行&#xff08;如 8 卡&#xff09;或开启量化&#xff08;如 q4_0、q8_0&#xff09;。内存需求&#xff1a;建议至…...

PAT乙级( 1009 说反话 1010 一元多项式求导)C语言版本超详细解析

1009 说反话 给定一句英语&#xff0c;要求你编写程序&#xff0c;将句中所有单词的顺序颠倒输出。 输入格式&#xff1a; 测试输入包含一个测试用例&#xff0c;在一行内给出总长度不超过 80的字符串。字符串由若干单词和若干空格组成&#xff0c;其中单词是由英文字母&#x…...

学习笔记十九:K8S生成pod过程

K8S生成pod过程 流程图具体生成过程用户提交 Pod 定义API Server 处理请求调度器分配节点&#xff08;Scheduling&#xff09;目标节点上的 Pod 创建网络配置状态上报与监控控制器管理&#xff08;Controller Manager&#xff09;就绪与服务发现 关键错误场景高级特性 流程图 具…...

Qwen2-VL:增强视觉语言模型对世界任意分辨率的感知能力

1、摘要 Qwen2-VL系列是Qwen-VL模型的高级升级版本&#xff0c;它重新定义了传统视觉处理中预设分辨率的方法。Qwen2-VL引入了Naive Dynamic Resolution机制&#xff0c;使模型能够动态处理不同分辨率的图像&#xff0c;并将其转换为不同数量的视觉标记。这种机制使模型能够生…...

原神新版本角色牌上新 七圣召唤增添新玩法

在原神这款游戏中&#xff0c;5.4版本更新后七圣召唤玩法将新增2张角色牌和对应天赋牌、3张行动牌&#xff0c;并进行部分卡牌平衡调整&#xff0c;今天就给大家介绍一下。 一、角色牌【基尼奇】 1.元素战技&#xff1a;选一个我方角色&#xff0c;自身附属钩索链接并进入夜魂…...

Spring 中的 事务 隔离级别以及传播行为

1. 事务隔离级别&#xff08;Isolation Level&#xff09; 事务隔离级别定义了事务在并发环境下的行为&#xff0c;主要解决以下问题&#xff1a; 脏读&#xff08;Dirty Read&#xff09;&#xff1a;一个事务读取了另一个未提交事务的数据。 不可重复读&#xff08;Non-Re…...

为多个GitHub账户配置SSH密钥

背景 当需要同时使用多个GitHub账户&#xff08;例如工作和个人账户&#xff09;时&#xff0c;默认的SSH配置可能导致冲突。本文介绍如何通过生成不同的SSH密钥对并配置SSH客户端来管理多个账户。 操作步骤 生成SSH密钥对 为每个GitHub账户生成独立的密钥对&#xff0c;并指…...

OSPF基础(3):区域划分

OSPF的区域划分 1、区域产生背景 路由器在同一个区域中泛洪LSA。为了确保每台路由器都拥有对网络拓扑的一致认知&#xff0c;LSDB需要在区域内进行同步。OSPF域如果仅有一个区域&#xff0c;随着网络规模越来越大&#xff0c;OSPF路由器的数量越来越多&#xff0c;这将导致诸…...

android studio无痛入门

在Android Studio中创建和管理项目主要涉及以下几个步骤&#xff1a; 1. 创建新项目 打开Android Studio&#xff0c;点击“Start a new Android Studio project”或者“File” > “New” > “New Project”。 选择一个模板&#xff0c;例如“Empty Activity”&#xff0…...

免费windows pdf编辑工具Epdf

Epdf&#xff08;完全免费&#xff09; 作者&#xff1a;不染心 时间&#xff1a;2025/2/6 Github: https://github.com/dog-tired/Epdf Epdf Epdf 是一款使用 Rust 编写的 PDF 编辑器&#xff0c;目前仍在开发中。它提供了一系列实用的命令行选项&#xff0c;方便用户对 PDF …...

CNN 卷积神经网络处理图片任务 | PyTorch 深度学习实战

前一篇文章&#xff0c;学习率调整策略 | PyTorch 深度学习实战 本系列文章 GitHub Repo: https://github.com/hailiang-wang/pytorch-get-started CNN 卷积神经网络 CNN什么是卷积工作原理深度学习的卷积运算提取特征不同特征核的效果比较卷积核感受野共享权重池化 示例源码 …...

LeetCode 128: 最长连续序列

LeetCode 128: 最长连续序列 题目: 给定一个未排序的整数数组 nums &#xff0c;找出数字连续的最长序列&#xff08;不要求序列元素在原数组中连续&#xff09;的长度。 请你设计并实现时间复杂度为 O(n) 的算法解决此问题。 示例 1&#xff1a; 输入&#xff1a;nums […...

大语言模型需要的可观测性数据的关联方式

可观测性数据的关联方式及其优缺点 随着现代分布式架构和微服务的普及&#xff0c;可观测性&#xff08;Observability&#xff09;已经成为确保系统健康、排查故障、优化性能的重要组成部分。有效的可观测性数据关联方式不仅能够帮助我们实时监控系统的运行状态&#xff0c;还…...

【韩顺平linux】部分上课笔记整理

整理一下一些韩顺平老师上课时候的笔记 课程&#xff1a;【小白入门 通俗易懂】韩顺平 一周学会Linux linux环境&#xff1a;使用阿里云服务器 笔记参考 &#xff1a; [学习笔记]2021韩顺平一周学会Linux 一、自定义函数 基本语法 应用实例&#xff1a; 计算两个参数的和…...

python调用pc的语音借口

先安装&#xff1a; pip install pyttsx3再运行&#xff1a; import pyttsx3 # 初始化语音引擎 def init_engine():engine pyttsx3.init()# 设置中文语音voices engine.getProperty(voices)for voice in voices:if chinese in voice.name.lower():engine.setProperty(voice…...

【Golang学习之旅】Golang 内存管理与 GC 机制详解

文章目录 前言1. Go 语言的内存管理的简述2. Golang 内存管理机制2.1 Go 语言的内存分配模型2.2 Go 变量分配示例2.3 Go 语言的内存池&#xff08;sync.Pool&#xff09; 3. Golang 垃圾回收&#xff08;GC&#xff09;机制详解3.1 Go 的 GC 机制概述3.2 GC 触发条件3.3 手动触…...

Kamailio 各个功能的共同点、不同点及应用场景

Kamailio 各个功能的共同点、不同点及应用场景&#xff1a; 功能共同点不同点应用场景SIP 注册服务器处理用户注册请求&#xff0c;维护用户位置信息专注于用户设备的注册和注销&#xff0c;维护设备位置企业内部通信系统&#xff0c;确保用户设备的动态注册和注销SIP 代理服务…...

Linux(CentOS)安装 Nginx

CentOS版本&#xff1a;CentOS 7 Nginx版本&#xff1a;1.24.0 两种安装方式&#xff1a; 一、通过 yum 安装&#xff0c;最简单&#xff0c;一键安装&#xff0c;全程无忧。 二、通过编译源码包安装&#xff0c;需具备配置相关操作。 最后附&#xff1a;设置 Nginx 服务开…...

string 与 wstring 的字符编码

测试代码: #include<stdio.h> #include<stdlib.h> #include<windows.h> #include <locale.h> #include <string> #include <iostream>// 函数用于计算UTF-8字符串中的字符数 int utf8_strlen(const char* str) {int len = 0;for (; *s…...

C#面试常考随笔14: 方法如何传递不定数量的参数?params关键字怎么使用?

使用params关键字&#xff0c;就可以像python传参那样传递多个参数&#xff0c;类似元组 主要作用 params 关键字的主要作用是让方法可以接受不定数量的参数&#xff0c;而不需要在调用方法时显式地创建数组来传递多个参数。这为方法调用提供了更大的灵活性&#xff0c;使得代…...

开发一款类似《王者荣耀》的游戏是一个复杂的系统工程,涉及多个领域的知识和技术。以下是从多个角度详细阐述如何开发的思维。

一、明确游戏定位与核心玩法 游戏类型 MOBA&#xff08;Multiplayer Online Battle Arena&#xff09;&#xff1a;强调团队合作、策略性和即时战斗。确定游戏模式&#xff08;如5v5、3v3等&#xff09;和地图设计。 核心玩法 角色设计&#xff1a;英雄技能、属性、成长曲线。…...

VMware下Linux和macOS安装VSCode一些总结

本文介绍VMware下Linux和macOS安装VSCode的一些内容&#xff0c;包括VSCode编译器显示中文以及安装.NET环境和Python环境。 VSCode下载地址&#xff1a;Download Visual Studio Code - Mac, Linux, Windows 一.Linux系统下 1.安装中文包 按 Ctrl Shift P 打开命令面板。输…...

aspectFill(填充目标区域的同时保持图像的原有宽高比 (aspect ratio)图像不会被拉伸或压缩变形

“aspectFill” 是一个常用于图像和视频处理的术语&#xff0c;尤其是在用户界面 (UI) 设计和图形编程领域。它描述的是一种图像缩放或调整大小的方式&#xff0c;旨在填充目标区域的同时保持图像的原有宽高比 (aspect ratio)。 更详细的解释: Aspect Ratio (宽高比): 指的是图…...

我的年度写作计划

目录 计算机经典四件 数据结构 计算机网络体系 经典操作系统与计算机架构 嵌入式领域笔记 其他部分 私货部分 笔者打算在这里理一下今年的写作计划&#xff0c;如下所示&#xff1a; 计算机经典四件 数据结构 笔者因为冲刺面试需要&#xff0c;还是要更加扎实的掌握自…...

DeepSeek与llama本地部署(含WebUI)

DeepSeek从2025年1月起开始火爆&#xff0c;成为全球最炙手可热的大模型&#xff0c;各大媒体争相报道。我们可以和文心一言一样去官网进行DeepSeek的使用&#xff0c;那如果有读者希望将大模型部署在本地应该怎么做呢&#xff1f;本篇文章将会教你如何在本地傻瓜式的部署我们的…...

SOA(面向服务架构)全面解析

1. 引言 什么是SOA&#xff08;面向服务架构&#xff09; SOA&#xff08;Service-Oriented Architecture&#xff0c;面向服务架构&#xff09;是一种将应用程序功能以“服务”的形式进行模块化设计的架构风格。这些服务是独立的功能模块&#xff0c;它们通过定义明确的接口…...

PyQt6/PySide6 的 QDialog 类

QDialog 是 PyQt6 或 PySide6 库中用于创建对话框的类。对话框是一种特殊的窗口&#xff0c;通常用于与用户进行短期交互&#xff0c;如输入信息、显示消息或选择选项等。QDialog 提供了丰富的功能和灵活性&#xff0c;使得开发者可以轻松地创建各种类型的对话框。下面我将详细…...

mes系统对工业数字化转型起到重要作用,它的实际应用有哪些

一、生产计划与调度 在工业数字化转型中&#xff0c;MES 系统能够对生产计划进行高效的管理和调度。通过与企业资源计划&#xff08;ERP&#xff09;系统的集成&#xff0c;MES 可以获取生产订单信息&#xff0c;并根据生产设备的状态、人员安排以及物料供应情况等因素&#x…...

Qt:项目文件解析

目录 QWidget基础项目文件解析 .pro文件解析 widget.h文件解析 widget.cpp文件解析 widget.ui文件解析 main.cpp文件解析 认识对象模型 窗口坐标系 QWidget基础项目文件解析 .pro文件解析 工程新建好之后&#xff0c;在工程目录列表中有⼀个后缀为 ".pro" …...

【学术投稿】第五届计算机网络安全与软件工程(CNSSE 2025)

重要信息 官网&#xff1a;www.cnsse.org 时间&#xff1a;2025年2月21-23日 地点&#xff1a;中国-青岛 简介 第五届计算机网络安全与软件工程&#xff08;CNSSE 2025&#xff09;将于2025年2月21-23日在中国-青岛举行。CNSSE 2025专注于计算机网络安全、软件工程、信号处…...