当前位置: 首页 > article >正文

【LLM】本地部署LLM大语言模型+可视化交互聊天,附常见本地部署硬件要求(以Ollama+OpenWebUI部署DeepSeekR1为例)

【LLM】本地部署LLM大语言模型+可视化交互聊天,附常见本地部署硬件要求(以Ollama+OpenWebUI部署DeepSeekR1为例)

文章目录

    • 1、本地部署LLM(以Ollama为例)
    • 2、本地LLM交互界面(以OpenWebUI为例)
    • 3、本地部署硬件要求对应表

1、本地部署LLM(以Ollama为例)

本地部署LLM的框架

  • 129k-Ollama 1
    是一个提供简单命令行接口的工具,可以轻松下载和运行本地 AI 模型。
  • 139k-Transformers 2
    Hugging Face 的 Transformers 库支持多种预训练语言模型,并提供简单的 API 以在本地运行这些模型,适合进行微调和推理。
  • 75k-llama.cpp, 3
    CPU友好,一个高效的 C++ 实现,支持在各种设备上运行 LLaMA 模型,适合追求性能的用户。
  • 39k-vllm, link
    GPU优化,vLLM 是一个高效的、用于推理的框架,特别针对大型语言模型的并行推理进行优化。它利用了内存和计算资源的高效管理,提供了显著的性能提升。
  • 69k-stable-diffusion,link
    虽然主要用于图像生成,它也在开源领域取得了极大的关注,且可以灵活地与文本模型结合使用。

ollama是什么

  • Ollama 是一个用于构建和运行本地 AI 模型的开源工具。
  • 它可以帮助开发者和研究人员更方便地利用 AI 模型进行各种应用,如自然语言处理、图像识别等。
    在这里插入图片描述

下载ollama

  • 要安装Ollama,可以官方网站的下载页面:Ollama下载页面
  • 支持的模型列表
  • 参考安装 1
    在这里插入图片描述

使用ollama

ollama     
Usage:ollama [flags]ollama [command]Available Commands:serve       Start ollamacreate      Create a model from a Modelfileshow        Show information for a modelrun         Run a modelstop        Stop a running modelpull        Pull a model from a registrypush        Push a model to a registrylist        List modelsps          List running modelscp          Copy a modelrm          Remove a modelhelp        Help about any commandFlags:-h, --help      help for ollama-v, --version   Show version informationUse "ollama [command] --help" for more information about a command.

例子,安装deepseek r1

# ollma --version
ollama version is 0.5.12# ollama pull deepseek-r1:1.5b
pulling manifest 
pulling aabd4debf0c8... 100% ▕██████████████████████████████████▏ 1.1 GB                         
pulling 369ca498f347... 100% ▕██████████████████████████████████▏  387 B                         
pulling 6e4c38e1172f... 100% ▕██████████████████████████████████▏ 1.1 KB                         
pulling f4d24e9138dd... 100% ▕██████████████████████████████████▏  148 B                         
pulling a85fe2a2e58e... 100% ▕██████████████████████████████████▏  487 B                         
verifying sha256 digest 
writing manifest 
success # ollama run deepseek-r1:1.5b
# ollama run llama3.2:1b# ollama list
NAME                ID              SIZE      MODIFIED      
llama3.2:1b         baf6a787fdff    1.3 GB    3 minutes ago    
deepseek-r1:1.5b    a42b25d8c10a    1.1 GB    2 hours ago# systemctl stop ollama

2、本地LLM交互界面(以OpenWebUI为例)

本地LLM交互界面项目

  • 78k-OpenWebUI, link
    OpenWebUI是一个开源Web用户界面,旨在让用户能够方便地与本地大语言模型(如GPT、LLaMA等)进行交互。用户可以通过简单的Web界面进行对话,支持多种模型。

  • 82k-Nextchat(ChatGPT Next Web) , link
    兼容本地LLM,轻量快速的 AI 助手。支持:Web | iOS | MacOS | Android | Linux | Windows。一键免费部署私人 ChatGPT 网页应用,支持 Claude, GPT4 & Gemini Pro 模型。

  • 32k-ChatBox , link
    Chatbox AI 是一款 AI 客户端应用和智能助手,支持众多先进的 AI 模型和 API,可在 Windows、MacOS、Android、iOS、Linux 和网页版上使用。
    客户端安装参考 1,2:选择使用自己的api-key或本地模型,目前支持

  • 72k-GPT4All, link
    GPT4All 在日常台式机和笔记本电脑上私下运行大型语言模型 (LLM)。无需 API 调用或 GPU - 您只需下载应用程序并开始使用即可。

  • 42k-text-generation-webui, link
    适用于大型语言模型的 Gradio Web UI,支持多个推理后端。其目标是成为文本生成的stable-diffusion-webui 。

  • 39k-AnythingLLM, link
    全栈应用程序,可以将任何文档、资源(如网址链接、音频、视频)或内容片段转换为上下文,以便任何大语言模型(LLM)在聊天期间作为参考使用。
    此应用程序允许您选择使用哪个LLM或向量数据库,同时支持多用户管理并设置不同权限。

  • 150k-stable-diffusion-webui, link
    支持一键安装的stable Diffusion网页用户界面。

  • jetbrain-idea/goland集成插件, link
    设置-插件里安装后,配置Ollama API 默认调用端口号:11434

OpenWebUI是什么?

  • 一个可扩展、功能丰富且用户友好的自托管WebUI,它支持完全离线操作,并兼容Ollama和OpenAI的API。
  • 这为用户提供了一个可视化的界面,使得与大型语言模型的交互更加直观和便捷。
    在这里插入图片描述

安装openwebUI

# 基于docker的安装
# 电脑上有Ollama
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
# Ollama在其他服务器上,OLLAMA_BASE_URL替换为地址
docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=https://example.com -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main# 安装完成后,您可以通过http://localhost:3000 访问OpenWebUI
# 这个时候会发现【Select a model】可以选择我们刚刚下载好的模型
# 并且他还可以一次性加入多个模型,一起对话对比使用

3、本地部署硬件要求对应表

大模型名称中的数字含义

  • 例如 1.5b、7b、8b、14b、32b、70b和671b等
  • 这些数字代表模型的参数量(Parameters),单位为 「B」(Billion,十亿)。例如:
    1.5B:15 亿参数
    7B:70 亿参数
    671B:6710 亿参数(接近万亿规模)
  • 参数量的意义:
    模型能力:参数量越大,模型就有更强的理解和生成能力,但是需要更多计算资源。
    硬件需求:参数越多,对内存(RAM)和显存(VRAM)的需求就越高。
    运行速度:参数量大的模型,推理速度更慢,尤其是资源不足的时候。1

本地部署的硬件配置「最低」要求(按模型规模分类)

  • 1.3B、1.5B 模型
    适用场景:简单文本生成、问答、轻量级任务
    CPU:4 核以上(需支持 AVX2 指令集)
    内存(RAM):8GB 以上
    GPU(可选):显存 ≥ 4GB(如 NVIDIA GTX 1650)
    存储:需 3~5GB 硬盘空间(模型文件 + 依赖库)
    说明:可在纯 CPU 环境下运行,但速度较慢(约 1~2 秒/词)。

  • 6.7b、7B、8B 模型
    适用场景:复杂文本生成、代码生成、多轮对话
    CPU:8 核以上(推荐 Intel i7 或 AMD Ryzen 7)
    内存(RAM):32GB 以上(纯 CPU 运行时需更高内存)
    GPU(推荐):显存 ≥ 16GB(如 RTX 4090 或 Tesla T4)
    存储:需 15~20GB 硬盘空间
    优化建议:
    使用 4-bit 量化可将显存需求降至 8GB。
    使用 vLLM 或 HuggingFace TGI 框架提升推理速度。

  • 32B、70B 模型
    适用场景:企业级应用、高精度需求
    CPU:无法纯 CPU 运行
    内存(RAM):≥ 128GB(用于加载中间数据)
    GPU:显存 ≥ 80GB(如 A100 80GB x2 或 H100)
    存储:需 70~150GB 硬盘空间
    关键点:
    必须使用多卡并行(如 NVIDIA NVLink 互联)。
    推荐 FP16 或 8-bit 量化以降低显存占用。

硬件选择对比表

模型规模CPU 需求内存需求显卡 型号适用场景
1.5B纯 CPU4GBRTX 3050个人学习
7B7GB16GBRTX 4090个人学习
14B24GBA5000 x2264GB小型项目
32B48GBA100 40GBx2专业应用
40GB80GBx4RTX 7000企业级服务
64GB+H100H100640GB+H100集群不可行

一些QA

  • 能否用 Mac 电脑运行这些DeepSeek模型?
    可以,但仅限于小模型(如 7B以下)。需使用 llama.cpp 的 Metal 后端,M1/M2 芯片需 16GB 以上统一内存。
  • 官方仓库(如 HuggingFace Hub)、开源社区(如 modelscope)。
    如果使用Ollama在本地部署,那么直接在Ollama中下载。
  • 为什么实际显存占用比参数量大很多?
    除了模型权重,还需存储中间计算结果(KV Cache),尤其在长文本生成时占用显著增加。
  • 没有显存、显存的笔记本电脑,能在本地部署和运行DeepSeek吗?
    可以。但是内存要求更高,文本生成速度慢。1,

更多部署教程
1 从零到一:本地部署Llama3大模型的简明指南,
2 本地部署 DeepSeek-R1-671B 满血版大模型教程
3 预算50-100万:4 * H100 80GB + NVLink,8 * A100 80GB + NVLink

相关文章:

【LLM】本地部署LLM大语言模型+可视化交互聊天,附常见本地部署硬件要求(以Ollama+OpenWebUI部署DeepSeekR1为例)

【LLM】本地部署LLM大语言模型可视化交互聊天,附常见本地部署硬件要求(以OllamaOpenWebUI部署DeepSeekR1为例) 文章目录 1、本地部署LLM(以Ollama为例)2、本地LLM交互界面(以OpenWebUI为例)3、本…...

【考研】复试相关上机题目

文章目录 22机试回忆版1、判断燃气费描述输入格式输出格式输入样例输出样例 C o d e Code Code 2、统计闰年数量描述输入格式输出格式输入样例输出样例 C o d e Code Code 3、打印图形描述输入格式输出格式 C o d e Code Code 4、密文数据描述输入格式输出格式输入样例输出样例…...

vue3除了pinia/vuex的其他通讯方式还有那些

1. Props 和 Events Props&#xff1a;父组件通过 props 向子组件传递数据。 Events&#xff1a;子组件通过 $emit 向父组件发送事件。 <!-- ParentComponent.vue --> <template><ChildComponent :message"parentMessage" update-message"updat…...

【Python爬虫(80)】当Python爬虫邂逅边缘计算:探索数据采集新境界

【Python爬虫】专栏简介&#xff1a;本专栏是 Python 爬虫领域的集大成之作&#xff0c;共 100 章节。从 Python 基础语法、爬虫入门知识讲起&#xff0c;深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑&#xff0c;覆盖网页、图片、音频等各类数据爬取&#xff…...

LLM之论文阅读——Context Size对RAG的影响

前言 RAG 系统已经在多个行业中得到广泛应用&#xff0c;尤其是在企业内部文档查询等场景中。尽管 RAG 系统的应用日益广泛&#xff0c;关于其最佳配置的研究却相对缺乏&#xff0c;特别是在上下文大小、基础 LLM 选择以及检索方法等方面。 论文原文: On the Influence of Co…...

2025-02-25 学习记录--C/C++-用C语言实现删除字符串中的子串

用C语言实现删除字符串中的子串 在C语言中&#xff0c;你可以使用strstr函数来查找子串&#xff0c;然后用memmove或strcpy来覆盖或删除找到的子串。 一、举例 &#x1f430; #include <stdio.h> // 包含标准输入输出库&#xff0c;用于使用 printf 函数 #include <s…...

网络原理--常见的请求和响应的格式

1.xml 类似于html&#xff0c;也是一种标签语言&#xff0c;标签成对出现。 例如&#xff1a; <request> <userId>1000</userId> </request> 其中&#xff1a; <userId>称为开始标签&#xff0c;</userId>称为结束标签。开始标签和结…...

【Linux】Ubuntu服务器的安装和配置管理

ℹ️大家好&#xff0c;我是练小杰&#xff0c;今天周二了&#xff0c;哪吒的票房已经到了138亿了&#xff0c;饺子导演好样的&#xff01;&#xff01;每个人的成功都不是必然的&#xff0c;坚信自己现在做的事是可以的&#xff01;&#xff01;&#x1f606; 本文是有关Ubunt…...

2.3做logstash实验

收集apache日志输出到es 在真实服务器安装logstash&#xff0c;httpd systemctl start httpd echo 666 > /var/www/html/index.html cat /usr/local/logstash/vendor/bundle/jruby/2.3.0/gems/logstash-patterns-core-4.1.2/patterns/httpd #系统内置变量 cd /usr/local/…...

pandas读取数据

pandas读取数据 导入需要的包 import pandas as pd import numpy as np import warnings import oswarnings.filterwarnings(ignore)读取纯文本文件 pd.read_csv 使用默认的标题行、逗号分隔符 import pandas as pd fpath "./datas/ml-latest-small/ratings.csv" 使…...

rabbitmq 延时队列

要使用 RabbitMQ Delayed Message Plugin 实现延时队列&#xff0c;首先需要确保插件已安装并启用。以下是实现延时队列的步骤和代码示例。 1. 安装 RabbitMQ Delayed Message Plugin 首先&#xff0c;确保你的 RabbitMQ 安装了 rabbitmq-delayed-message-exchange 插件。你可…...

Deepseek 实战全攻略,领航科技应用的深度探索之旅

想玩转 Deepseek&#xff1f;这攻略别错过&#xff01;先带你了解它的基本原理&#xff0c;教你搭建运行环境。接着给出自然语言处理、智能客服等应用场景的实操方法与代码。还分享模型微调、优化技巧&#xff0c;结合案例加深理解&#xff0c;让你全面掌握&#xff0c;探索科技…...

Go语言中的信号量:原理与实践指南

Go语言中的信号量&#xff1a;原理与实践指南 引言 在并发编程中&#xff0c;控制对共享资源的访问是一个经典问题。Go语言提供了丰富的并发原语&#xff08;如sync.Mutex&#xff09;&#xff0c;但当我们需要灵活限制并发数量时&#xff0c;信号量&#xff08;Semaphore&am…...

计算机网络与通讯知识总结

计算机网络与通讯知识总结 基础知识总结 1)FTP:文件传输 SSH:远程登录 HTTP:网址访问 2)‌交换机 定义‌:一种基于MAC地址实现局域网(LAN)内数据高速转发的网络设备,可为接入设备提供独享通信通道‌。 -‌ 核心功能‌: 1.数据链路层(OSI第二层)工作,通过MAC地址…...

ReentrantLock 用法与源码剖析笔记

&#x1f4d2; ReentrantLock 用法与源码剖析笔记 &#x1f680; 一、ReentrantLock 核心特性 &#x1f504; 可重入性&#xff1a;同一线程可重复获取锁&#xff08;最大递归次数为 Integer.MAX_VALUE&#xff09;&#x1f527; 公平性&#xff1a;支持公平锁&#xff08;按等…...

Vscode无法加载文件,因为在此系统上禁止运行脚本

1.在 vscode 终端执行 get-ExecutionPolicy 如果返回是Restricted&#xff0c;说明是禁止状态。 2.在 vscode 终端执行set-ExecutionPolicy RemoteSigned 爆红说明没有设置成功 3.在 vscode 终端执行Set-ExecutionPolicy -Scope CurrentUser RemoteSigned 然后成功后你再在终…...

java进阶专栏的学习指南

学习指南 java类和对象java内部类和常用类javaIO流 java类和对象 类和对象 java内部类和常用类 java内部类精讲Object类包装类的认识String类、BigDecimal类初探Date类、Calendar类、SimpleDateFormat类的认识java Random类、File类、System类初识 javaIO流 java IO流【…...

架构思维:架构的演进之路

文章目录 引言为什么架构思维如此重要架构师的特点软件架构的知识体系如何提升架构思维大型互联网系统架构的演进之路一、大型互联网系统的特点二、系统处理能力提升的两种途径三、大型互联网系统架构演化过程四、总结 引言 在软件开发行业中&#xff0c;有很多技术人可能会问…...

VC++零基础入门之系列教程 【附录E MFC快速参考指南】

附录E MFC快速参考指南 E.1 创建窗口 使用M F C CWnd wnd; W n d . C r e a t e E x ( E xSt y l e , C l a s s N a m e , Wi n d o w N a m e , S t y l e , x , y, Wi d t h , H e i g h t , P a r e n t , M e n u , P a r a m ) ; 使用A P I HWND hwnd=::CreateWi n d …...

vue3:vue3项目安装并引入Element-plus

一、安装Element-plus 1、安装语句位置 安装 | Element Plushttps://element-plus.org/zh-CN/guide/installation.html根据所需进行安装&#xff0c;这里使用npm包 2、找到项目位置 找到项目位置&#xff0c;在路径上输入cmd回车打开“运行”窗口 输入安装语句回车完成安装 …...

一文掌握python中正则表达式的各种使用

文章目录 1. 正则表达式基础1.1 常用元字符1.2 基本用法 2. 正则表达式高级功能2.1 分组捕获2.2 命名分组2.3 非贪婪匹配2.4 零宽断言2.5 编译正则表达式2.6 转义字符 3. 常见应用场景3.1 验证邮箱格式3.2 提取 URL3.3 提取日期3.4 提取HTML中的链接3.5 提取HTML中的图片链接3.…...

java.2.25

1. 注释 ​ 注释是对代码的解释和说明文字。 Java中的注释分为三种&#xff1a; 单行注释&#xff1a; // 这是单行注释文字多行注释&#xff1a; /* 这是多行注释文字 这是多行注释文字 这是多行注释文字 */ 注意&#xff1a;多行注释不能嵌套使用。文档注释&#xff1a;…...

45.matlab产生正弦叠加信号

&#xff0c;...

VScode 开发

目录 安装 VS Code 创建一个 Python 代码文件 安装 VS Code VSCode&#xff08;全称&#xff1a;Visual Studio Code&#xff09;是一款由微软开发且跨平台的免费源代码编辑器&#xff0c;VSCode 开发环境非常简单易用。 VSCode 安装也很简单&#xff0c;打开官网 Visual S…...

在llm和agent的背景下,有什么比较好的研究方向或者能解决现在的实际的社会问题

在llm和agent的背景下,有什么比较好的研究方向或者能解决现在的实际的社会问题 在LLM(大语言模型)与Agent(智能体)的融合背景下,研究方向和社会应用正呈现出多元化趋势。 一、技术研究方向 多模态智能体(Multi-modal Agents) 方向:将LLM与视觉、语音、触觉等多模态数…...

A Large Recurrent Action Model: xLSTM Enables Fast Inference for Robotics Tasks

奥地利林茨约翰开普勒大学机器学习研究所 ELLIS 小组&#xff0c;LIT 人工智能实验室奥地利林茨 NXAI 有限公司谷歌 DeepMind米拉 - 魁北克人工智能研究所 摘要 近年来&#xff0c;强化学习&#xff08;Reinforcement Learning, RL&#xff09;领域出现了一种趋势&#xff0c;…...

CSS按钮点击效果实战:scale(0.95) 与10个交互动画优化指南

[TOC](CSS按钮点击效果实战&#xff1a;scale(0.95) 与10个交互动画优化指南) 导语 在现代 Web 开发中&#xff0c;细腻的交互效果是提升用户体验的关键。通过简单的 CSS 动画&#xff08;如 transform: scale(0.95)&#xff09;&#xff0c;无需 JavaScript 即可实现高效、流…...

计算机毕业设计SpringBoot+Vue.js学科竞赛管理系统(源码+文档+PPT+讲解)

温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 作者简介&#xff1a;Java领…...

在Spring Boot+Vue前后端分离的项目中使用JWT实现基本的权限校验

说明 在 Spring Boot + Vue 前后端分离的项目中,如果不使用第三方服务(如 Spring Security、Shiro 等),可以通过自定义实现基本的权限校验。 使用JWT实现步骤 以下是实现步骤: 1. 设计权限模型 通常权限模型包括: 用户(User):系统的使用者。角色(Role):用户的权…...

Deep Seek-编码器

1. DeepSeek Coder 简介 DeepSeek Coder 由一系列代码语言模型组成,每个模型都在 2T 令牌上从头开始训练,其中 87% 的代码和 13% 的自然语言在中英文中组成。我们提供各种大小的代码模型,从 1B 到 33B 版本。每个模型都通过采用 16K 的窗口大小和额外的填空任务在项目级代码…...