当前位置：首页 > article >正文

Ollama + Open WebUI部署教程：本地运行大语言模型，自建私有 AI 助手

article 2026/5/18 15:22:31

Ollama Open WebUI部署教程本地运行大语言模型自建私有 AI 助手不想把对话内容发给 OpenAI有私密需求或离线场景Ollama 让你在自己的服务器上运行 Llama、Qwen、DeepSeek 等开源大语言模型Open WebUI 提供和 ChatGPT 一样的聊天界面。这篇文章讲如何搭建一套完整的私有 AI 服务。可以运行哪些模型Ollama 支持的主流模型2025 年模型中文支持最小显存/内存Qwen2.5:7b⭐ 优秀8GBDeepSeek-R1:7b⭐ 优秀8GBLlama3.1:8b✅ 一般8GBQwen2.5:14b⭐ 优秀16GBDeepSeek-R1:32b⭐ 极佳32GB无 GPU 时使用 CPU 推理速度较慢但可用。服务器配置CPU 推理无 GPU4 核 8GB 内存可跑 7B 模型生成速度约 2-5 token/s8 核 16GB 内存可跑 14B 模型有 NVIDIA GPU6GB 显存7B 模型流畅运行20 token/s16GB 显存14B 模型流畅运行我把服务部署在雨云服务器rainyuncom的 8 核 16G 机型上CPU 推理跑 Qwen2.5:7b 完全可用对话响应速度可以接受。注册填优惠码2026off领 5 折优惠券高内存机型价格实惠。Docker 部署mkdir-p~/aicd~/ai# docker-compose.ymlversion:3.8services:ollama:image:ollama/ollama:latestcontainer_name:ollamaports:-127.0.0.1:11434:11434volumes:-ollama_data:/root/.ollama# 模型存储会很大# 如果有 NVIDIA GPU取消下面注释# deploy:# resources:# reservations:# devices:# - driver: nvidia# count: 1# capabilities: [gpu]restart:unless-stoppedopen-webui:image:ghcr.io/open-webui/open-webui:maincontainer_name:open-webuiports:-127.0.0.1:3000:8080volumes:-webui_data:/app/backend/dataenvironment:-OLLAMA_BASE_URLhttp://ollama:11434-WEBUI_SECRET_KEY替换为随机字符串# 允许注册第一个注册的是管理员-ENABLE_SIGNUPtrue# 连接外部 OpenAI 兼容 API可选# - OPENAI_API_BASE_URLhttps://api.openai.com/v1# - OPENAI_API_KEY你的OpenAI密钥depends_on:-ollamarestart:unless-stoppedcaddy:image:caddy:alpinecontainer_name:caddyports:-80:80-443:443volumes:-./Caddyfile:/etc/caddy/Caddyfile-caddy_data:/data-caddy_config:/configrestart:unless-stoppedvolumes:ollama_data:webui_data:caddy_data:caddy_config:# Caddyfile ai.你的域名.com { reverse_proxy open-webui:8080 }dockercompose up-d下载模型# 下载 Qwen2.5 7B推荐中文场景约 4.7GBdockerexecollama ollama pull qwen2.5:7b# 下载 DeepSeek-R1 7B推理能力强约 4.7GBdockerexecollama ollama pull deepseek-r1:7b# 下载 Llama3.1 8B英文能力强约 4.9GBdockerexecollama ollama pull llama3.1:8b# 查看已下载的模型dockerexecollama ollama list访问和初始配置访问https://ai.你的域名.com第一个注册的账号自动成为管理员。推荐的初始设置「管理员设置」→「用户」→ 关闭注册只给自己和受信任的人用「模型」→ 选择下载的模型作为默认「系统提示词」→ 设置全局 System Prompt如用中文回答通过 API 使用兼容 OpenAI 格式Ollama 完全兼容 OpenAI API 格式可以替换 SDK 里的 base_urlfromopenaiimportOpenAI clientOpenAI(base_urlhttp://localhost:11434/v1,api_keyollama,# 随便填)responseclient.chat.completions.create(modelqwen2.5:7b,messages[{role:user,content:你好}])print(response.choices[0].message.content)# curl 测试curlhttp://localhost:11434/api/chat-d{ model: qwen2.5:7b, messages: [{role: user, content: 你好}], stream: false }自定义模型配置Modelfile# 创建带自定义系统提示词的模型cat~/ai/my-assistant.modelfileEOF FROM qwen2.5:7b SYSTEM 你是一个专业的 Linux 运维助手。回答要简洁、准确优先提供可直接使用的命令。默认使用中文回复。 PARAMETER temperature 0.7 PARAMETER num_ctx 4096 EOFdockerexec-iollama ollama create my-assistant-f-~/ai/my-assistant.modelfile性能优化# 在 docker-compose.yml 的 ollama 服务里添加environment:-OLLAMA_NUM_PARALLEL2# 同时处理 2 个请求-OLLAMA_MAX_LOADED_MODELS2# 同时加载 2 个模型需要内存够-OLLAMA_FLASH_ATTENTION1# 开启 Flash Attention更快查看资源占用# 查看推理时的 CPU/内存占用dockerstats ollama# 查看模型加载状态dockerexecollama ollamapsOllama Open WebUI 是目前最完整的本地 AI 部署方案ChatGPT 的体验、完全本地的隐私。在雨云服务器rainyuncom的 8 核 16G 机型上部署Qwen2.5:7b 运行流畅日常问答、写代码、总结文档都没问题注册填优惠码2026off领 5 折优惠券用自己的服务器跑 AI对话内容永远不会泄露给第三方。

Ollama + Open WebUI部署教程：本地运行大语言模型，自建私有 AI 助手

相关文章：

Ollama + Open WebUI部署教程：本地运行大语言模型，自建私有 AI 助手

5分钟掌握魔兽世界GSE宏编辑器：游戏操作效率提升300%

别再手动启动了！分享一个我自用的RocketMQ Dashboard一键启动脚本（附源码解析）

HunterPie完全指南：如何在《怪物猎人世界》中获得实时数据监控优势

AI-Git-Narrator：基于LLM的Git提交历史自动化分析与文档生成工具

物联网设备网络无缝切换与多网融合：exnetif模块实战指南

星际探险队

Draft-classic：云原生开发中Kubernetes部署的快速原型工具

游戏存档管理终极指南：告别背包焦虑的5大解决方案

Habitat-Lab：Meta开源具身AI仿真平台，从零搭建智能体训练场

RakkasJS深度解析：基于Bun的全栈React框架性能与迁移实践

强化学习算法：深度确定性策略梯度(DDPG)

DETR模型ONNX推理实战：从输出张量到可视化检测框的完整解析

ZYNQ AXI DMA Scatter/Gather模式实战：从PL到PS的高效数据流构建与FreeRTOS任务调度

期权量化交易基础库：模块化设计与回测实战指南

Translumo完整指南：5分钟掌握Windows实时屏幕翻译神器，彻底告别语言障碍

Visara：可视化代码仓库分析工具的设计原理与工程实践

RK3566（泰山派）实战：D310T9362V1SPEC触摸屏驱动从零适配与调试（竖屏）

终极指南：如何用NoFences桌面分区工具提升3倍工作效率

Godot引擎命令行插件GDShell：提升开发效率与自动化实践

MIMO AONN架构：量子干涉实现超低功耗光学神经网络

CSS3 媒体查询完全指南：响应式设计的核心利器

尝试Taotoken不同模型节点对生成速度的细微影响感受

保姆级教程：用ADAMS 2023复现人体行走与跌倒仿真（附完整模型参数与源文件）

浏览器智能体开发指南：从语义驱动到LLM集成的自动化实践

JUCE框架移植MDA经典音频插件：从VST2到现代跨平台开发实践

HS2-HF_Patch：3步完成Honey Select 2汉化去码与插件整合

在 Claude Code 中配置 Taotoken 以解决封号与 Token 不足问题

一个经典嵌入式问题：如何安全读取 64 位计时器

基于大语言模型的学术论文阅读辅助分析系统的研究与应用