当前位置: 首页 > article >正文

Ollama + Open WebUI部署教程:本地运行大语言模型,自建私有 AI 助手

Ollama Open WebUI部署教程本地运行大语言模型自建私有 AI 助手不想把对话内容发给 OpenAI有私密需求或离线场景Ollama 让你在自己的服务器上运行 Llama、Qwen、DeepSeek 等开源大语言模型Open WebUI 提供和 ChatGPT 一样的聊天界面。这篇文章讲如何搭建一套完整的私有 AI 服务。可以运行哪些模型Ollama 支持的主流模型2025 年模型中文支持最小显存/内存Qwen2.5:7b⭐ 优秀8GBDeepSeek-R1:7b⭐ 优秀8GBLlama3.1:8b✅ 一般8GBQwen2.5:14b⭐ 优秀16GBDeepSeek-R1:32b⭐ 极佳32GB无 GPU 时使用 CPU 推理速度较慢但可用。服务器配置CPU 推理无 GPU4 核 8GB 内存可跑 7B 模型生成速度约 2-5 token/s8 核 16GB 内存可跑 14B 模型有 NVIDIA GPU6GB 显存7B 模型流畅运行20 token/s16GB 显存14B 模型流畅运行我把服务部署在雨云服务器rainyuncom的 8 核 16G 机型上CPU 推理跑 Qwen2.5:7b 完全可用对话响应速度可以接受。注册填优惠码2026off领 5 折优惠券高内存机型价格实惠。Docker 部署mkdir-p~/aicd~/ai# docker-compose.ymlversion:3.8services:ollama:image:ollama/ollama:latestcontainer_name:ollamaports:-127.0.0.1:11434:11434volumes:-ollama_data:/root/.ollama# 模型存储会很大# 如果有 NVIDIA GPU取消下面注释# deploy:# resources:# reservations:# devices:# - driver: nvidia# count: 1# capabilities: [gpu]restart:unless-stoppedopen-webui:image:ghcr.io/open-webui/open-webui:maincontainer_name:open-webuiports:-127.0.0.1:3000:8080volumes:-webui_data:/app/backend/dataenvironment:-OLLAMA_BASE_URLhttp://ollama:11434-WEBUI_SECRET_KEY替换为随机字符串# 允许注册第一个注册的是管理员-ENABLE_SIGNUPtrue# 连接外部 OpenAI 兼容 API可选# - OPENAI_API_BASE_URLhttps://api.openai.com/v1# - OPENAI_API_KEY你的OpenAI密钥depends_on:-ollamarestart:unless-stoppedcaddy:image:caddy:alpinecontainer_name:caddyports:-80:80-443:443volumes:-./Caddyfile:/etc/caddy/Caddyfile-caddy_data:/data-caddy_config:/configrestart:unless-stoppedvolumes:ollama_data:webui_data:caddy_data:caddy_config:# Caddyfile ai.你的域名.com { reverse_proxy open-webui:8080 }dockercompose up-d下载模型# 下载 Qwen2.5 7B推荐中文场景约 4.7GBdockerexecollama ollama pull qwen2.5:7b# 下载 DeepSeek-R1 7B推理能力强约 4.7GBdockerexecollama ollama pull deepseek-r1:7b# 下载 Llama3.1 8B英文能力强约 4.9GBdockerexecollama ollama pull llama3.1:8b# 查看已下载的模型dockerexecollama ollama list访问和初始配置访问https://ai.你的域名.com第一个注册的账号自动成为管理员。推荐的初始设置「管理员设置」→「用户」→ 关闭注册只给自己和受信任的人用「模型」→ 选择下载的模型作为默认「系统提示词」→ 设置全局 System Prompt如用中文回答通过 API 使用兼容 OpenAI 格式Ollama 完全兼容 OpenAI API 格式可以替换 SDK 里的 base_urlfromopenaiimportOpenAI clientOpenAI(base_urlhttp://localhost:11434/v1,api_keyollama,# 随便填)responseclient.chat.completions.create(modelqwen2.5:7b,messages[{role:user,content:你好}])print(response.choices[0].message.content)# curl 测试curlhttp://localhost:11434/api/chat-d{ model: qwen2.5:7b, messages: [{role: user, content: 你好}], stream: false }自定义模型配置Modelfile# 创建带自定义系统提示词的模型cat~/ai/my-assistant.modelfileEOF FROM qwen2.5:7b SYSTEM 你是一个专业的 Linux 运维助手。 回答要简洁、准确优先提供可直接使用的命令。 默认使用中文回复。 PARAMETER temperature 0.7 PARAMETER num_ctx 4096 EOFdockerexec-iollama ollama create my-assistant-f-~/ai/my-assistant.modelfile性能优化# 在 docker-compose.yml 的 ollama 服务里添加environment:-OLLAMA_NUM_PARALLEL2# 同时处理 2 个请求-OLLAMA_MAX_LOADED_MODELS2# 同时加载 2 个模型需要内存够-OLLAMA_FLASH_ATTENTION1# 开启 Flash Attention更快查看资源占用# 查看推理时的 CPU/内存占用dockerstats ollama# 查看模型加载状态dockerexecollama ollamapsOllama Open WebUI 是目前最完整的本地 AI 部署方案ChatGPT 的体验、完全本地的隐私。在雨云服务器rainyuncom的 8 核 16G 机型上部署Qwen2.5:7b 运行流畅日常问答、写代码、总结文档都没问题注册填优惠码2026off领 5 折优惠券用自己的服务器跑 AI对话内容永远不会泄露给第三方。

相关文章:

Ollama + Open WebUI部署教程:本地运行大语言模型,自建私有 AI 助手

Ollama Open WebUI部署教程:本地运行大语言模型,自建私有 AI 助手 不想把对话内容发给 OpenAI?有私密需求或离线场景?Ollama 让你在自己的服务器上运行 Llama、Qwen、DeepSeek 等开源大语言模型,Open WebUI 提供和 Ch…...

5分钟掌握魔兽世界GSE宏编辑器:游戏操作效率提升300%

5分钟掌握魔兽世界GSE宏编辑器:游戏操作效率提升300% 【免费下载链接】GSE-Advanced-Macro-Compiler GSE is an alternative advanced macro editor and engine for World of Warcraft. 项目地址: https://gitcode.com/gh_mirrors/gs/GSE-Advanced-Macro-Compile…...

别再手动启动了!分享一个我自用的RocketMQ Dashboard一键启动脚本(附源码解析)

解放双手:RocketMQ集群智能启动方案与Dashboard深度优化指南 1. 运维自动化的必要性 每次重启服务器后,面对需要依次启动NameServer、Broker和Dashboard的繁琐流程,相信不少RocketMQ使用者都经历过这样的痛苦:忘记启动某个组件导致…...

HunterPie完全指南:如何在《怪物猎人世界》中获得实时数据监控优势

HunterPie完全指南:如何在《怪物猎人世界》中获得实时数据监控优势 【免费下载链接】HunterPie-legacy A complete, modern and clean overlay with Discord Rich Presence integration for Monster Hunter: World. 项目地址: https://gitcode.com/gh_mirrors/hu/…...

AI-Git-Narrator:基于LLM的Git提交历史自动化分析与文档生成工具

1. 项目概述与核心价值最近在折腾一个挺有意思的开源项目,叫AI-Git-Narrator。简单来说,它就像一个能“看懂”你代码提交历史的AI解说员。每次你往Git仓库里推送代码,它都能自动分析你这次提交到底改了啥,然后用自然语言生成一段清…...

物联网设备网络无缝切换与多网融合:exnetif模块实战指南

1. 项目概述:为什么我们需要exnetif? 在物联网项目的实际开发中,我遇到过太多因为网络环境不稳定而导致的“玄学”问题。比如,一个部署在工厂车间的智能网关,原本通过稳定的有线以太网连接云端,一旦生产线调…...

星际探险队

目录 星际探险队 游戏目标 游戏准备 核心玩法 沟通技能 星际探险队 2-5人的合作桌游 游戏目标 合作完成任务卡目标,如赢得特定牌墩、特定卡牌或特定数量牌墩 游戏准备 牌组:共 40 张牌,含 4 种颜色(1-9)和王…...

Draft-classic:云原生开发中Kubernetes部署的快速原型工具

1. 项目概述:从零到一的云原生应用部署加速器 如果你和我一样,长期在云原生和Kubernetes领域摸爬滚打,一定经历过这样的场景:一个应用的核心代码逻辑早已写完,但为了让它能在Kubernetes集群里跑起来,你不得…...

游戏存档管理终极指南:告别背包焦虑的5大解决方案

游戏存档管理终极指南:告别背包焦虑的5大解决方案 【免费下载链接】TQVaultAE Extra bank space for Titan Quest Anniversary Edition 项目地址: https://gitcode.com/gh_mirrors/tq/TQVaultAE 还在为游戏中的装备堆积如山而烦恼吗?每次冒险归来…...

Habitat-Lab:Meta开源具身AI仿真平台,从零搭建智能体训练场

1. 项目概述:从虚拟到现实的智能体训练场如果你对机器人、具身智能或者强化学习感兴趣,那么“Habitat-Lab”这个名字你大概率不会陌生。简单来说,Habitat-Lab是一个由Meta AI(前Facebook AI Research)开源的、用于具身…...

RakkasJS深度解析:基于Bun的全栈React框架性能与迁移实践

1. 项目概述:下一代全栈React框架的探索如果你和我一样,在过去几年里深度使用过Next.js、Remix或者SvelteKit这类全栈框架,那你肯定对它们带来的开发体验又爱又恨。爱的是它们统一了前后端,让全栈开发变得前所未有的顺畅&#xff…...

强化学习算法:深度确定性策略梯度(DDPG)

强化学习算法:深度确定性策略梯度(DDPG) 1. 技术分析 1.1 DDPG概述 DDPG是针对连续动作的深度强化学习算法: DDPG特点确定性策略: 输出确定动作而非概率Actor-Critic架构: 结合策略和价值离线策略: 使用经验回放核心创新:确定性策略梯度目标网络探索噪声…...

DETR模型ONNX推理实战:从输出张量到可视化检测框的完整解析

DETR模型ONNX推理实战:从输出张量到可视化检测框的完整解析 在目标检测领域,DETR(Detection Transformer)以其独特的端到端架构和简洁的流程设计,正在改变传统基于锚框(anchor-based)方法的格局…...

ZYNQ AXI DMA Scatter/Gather模式实战:从PL到PS的高效数据流构建与FreeRTOS任务调度

1. 理解AXI DMA Scatter/Gather模式的核心价值 在ZYNQ平台上构建高效数据流系统时,AXI DMA的Scatter/Gather模式(简称SG模式)绝对是硬件加速的利器。我第一次接触这个功能时,发现它完美解决了传统DMA传输中的两大痛点:…...

期权量化交易基础库:模块化设计与回测实战指南

1. 项目概述:一个为期权交易者打造的“地基” 如果你在量化交易或者期权策略开发领域摸爬滚打过一段时间,大概率会和我有同样的感受:每次想测试一个新想法,都得从零开始搭建数据接口、计算希腊字母、管理仓位、回测框架……这些重…...

Translumo完整指南:5分钟掌握Windows实时屏幕翻译神器,彻底告别语言障碍

Translumo完整指南:5分钟掌握Windows实时屏幕翻译神器,彻底告别语言障碍 【免费下载链接】Translumo Advanced real-time screen translator for games, hardcoded subtitles in videos, static text and etc. 项目地址: https://gitcode.com/gh_mirro…...

Visara:可视化代码仓库分析工具的设计原理与工程实践

1. 项目概述:一个面向开发者的视觉化代码仓库分析工具最近在和一些团队做代码评审和架构梳理时,我常常遇到一个痛点:面对一个陌生的、动辄几十上百个文件的代码仓库,如何快速理解它的整体结构、模块依赖和关键文件?传统…...

RK3566(泰山派)实战:D310T9362V1SPEC触摸屏驱动从零适配与调试(竖屏)

1. RK3566与D310T9362V1SPEC屏幕简介 RK3566是瑞芯微推出的一款高性能嵌入式处理器,采用四核Cortex-A55架构,主频可达1.8GHz。这款芯片在工业控制、智能家居和物联网设备中广泛应用,特别适合需要图形显示和触摸交互的场景。我最近在一个智能终…...

终极指南:如何用NoFences桌面分区工具提升3倍工作效率

终极指南:如何用NoFences桌面分区工具提升3倍工作效率 【免费下载链接】NoFences 🚧 Open Source Stardock Fences alternative 项目地址: https://gitcode.com/gh_mirrors/no/NoFences 你是否厌倦了Windows桌面上杂乱无章的图标?每天…...

Godot引擎命令行插件GDShell:提升开发效率与自动化实践

1. 项目概述:当游戏引擎遇见命令行如果你是一位游戏开发者,尤其是使用Godot引擎的同行,那么你一定对编辑器里那个功能强大但有时略显“笨重”的场景树、资源面板和属性检查器又爱又恨。爱的是它们提供了可视化的创作环境,恨的是当…...

MIMO AONN架构:量子干涉实现超低功耗光学神经网络

1. MIMO AONN架构的核心价值光学神经网络(AONN)正在突破传统电子计算的物理极限。在传统电子神经网络中,非线性激活函数需要消耗大量能量进行电子-光子转换,而基于量子干涉的光学非线性机制可以直接在光域实现这一关键操作。我们实…...

CSS3 媒体查询完全指南:响应式设计的核心利器

在移动设备种类繁多的今天,一套网页需要在手机、平板、笔记本、大屏显示器上都能呈现出良好的布局与可读性。CSS3 媒体查询(Media Queries) 正是实现这种“一次设计,处处适应”的关键技术。它允许开发者根据设备特性(如视口宽度、屏幕分辨率、方向、色彩能力等)有条件地应…...

尝试Taotoken不同模型节点对生成速度的细微影响感受

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 尝试Taotoken不同模型节点对生成速度的细微影响感受 1. 测试背景与动机 在日常使用大模型进行开发或内容创作时,除了模…...

保姆级教程:用ADAMS 2023复现人体行走与跌倒仿真(附完整模型参数与源文件)

ADAMS 2023生物力学仿真实战:从人体步态建模到跌倒临界点分析 在工程仿真领域,人体运动动力学一直是极具挑战性的研究方向。ADAMS作为多体动力学仿真软件的标杆,其2023版本在生物力学仿真方面新增了多项实用功能。本文将带您从零开始&#xf…...

浏览器智能体开发指南:从语义驱动到LLM集成的自动化实践

1. 项目概述:一个能“看”会“想”的浏览器智能体最近在折腾自动化工具和智能体(Agent)的时候,发现了一个挺有意思的项目:smouj/agent-browser。光看这个名字,你可能会觉得它只是一个普通的浏览器自动化库&…...

JUCE框架移植MDA经典音频插件:从VST2到现代跨平台开发实践

1. 项目概述:JUCE框架下的MDA插件遗产如果你在音频插件开发领域摸爬滚打过一段时间,尤其是对开源社区有所关注,那么“mda-plugins-juce”这个名字大概率会唤起你的一些记忆。这个由hollance维护的GitHub仓库,本质上是一个“移植”…...

HS2-HF_Patch:3步完成Honey Select 2汉化去码与插件整合

HS2-HF_Patch:3步完成Honey Select 2汉化去码与插件整合 【免费下载链接】HS2-HF_Patch Automatically translate, uncensor and update HoneySelect2! 项目地址: https://gitcode.com/gh_mirrors/hs/HS2-HF_Patch 还在为《Honey Select 2》的游戏体验而烦恼…...

在 Claude Code 中配置 Taotoken 以解决封号与 Token 不足问题

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 在 Claude Code 中配置 Taotoken 以解决封号与 Token 不足问题 对于依赖 Claude Code 进行编程辅助的开发者而言,服务中…...

一个经典嵌入式问题:如何安全读取 64 位计时器

在一个嵌入式系统中,需要读取一个持续自增的 64-bit 硬件计时器。由于系统只能通过 32-bit MMIO register 访问该计时器,所以硬件把它拆成两个 32-bit 寄存器:#define TIMER_LOW_ADDR 0x40001000 #define TIMER_HIGH_ADDR 0x40001010其中&…...

基于大语言模型的学术论文阅读辅助分析系统的研究与应用

基于大语言模型的学术论文阅读辅助分析系统的研究与应用 摘要 随着科研论文数量的指数级增长,科研工作者面临着前所未有的信息过载挑战。传统学术论文阅读方式依赖线性文本呈现,难以快速定位关键信息,跨文献知识整合效率低下。大语言模型的发展为解决这一问题提供了新的技…...