当前位置: 首页 > article >正文

Ollama本地大模型部署工程2026:从安装到生产的完整实战指南

本地化部署大模型在2026年已经不是尝鲜而是刚需——数据隐私、网络隔离、成本控制都推动着企业走向自托管。Ollama是目前最简单易用的本地LLM运行工具本文从入门到生产全面解析其工程化部署方案。—## 为什么选择Ollama在本地LLM运行工具中Ollama以极简的使用体验脱颖而出-一行命令启动模型ollama run llama3.2就能运行一个7B模型-跨平台支持macOSApple Silicon/Intel、Linux、Windows WSL2-REST API兼容和OpenAI SDK接口格式兼容迁移成本极低-模型管理内置模型拉取、删除、列表管理缺点同样明显性能不如vLLM不支持多GPU张量并行不适合大规模并发生产。但对中小团队的私有化部署Ollama是最务实的选择。—## 安装与基础配置### Linux服务器安装bash# 一键安装curl -fsSL https://ollama.ai/install.sh | sh# 验证安装ollama --version# 以服务方式启动开机自启sudo systemctl enable ollamasudo systemctl start ollama# 检查服务状态sudo systemctl status ollama### 配置外部访问默认Ollama只监听127.0.0.1生产环境需要配置bash# 编辑systemd服务文件sudo systemctl edit ollama# 添加以下内容[Service]EnvironmentOLLAMA_HOST0.0.0.0:11434EnvironmentOLLAMA_ORIGINS*EnvironmentOLLAMA_MODELS/data/ollama/models # 自定义模型存储路径# 重启服务sudo systemctl daemon-reloadsudo systemctl restart ollama### GPU配置bash# NVIDIA GPU配置# 安装CUDA驱动后Ollama自动检测并使用GPU# 验证GPU是否被使用ollama run qwen2.5:7b 你好# 运行时观察 nvidia-smi 是否有GPU使用率# 指定使用特定GPUCUDA_VISIBLE_DEVICES0,1 ollama serve—## 模型选型指南2026版| 模型 | 参数量 | 显存需求 | 适用场景 ||------|--------|---------|---------|| Qwen2.5:7b | 7B | 8GB | 通用对话、中文优化 || Qwen2.5:14b | 14B | 16GB | 高质量中文生成 || Llama3.2:3b | 3B | 4GB | 资源受限环境 || Llama3.1:70b | 70B | 48GB | 高质量英文任务 || DeepSeek-r1:7b | 7B | 8GB | 推理和代码 || CodeLlama:13b | 13B | 16GB | 代码生成 || nomic-embed-text | - | 1GB | 文本嵌入 |推荐配置- 8GB显存服务器Qwen2.5:7b中文场景最优- 16GB显存服务器Qwen2.5:14b 或 DeepSeek-r1:14b- 无GPU使用CPU运行3B模型慢但可用bash# 拉取推荐模型ollama pull qwen2.5:7bollama pull nomic-embed-text # 向量化模型# 查看已安装模型ollama list# 查看模型信息ollama show qwen2.5:7b—## 自定义ModelfileOllama支持通过Modelfile自定义模型行为类似于Docker的Dockerfiledockerfile# Modelfile - 企业知识库问答助手FROM qwen2.5:7b# 设置系统提示SYSTEM 你是一位专业的企业内部助手专门回答关于公司产品、政策和流程的问题。规则1. 只回答与公司业务相关的问题2. 如果不确定明确说明并建议联系相关部门3. 保持专业、简洁的回答风格4. 不得泄露任何标记为机密的信息公司ExampleCorp当前日期{date}# 调整生成参数PARAMETER temperature 0.3 # 较低温度更确定性的输出PARAMETER top_p 0.9PARAMETER num_ctx 8192 # 上下文窗口大小PARAMETER repeat_penalty 1.1 # 减少重复# 设置停止符PARAMETER stop 用户PARAMETER stop 助手bash# 从Modelfile创建自定义模型ollama create company-assistant -f Modelfile# 测试ollama run company-assistant 我们公司的年假政策是什么—## OpenAI兼容API集成Ollama提供了与OpenAI格式兼容的REST API可以无缝替换pythonfrom openai import OpenAI# 直接使用OpenAI SDK连接Ollamaclient OpenAI( base_urlhttp://localhost:11434/v1, api_keyollama # Ollama不需要真实API key)# 对话生成def chat(messages: list[dict], model: str qwen2.5:7b) - str: response client.chat.completions.create( modelmodel, messagesmessages, temperature0.7, max_tokens2048 ) return response.choices[0].message.content# 流式输出def chat_stream(messages: list[dict], model: str qwen2.5:7b): stream client.chat.completions.create( modelmodel, messagesmessages, streamTrue ) for chunk in stream: if chunk.choices[0].delta.content: yield chunk.choices[0].delta.content# 文本向量化def embed(text: str, model: str nomic-embed-text) - list[float]: response client.embeddings.create( inputtext, modelmodel ) return response.data[0].embedding### LangChain集成pythonfrom langchain_ollama import ChatOllama, OllamaEmbeddingsfrom langchain_core.prompts import ChatPromptTemplate# 初始化llm ChatOllama( modelqwen2.5:7b, temperature0.3, base_urlhttp://localhost:11434)embeddings OllamaEmbeddings( modelnomic-embed-text, base_urlhttp://localhost:11434)# 构建RAG链from langchain_community.vectorstores import Chromafrom langchain_core.runnables import RunnablePassthrough# 创建向量库使用本地embeddingsvectorstore Chroma.from_texts( texts[公司假期政策..., 报销流程...], embeddingembeddings)retriever vectorstore.as_retriever(search_kwargs{k: 3})prompt ChatPromptTemplate.from_template(根据以下上下文回答问题上下文{context}问题{question})chain ( {context: retriever, question: RunnablePassthrough()} | prompt | llm)result chain.invoke(公司的年假是多少天)—## 生产部署Nginx负载均衡多实例对于需要处理并发的场景可以运行多个Ollama实例bash# 启动多个Ollama实例不同端口OLLAMA_HOST0.0.0.0:11434 ollama serve OLLAMA_HOST0.0.0.0:11435 ollama serve OLLAMA_HOST0.0.0.0:11436 ollama serve nginxupstream ollama_cluster { least_conn; # 最少连接数负载均衡 server localhost:11434 weight1; server localhost:11435 weight1; server localhost:11436 weight1;}server { listen 80; location /api { proxy_pass http://ollama_cluster; proxy_read_timeout 300s; proxy_buffering off; }}—## 监控指标bash# Ollama暴露Prometheus格式的指标curl http://localhost:11434/metrics# 关键指标# ollama_request_duration_seconds - 请求延迟# ollama_prompt_tokens_total - 输入Token总量# ollama_completion_tokens_total - 输出Token总量# ollama_load_duration_seconds - 模型加载时间—## 资源规划参考| 场景 | 推荐配置 | 模型 | 并发能力 ||------|---------|------|---------|| 个人开发 | MacBook M2 16GB | Qwen2.5:7b | 1 || 小团队10人 | 16G显卡服务器 | Qwen2.5:14b | 3-5 || 中型团队10-50人 | 2×24G显卡 | Qwen2.5:32b | 10-15 || 企业私有化 | 4×80G A100 | Qwen2.5:72b | 20 |Ollama把本地运行大模型这件事变得前所未有地简单。对于有数据隐私需求、网络隔离要求或成本控制压力的团队本地部署方案在2026年已经是一个值得认真考虑的选项。

相关文章:

Ollama本地大模型部署工程2026:从安装到生产的完整实战指南

本地化部署大模型在2026年已经不是"尝鲜"而是"刚需"——数据隐私、网络隔离、成本控制,都推动着企业走向自托管。Ollama是目前最简单易用的本地LLM运行工具,本文从入门到生产,全面解析其工程化部署方案。 —## 为什么选择…...

点云分割结果边缘锯齿、聚类空洞、语义标签错位?独家「点云健康度评分」算法首次公开(含Scikit-PointCloud扩展模块)

更多请点击: https://intelliparadigm.com 第一章:点云健康度评分的定义与工程价值 点云健康度评分(Point Cloud Health Score, PCHS)是一种量化评估三维点云数据质量的综合指标,涵盖完整性、几何一致性、噪声水平、密…...

两类互连网络的子网络可靠性平衡超立方体【附代码】

✨ 本团队擅长数据搜集与处理、建模仿真、程序设计、仿真代码、EI、SCI写作与指导,毕业论文、期刊论文经验交流。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流,查看文章底部二维码(1)故障概率分层传播模型与子网络存在性约束生成&…...

多井节能抽油机智能控制物联网【附代码】

✨ 本团队擅长数据搜集与处理、建模仿真、程序设计、仿真代码、EI、SCI写作与指导,毕业论文、期刊论文经验交流。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流,查看文章底部二维码(1)自适应神经网络PID与电机转速协同优化:…...

codedb:为AI智能体打造的毫秒级代码索引与查询服务器

1. 项目概述:为AI智能体打造的极速代码智能服务器如果你正在探索AI智能体(Agent)如何更高效地理解、操作和修改你的代码库,那么你很可能已经遇到了一个核心瓶颈:如何让AI快速、准确地“看到”整个项目的全貌&#xff0…...

为AI编码助手构建持久化记忆:RepoMemory解决上下文断裂难题

1. 项目概述:为AI编码助手构建持久化记忆如果你和我一样,日常开发中会同时使用Claude、Cursor、Codex等多个AI编码助手,那你一定遇到过这个让人头疼的问题:每次开启一个新的对话会话,AI助手都像得了“健忘症”&#xf…...

深度伪造检测技术:校准重合成方法解析与实践

1. 深度伪造检测技术背景解析在数字内容爆炸式增长的今天,视频伪造技术已经发展到令人担忧的程度。去年某知名社交平台上流传的虚假名人演讲视频,在24小时内就获得了超过200万次观看,这个事件让行业意识到深度伪造(Deepfake)检测技术的重要性…...

RepoMemory:为AI编程助手构建本地记忆层,解决会话无状态痛点

1. 项目概述:为什么你的AI编程助手总在“失忆”?如果你和我一样,日常开发中重度依赖Claude、Cursor、Codex这类AI编程助手,那你肯定遇到过这个让人抓狂的场景:昨天Claude帮你重构一个模块,在某个函数上卡了…...

独立开发者如何借助 Taotoken 以更低成本试用主流大模型

独立开发者如何借助 Taotoken 以更低成本试用主流大模型 1. 模型选型与成本控制策略 对于独立开发者和小型工作室而言,在原型开发阶段需要平衡模型能力与成本投入。Taotoken 平台提供的模型广场汇集了多种主流大模型,开发者可以直观比较不同模型的定价…...

ARM C2C接口架构解析与多核SoC互联实践

1. ARM C2C接口架构概述 在现代多核SoC设计中,芯片间互联技术直接影响系统整体性能。ARM C2C(Chip-to-Chip)接口作为硬件级互联方案,通过标准化的协议栈和状态机管理机制,实现了高效的跨芯片通信。其核心设计理念可归纳…...

3分钟极速改造:让小爱音箱秒变AI语音助手的完整指南

3分钟极速改造:让小爱音箱秒变AI语音助手的完整指南 【免费下载链接】mi-gpt 🏠 将小爱音箱接入 ChatGPT 和豆包,改造成你的专属语音助手。 项目地址: https://gitcode.com/GitHub_Trending/mi/mi-gpt 还在为智能音箱的"人工智障…...

2.4 采购部门——权力来自信息不对称

上一节我们讲了运营人员。这一节,我们来讲采购部门。如果说运营人员的抵抗是“沉默的”,那采购部门的抵抗就是“专业的”。他们懂得怎么说,让你没法反驳。采购经理的权力先讲一个我亲眼见过的事。有一家公司,采购经理姓刘&#xf…...

2.3 运营人员——把自己的经验写成代码,然后替代自己

上一节我们讲了工人和班组长为什么不用系统。这一节,我们往上走一层,说说运营人员。一个运营总监的困惑我的朋友老李,在一家连锁企业做运营总监。干了十几年,从店长一步步升上来的。他懂业务。门店里那点事,没有他搞不…...

引入选择性IoU感知样本分配的YOLOv10定位增强(Selective-IoU YOLOv10)

目录 一、前言:从一次失败的检测说起 二、YOLOv10原有的样本分配机制(以及它的不足) 三、选择性IoU感知样本分配:核心思想与数学原理 3.1 传统分配 vs 选择性IoU分配 3.2 动态top-k策略 四、代码实现(完整可直接复制) 4.1 选择性IoU感知分配器核心类 4.2 修改YOL…...

面试官让我讲synchronized,老汪用一间厕所给我整明白了

“synchronized?这我熟。项目里天天用。” 面试官眼皮都没抬。 “行。那你先说说,synchronized锁的是什么东西?” 小强嘴角微微上扬。 “锁的是对象。每个Java对象都可以作为锁。” “还有吗?” “嗯……还能锁类,比如…...

ARM开发平台SMC以太网与UART接口详解

1. ARM开发平台通信接口概述 在嵌入式系统开发中,通信接口的设计与实现是硬件与软件交互的关键。Juno r1 ARM开发平台作为一款功能强大的开发板,提供了多种通信接口方案,其中SMC以太网和UART接口是最常用的两种外设连接方式。 作为在嵌入式领…...

anaconda创建新环境激活

第一步,确认执行策略有没有改成功:Get-ExecutionPolicy -List重点看这一行:CurrentUser RemoteSigned如果看到 CurrentUser 对应的是 RemoteSigned,说明已经可以了。然后第二步,关闭当前 VSCode 终端,重…...

Intel Alder Lake混合架构移动处理器解析与应用指南

1. Intel Alder Lake混合架构移动处理器家族概览最近泄露的Intel Alder Lake移动处理器产品线规划显示,英特尔正在为不同功耗需求的移动设备打造一系列混合架构处理器。从仅5-7W功耗的平板电脑用处理器,到高达55W的移动工作站级别芯片,这个家…...

VS Code扩展图标消失?一键修复工具原理与使用指南

1. 项目概述:一个专治IDE“图标消失症”的修复工具如果你是一名重度使用AI编程助手的开发者,尤其是在VS Code、Cursor这类现代IDE里依赖OpenAI Codex扩展来提升编码效率,那么你很可能遇到过这个让人抓狂的“幽灵问题”:某天打开编…...

Python学习--tuple元祖

认识元组理解&#xff1a;不可以进行修改的“列表” 定义&#xff1a;tuple,() 注意&#xff1a;元组的元素可以是任意类型&#xff1b;元组元素不可修改t (1, 2, aaa, True, 3, [2, 3, 5, asd]) print(type(t)) #<class tuple> print(t) #((1, 2, aaa, True, 3, [2…...

Windows安卓应用安装终极指南:APK Installer让你告别模拟器时代

Windows安卓应用安装终极指南&#xff1a;APK Installer让你告别模拟器时代 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 想在Windows电脑上直接运行手机应用却苦于找…...

Python模型微调效率提升300%:从数据预处理到梯度裁剪的5步工业级优化流程

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;Python模型微调效率提升300%&#xff1a;从数据预处理到梯度裁剪的5步工业级优化流程 在真实生产环境中&#xff0c;微调大型语言模型常因I/O瓶颈、内存冗余和梯度震荡导致训练吞吐量低下。我们通过一套…...

Redis 高频八股文:从缓存到持久化,一篇搞懂常见面试题

前言Redis 是后端开发中非常常见的中间件&#xff0c;尤其是在 Java 项目里&#xff0c;经常用来做缓存、验证码、排行榜、分布式锁、限流等功能。面试的时候&#xff0c;Redis 也是高频考点&#xff0c;常见问题包括&#xff1a;Redis 为什么这么快&#xff1f;Redis 有哪些数…...

3步搞定跨平台应用:Windows系统上的轻量级安卓安装器全解析

3步搞定跨平台应用&#xff1a;Windows系统上的轻量级安卓安装器全解析 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否曾想在Windows电脑上直接运行安卓应用&am…...

桌面机械爪DIY:从Arduino控制到Python编程的软硬件结合实践

1. 项目概述与核心价值 最近在折腾一个挺有意思的小玩意儿&#xff0c;叫“Clawd on Desk”。这名字听起来有点怪&#xff0c;但说白了&#xff0c;就是一个放在桌面上的微型机械爪。它的核心玩法&#xff0c;是通过一个叫“rullerzhou-afk”的开发者提供的开源项目&#xff0c…...

5分钟掌握Applera1n:iOS 15-16设备激活锁绕过终极指南

5分钟掌握Applera1n&#xff1a;iOS 15-16设备激活锁绕过终极指南 【免费下载链接】applera1n icloud bypass for ios 15-16 项目地址: https://gitcode.com/gh_mirrors/ap/applera1n iOS激活锁是苹果设备的重要安全功能&#xff0c;但当你合法获得二手iPhone却无法联系…...

802.11a无线局域网技术解析与工程实践

1. 802.11a无线局域网技术概述2002年&#xff0c;当大多数企业还在使用11Mbps的802.11b无线网络时&#xff0c;IEEE推出的802.11a标准就像在乡间小道上突然出现的高速公路。作为第一代真正意义上的高速WLAN标准&#xff0c;它采用了当时革命性的5GHz频段和OFDM调制技术&#xf…...

别再死记硬背了!AutoSar CAN IF模块这10个配置项,新手工程师最常踩的坑都在这了

AutoSar CAN IF模块配置避坑指南&#xff1a;10个关键参数详解与实战经验 刚接触AutoSar BSW配置的工程师&#xff0c;面对CAN IF模块密密麻麻的参数表时&#xff0c;往往陷入两难&#xff1a;要么机械照搬参考项目配置&#xff0c;要么在参数间的复杂依赖关系中迷失方向。我曾…...

嵌入式系统平台选择与视频处理优化实战

1. 嵌入式系统平台选择的核心逻辑在嵌入式系统开发中&#xff0c;平台选择就像建造房屋前选择地基和建筑材料。这个决定不仅影响当前项目的成败&#xff0c;更会左右产品未来3-5年的生命周期。我经历过多次平台选型的痛苦抉择&#xff0c;最深刻的教训是&#xff1a;没有"…...

OpenClaw 如何快速接入 Taotoken 实现多模型调用

OpenClaw 如何快速接入 Taotoken 实现多模型调用 1. 准备工作 在开始配置之前&#xff0c;请确保您已经完成以下准备工作。首先&#xff0c;您需要在本地或服务器上安装好 OpenClaw 工具。其次&#xff0c;您需要拥有一个有效的 Taotoken API Key&#xff0c;可以在 Taotoken…...