ai本地化 部署常用Ollama软件
现在用最简单的方式介绍一下 Ollama 的作用和用法:
Ollama 是什么?
Ollama 是一个让你能在自己电脑上免费运行大型语言模型(比如 Llama 3、Mistral 等)的工具。
相当于你本地电脑上有一个类似 ChatGPT 的 AI,但完全不用联网,所有数据都在自己电脑里处理,更安全、更私密。
它有什么用?
-
离线使用 AI:不联网也能和 AI 对话、生成文本、写代码等。
-
保护隐私:你的对话内容不会上传到服务器,适合处理敏感信息。
-
开发者友好:方便测试、调试 AI 模型,或集成到自己的项目中。
怎么用?(3步搞定)
1. 安装 Ollama
- Mac/Linux:官网下载安装包,或终端直接运行:
curl -fsSL https://ollama.com/install.sh | sh
- Windows(测试版):从官网下载安装包。Ollama主页:https://ollama.com/

windows 环境配置
- 关闭开机自启动(可选):
Ollama 默认会随 Windows 自动启动,可以在「文件资源管理器」的地址栏中访问以下路径,删除其中的Ollama.lnk快捷方式文件,阻止它自动启动。
%APPDATA%\Microsoft\Windows\Start Menu\Programs\Startup

- 配置环境变量(必须):
Ollama 的默认模型存储路径如下:C:\Users%username%.ollama\models,无论 C 盘空间大小,需要安装多少模型,都建议换一个存放路径到其它盘,否则会影响电脑运行速度。
打开「系统环境变量」,新建一个系统变量OLLAMA_MODELS ,然后设置ollama模型的存储路径。
变量名:OLLAMA_MODELS
变量值(路径):D:\Work\ollama\models
- 配置端口(可选):
Ollama API 的默认访问地址和侦听端口是http://localhost:11434,只能在装有 Ollama 的系统中直接调用。如果要在网络中提供服务,请修改 API 的侦听地址和端口(在系统环境变量里设置):
变量名:OLLAMA_HOST
变量值(端口)::8000
只填写端口号可以同时侦听(所有) IPv4 和 IPv6 的:8000 端口。(变量值的端口前号前有个冒号:)
注:要使用 IPv6,需要 Ollama 0.0.20 或更高版本。另外,可能需要在 Windows 防火墙中开放相应端口的远程访问。
- 允许浏览器跨域请求(可选):
Ollama 默认只允许来自127.0.0.1和0.0.0.0的跨域请求,如果你计划在其它前端面板中调用 Ollama API,比如Open WebUI,建议放开跨域限制:
变量名:OLLAMA_ORIGINS
变量值:*
2. 下载模型
在终端输入命令下载模型(比如下载最流行的 Llama 3):
ollama run llama3 # 自动下载并运行

其他模型(如 mistral、phi3、gemma)同理,替换名字即可。
执行指令ollama run <模型名称>,首次执行会从模型库中下载模型,所需时间取决于你的网速和模型大小。模型库地址:https://ollama.org.cn/library
3. 开始对话
运行模型后,直接在终端输入问题,比如:
>>> 用一句话解释量子力学
>>> 写一个Python代码计算斐波那契数列

按 Ctrl+D 或输入 /bye 退出。
如果觉得直接在黑框里运行不优雅,可以将Ollama接入到成熟的UI系统中,比如Open WebUI,地址如下:
https://github.com/ollama/ollama?tab=readme-ov-file#community-integrations
常用命令
-
ollama list:查看已下载的模型 -
ollama run 模型名:运行指定模型 -
ollama pull 模型名:只下载不运行 -
ollama rm 模型名:删除模型
Usage:ollama [flags]ollama [command]Available Commands:serve 启动 Ollama 服务create 从 Modelfile 创建一个模型show 查看模型详细信息run 运行一个模型stop 停止正在运行的模型pull 从注册表拉取一个模型push 将一个模型推送到注册表list 列出所有可用的模型ps 列出当前正在运行的模型cp 复制一个模型rm 删除一个模型help 获取关于任何命令的帮助信息Flags:-h, --help help for ollama-v, --version Show version information
高级用法
-
网页端对话:安装后访问
http://localhost:11434使用网页界面。 -
API 调用:可以用代码通过接口调用本地模型(类似 OpenAI 的 API)。
-
自定义模型:修改模型参数后,用
ollama create创建自己的版本。
调用 Ollama 接口
Ollama 提供了丰富的 API 接口,供外部调用访问。详细的 接口文档 可以在官方 GitHub 中找到。
| 接口名称 | 接口地址 | 请求方法 | 接口描述 |
|---|---|---|---|
| Generate | /api/generate | POST | 使用提供的模型为给定提示生成响应。 |
| Chat | /api/chat | POST | 使用提供的模型生成聊天中的下一条消息 |
| Create | /api/create | POST | 从 Modelfile 创建一个新的模型。 |
| Tags | /api/tags | GET | 列出本地可提供的型号。 |
| Show | /api/show | POST | 获取指定模型的详细信息。 |
| Copy | /api/copy | POST | 从现有模型创建副本。 |
| Delete | /api/delete | DELETE | 删除模型及其数据。 |
| Pull | /api/pull | POST | 从 Ollama 库中下载指定模型。 |
| Push | /api/push | POST | 将模型上传到模型库。 |
| Embed | /api/embed | POST | 使用指定模型生成嵌入。 |
| ListRunning | /api/ps | POST | 列出当前加载到内存中的模型。 |
| Embeddings | /api/embeddings | POST | 生成嵌入(与 Embed 类似,但可能适用场景不同)。 |
| Version | /api/version | GET | 获取 Ollama 服务的版本号。 |
适合谁用?
-
想本地体验 AI 的普通用户
-
开发者测试 AI 功能
-
学习 AI 技术的学生/研究者
-
需要处理敏感数据的企业
总结:Ollama = 本地版 ChatGPT + 简单操作 + 完全免费 + 隐私保护,适合对 AI 感兴趣的所有人!
相关文章:
ai本地化 部署常用Ollama软件
现在用最简单的方式介绍一下 Ollama 的作用和用法: Ollama 是什么? Ollama 是一个让你能在自己电脑上免费运行大型语言模型(比如 Llama 3、Mistral 等)的工具。 相当于你本地电脑上有一个类似 ChatGPT 的 AI,但完全…...
vllm部署QwQ32B(Q4_K_M)
vllm部署QwQ32B(Q4_K_M) Ollama是一个轻量级的开源LLM推理框架,注重简单易用和本地部署,而VLLM是一个专注于高效推理的开源大型语言模型推理引擎,适合开发者在实际应用中集成和使用。两者的主要区别在于Ollama更注重为用户提供多种模型选择和…...
VLLM:虚拟大型语言模型(Virtual Large Language Model)
VLLM:虚拟大型语言模型(Virtual Large Language Model) VLLM指的是一种基于云计算的大型语言模型的虚拟实现。它通常是指那些由多个服务器组成的分布式计算环境中的复杂机器学习模型,这些模型能够处理和理解大量的文本数据。VLLM的…...
企业内网监控软件的选型与应用:四款主流产品的深度剖析
在数字化办公的时代背景下,企业内部网络管理的重要性愈发显著。对于企业管理者而言,如何精准掌握员工工作状态,保障网络安全与工作效率,已成为亟待解决的关键问题。本文将深入剖析四款主流企业内网监控软件,探讨其功能…...
蓝桥杯省赛(2024)
问题描述 小蓝和朋友们在玩一个报数游戏。由于今年是 20242024 年,他们决定要从小到大轮流报出是 2020 或 2424 倍数的正整数。前 1010 个被报出的数是:20,24,40,48,60,72,80,96,100,12020,24,40,48,60,72,80,96,100,120。请问第 2024202420242024202420…...
Qt窗口控件之字体对话框QFontDialog
字体对话框QFontDialog QFontDialog 是 Qt 内置的字体对话框,用户能够在这里选择字体的样式、大小,设置加粗和下划线并将结果作为返回值返回。QFontDialog 最好使用其提供的静态函数实例化匿名对象,并获取返回值最为用户选择字体设置的结果。…...
Qt QML实现视频帧提取
## 前言 视频帧率(Frame Rate)是指视频播放时每秒显示的画面帧数,通常用fps(Frames Per Second)来表示。视频是由一系列静止的图像帧组成的,而视频帧率则决定了这些图像帧在单位时间内播放的速度。较高的视…...
网络性能指标
目录 时延 延迟抖动 丢包率 时延:数据传输的快慢,影响实时性。抖动:延迟的变化,影响稳定性。丢包率:数据丢失的比例,影响可靠性。 时延 定义:时延是指数据从发送端传输到接收端所需的时间&…...
在 Ubuntu 服务器上使用宝塔面板搭建博客
📌 介绍 在本教程中,我们将介绍如何在 Ubuntu 服务器 上安装 宝塔面板,并使用 Nginx PHP MySQL 搭建一个博客(如 WordPress)。 主要步骤包括: 安装宝塔面板配置 Nginx PHP MySQL绑定域名与 SSL 证书…...
计算机组成与接口16
1.0的表示方法唯一的有补码,移码,ASCII码 2.可以多次编程的只读存储器是EPROM,掩膜式ROM 3.8259A芯片可设置成脉冲边沿触发方式;全嵌套方式;自动中断结束方式;特殊屏蔽方式 4.计算机系统中的总线按层次可以分为板级…...
有了大语言模型还需要 RAG 做什么
一、百炼平台简介 阿里云的百炼平台就像是一个超级智能的大厨房,专门为那些想要做出美味AI大餐的企业和个人厨师准备的。你不需要从头开始做每一道菜,因为这个厨房已经为你准备了很多预制食材(预训练模型),你可以根据…...
【从0到1搞懂大模型】RNN基础(4)
先说几个常用的可以下载数据集的地方 平台:kaggle(https://www.kaggle.com/datasets) 和鲸社区(https://www.heywhale.com/home) 阿里天池(https://tianchi.aliyun.com/) 其他:海量公…...
【第K小数——可持久化权值线段树】
题目 代码 #include <bits/stdc.h> using namespace std;const int N 1e5 10;int a[N], b[N]; int n, m, len; int rt[N], idx; // idx 是点分配器struct node {int l, r;int s; } tr[N * 22];int getw(int x) {return lower_bound(b 1, b len 1, x) - b; }int bui…...
直流减速电机控制实验:Simulink应用层开发(1)
文章目录 1 阶段目标2 功能需求3 需求拆解及方案研究3.1 需求拆解3.2 按键指令识别3.3 电机状态转换3.4 脉宽及启停判断4 总结1 阶段目标 本文是《直流减速电机控制实验》的第三部分,会通过图文结合的方式,手把手带读者操作Simulink工具进行直流减速电机的应用层开发。 本章…...
本地部署Deep Seek-R1,搭建个人知识库——笔记
目录 一、本地部署 DeepSeek - R1 1:安装Ollama 2:部署DeepSeek - R1模型 3:安装Cherry Studio 二、构建私有知识库 一、本地部署 DeepSeek - R1 1:安装Ollama 1.打开Ollama下载安装 未科学上网,I 先打开迅雷再下…...
【软考-架构】5.3、IPv6-网络规划-网络存储-补充考点
✨资料&文章更新✨ GitHub地址:https://github.com/tyronczt/system_architect 文章目录 IPv6网络规划与设计建筑物综合布线系统PDS💯考试真题第一题第二题 磁盘冗余阵列网络存储技术其他考点💯考试真题第一题第二题 IPv6 网络规划与设计…...
fastapi+angular外卖系统
说明: fastapiangular外卖系统 1.美食分类(粥,粉,面,炸鸡,炒菜,西餐,奶茶等等) 2.商家列表 (kfc,兰州拉面,湘菜馆,早餐店…...
Oracle静默安装方法
Web服务器上面的Linux一般是不会有图形界面的,所有通过图形界面来安装Linux的方式在没有图形界面的Linux上面是行不通的,我们要使用的安装方式叫做Linux的静默安装。即在没有图形界面的Linux上面安装。 1. 下载地址 http://www.oracle.com/technetwork…...
鸿蒙路由 HMRouter 配置及使用 三 全局拦截器使用
1、前期准备 简单封装一个用户首选项的工具类 import { preferences } from "kit.ArkData";// 用户首选项方法封装 export class Preferences {private myPreferences: preferences.Preferences | null null;// 初始化init(context: Context, options: preference…...
计算机视觉——深入理解卷积神经网络与使用卷积神经网络创建图像分类算法
引言 卷积神经网络(Convolutional Neural Networks,简称 CNNs)是一种深度学习架构,专门用于处理具有网格结构的数据,如图像、视频等。它们在计算机视觉领域取得了巨大成功,成为图像分类、目标检测、图像分…...
永磁同步电机无速度算法--拓展卡尔曼滤波器
一、原理介绍 以扩展卡尔曼滤波算法为基础,建立基于EKF算法的估算转子位置和转速的离散模型。 实时性是扩展卡尔曼滤波器的一种特征,所以它可实时跟踪系统的状态并进行有效的输出,同时,它可以减少干扰、抑制噪声,其效…...
电机控制常见面试问题(十五)
文章目录 一、电机气隙二、电气时间三.电机三环控制详解四.驱动板跳线意义 一、电机气隙 电机气隙是定子和转子之间的空隙,防止钉子转子运转时物理接触,此外,气隙是磁路的重要环节,磁场需通过气隙传递能量,但其较高的…...
a2字幕分享
1. 沟通communication Hey everybody Welcome to this A2 English listening practice video. You can use this video to practice your listening and comprehension as I speak. Before we start, remember to download the Listening Time podcast and become a member a…...
基于cat1的多传感器融合的贵重资产管理解决方案项目说明书
一、产品需求 在物流运输中,搭载 Cat 1 模块的贵重货物跟踪设备,可将货物的位置、震动、温湿度等数据及时传输给物流调度中心,以便及时应对运输途中可能出现的问题,如路线偏离、货物受损风险等 。而且,Cat 1 依托成熟的…...
deepseek使用记录23——我们的遭遇
世界观设定 时间:近未来2035年,全球进入"数字绩效社会"地点:重庆赛博朋克风格的"云端之城",外卖骑手被称为"数据蜂鸟"核心科技:情感区块链系统,人类情绪波动可转化为能量币…...
【CF】Day9——Codeforces Round 953 (Div. 2) BCD
B. New Bakery 题目: 思路: 被标签害了,用什么二分( 很简单的思维题,首先如果a > b,那么全选a就行了,还搞啥活动 否则就选 b - a 天来搞活动,为什么? 首先如果我…...
PEFT简介
以下是关于 PEFT(Parameter-Efficient Fine-tuning) 的简介,涵盖其定义、核心思想、常见方法及应用场景: 1. 什么是PEFT? PEFT(参数高效微调)是机器学习领域的一种技术,专为预训练大…...
harmonyOS NEXT开发与前端开发深度对比分析
文章目录 1. 技术体系概览1.1 技术栈对比1.2 生态对比 2. 开发范式比较2.1 鸿蒙开发范式2.2 前端开发范式 3. 框架特性对比3.1 鸿蒙 Next 框架特性3.2 前端框架特性 4. 性能优化对比4.1 鸿蒙性能优化4.2 前端性能优化 5. 开发工具对比5.1 鸿蒙开发工具5.2 前端开发工具 6. 学习…...
Unity小框架之单例模式基类
单例模式(Singleton Pattern)是一种常用的创建型设计模式,其核心目标是确保一个类只有一个实例,并提供一个全局访问点。它常用于需要控制资源访问、共享配置或管理全局状态的场景(如数据库连接池、日志管理器、应用配置…...
随机过程的基本概念机有限维分布的数字特征
随机过程的基本概念及有限维分布的数字特征:从理论到应用 在现代科学与技术的众多领域中,随机过程的身影无处不在,它如同一位神秘的幕后操纵者,影响着我们生活的方方面面。今天,咱们就一起来深入探究随机过程的基本概…...
