当前位置：首页 > article >正文

本地大模型系列：2.通过API让本地大模型为你服务

article 2026/3/21 1:07:42

上一篇我们介绍了ollama和lmstudio这两个工具都是个人版的运行大模型的工具可以用来运行本地小参数的LLM所谓小参数一般指不超过27B的4bit量化LLM按照1B参与大约需要0.7G显存加载进行预测加上其他开销月1-1.5G可以估算自己自己的设备可以跑多大的参数【知识】关于4bit量化模型4bit量化大模型的定义4bit量化大模型是指通过降低模型参数的数值精度从常见的32位浮点数或16位浮点数量化为4位整数以减少模型存储空间和计算资源占用的大型神经网络模型。量化技术通过牺牲少量精度换取显著的效率提升适用于资源受限的场景。量化技术的核心原理位宽缩减将原始高精度参数如FP32映射到4位整数通常为-8到7的整数值通过缩放因子scale和零点偏移zero-point保留数值分布特征。对称与非对称量化对称量化以零点为中心非对称量化允许偏移以适配数据分布。分组量化Group-wise对参数矩阵分块量化每组独立计算缩放因子减少精度损失。4bit量化的优势存储节省模型体积减少至原FP32模型的1/84bit vs 32bit。计算加速低比特运算如INT4在支持硬件如GPU张量核上提升推理速度。能耗降低适合边缘设备部署减少内存带宽和功耗需求。典型应用场景移动端推理手机、IoT设备部署大模型如Llama 2-4bit。多模型并行服务器同时加载多个量化模型优化资源利用率。实时系统低延迟要求的场景如语音识别、实时翻译。4bit量化技术正成为平衡效率与性能的关键手段相关工具链如Bitsandbytes、GGML已集成到主流框架PyTorch、TensorFlow中。通常来说我们需要的是大模型的能力而不是用ollama或者lmstudio界面搞一下娱乐而是要把大模型能力嵌入到我们的应用程序中去。当然我们也可以选择远端的API能力如火山引擎、阿里千问、Deepseek等但远端是要花钱的而且依赖于网络。本地的就消耗电费而且可以单机运行在本地LLM的技术参数已经完全满足应用时本地也是不错的选择。这里采用chatbox来配置接口配置示例这里配置通过的参数可以翻到应用程序里直接使用后面会给一个调用的示例。chatbox安装在 https://chatboxai.app/zh 官网下载适合你的客户端安装后运行如下1.ollama接口配置打开ollama程序找到其图标点出其菜单选择 Settings打开上述开关这样其他应用就可以调用ollama服务了PS这里的Model location是模型下载存放的目录一定不能选择C盘否则会变成Disk C Soldier俗称C盘战士。可以百度一下如何迁移已经下载好的模型就是复制到目标位置然后将目录设置为目标位置即可此时打开浏览器在窗口输入http://localhost:11434/能看到这个说明ollama已经启动并可以提供对外服务。然后操作chatbox在下图2的位置填入 http://localhost:11434/ 或者 http://1270.0.1:11434/ (一般来说等效其实有点小区别感兴趣自己百度然后点击获取此时可以加载出本地ollama所有的模型点击绿色的加号图标选择你需要使用的模型然后就能看到这个模型被加载出来了。接下来打开默认模型选择一个省得我们每次都要手动选关闭设置窗口打开一个新会话是不是这里已经显示你刚才选择的默认模型了也可以自己手动选现在来说句话试试。、第一次启动会话模型会加载需要一点时间跟电脑性能有关加载完成之后第二次就可以直接用速度要快很多了。在cmd里运行 ollama ps可以看到当前已经加载的模型可以显示思考模式使用trae写个简单的代码来对接ollama注意这里需要明确ollama用哪个模型注意qwen3.5:latest可以缩写为qwen3.5但是后面有参数的如qwen3.5:2B要写全称AI生成的代码如下import requests import json def test_ollama_connection(): # Ollama服务器地址 base_url http://localhost:11434 model qwen3.5 # 测试连接 - 获取模型列表 print(测试连接到Ollama服务器...) try: response requests.get(f{base_url}/api/tags) response.raise_for_status() models response.json().get(models, []) print(f成功连接到Ollama服务器) print(f可用模型数量: {len(models)}) # 检查指定模型是否可用 model_available any(m.get(name, ).startswith(model) for m in models) if model_available: print(f模型 {model} 可用) else: print(f模型 {model} 不可用可用模型列表:) for m in models: print(f - {m.get(name)}) except requests.exceptions.RequestException as e: print(f连接失败: {e}) return False # 测试模型生成 print(\n测试模型生成能力...) try: payload { model: model, prompt: Hello, what can you do?, stream: False } response requests.post(f{base_url}/api/generate, jsonpayload) response.raise_for_status() result response.json() print(f生成成功) print(f响应: {result.get(response, No response)[:100]}...) return True except requests.exceptions.RequestException as e: print(f生成测试失败: {e}) return False if __name__ __main__: test_ollama_connection()连接成功现在你可以使用trae利用ollama的api开发本地app了。qwen3.5是多模态模型可以支持图片和文字同时上传的具体让trae帮你写代码就好。ollama有个默认的设置就是如果5分钟没有接口访问已经激活的模型这个模型就会从内存中卸载下次使用就要重新载入。你需要修改一个“OLLAMA_KEEP_ALIVE”的设置具体如何操作自行百度这个值默认为52.lmstudio api连接打开lmstudio点击图中位置图中LocalServer处打开箭头所示开关然后点击LoadModel加载模型就可以对外提供服务了图中的ip地址就是lmstudio 的api地址点击加载和ollama用的时候才加载不同lmstudio可以先加载也可以使用时被动加载并且不会自动释放现在回到chatbox填写api主机然后点击获取这次我们不设置默认模型而是直接在聊天界面中切换思考了很久这里也是注意在本地的小参数模型速度还不快的时候不要让他回答一些开放性问题最好是具体的问题这样不用等着对面回复等很久。lmstudio这边是可以看到一直在输出的。trae对接代码如下import requests import json def test_lmstudio_connection(): # LM Studio服务器地址 base_url http://127.0.0.1:1234 model qwen3.5-9b-mlx # 测试连接 - 检查服务器状态 print(测试连接到LM Studio服务器...) try: # LM Studio使用类似OpenAI的API格式 response requests.get(f{base_url}/v1/models) response.raise_for_status() models response.json().get(data, []) print(f成功连接到LM Studio服务器) print(f可用模型数量: {len(models)}) # 检查指定模型是否可用 model_available any(m.get(id, ) model for m in models) if model_available: print(f模型 {model} 可用) else: print(f模型 {model} 不可用可用模型列表:) for m in models: print(f - {m.get(id)}) except requests.exceptions.RequestException as e: print(f连接失败: {e}) return False # 测试模型生成 print(\n测试模型生成能力...) try: # LM Studio使用OpenAI兼容的API格式 payload { model: model, prompt: Hello, what can you do?, max_tokens: 100, temperature: 0.7 } response requests.post(f{base_url}/v1/completions, jsonpayload) response.raise_for_status() result response.json() print(f生成成功) print(f响应: {result.get(choices, [{}])[0].get(text, No response)[:100]}...) return True except requests.exceptions.RequestException as e: print(f生成测试失败: {e}) return False if __name__ __main__: test_lmstudio_connection()注意访问ollama和访问lmstudio的代码是不一样的这一点不用我们操心trae可以做很好结语至此我们已经介绍了ollama和lmstudio的接口使用方式这为我们开发单机版的app打下基础。当然单机版的api可以轻松替换为远端付费大模型的api修改一下调用方式即可。

本地大模型系列：2.通过API让本地大模型为你服务

相关文章：

本地大模型系列：2.通过API让本地大模型为你服务

Spring AI Alibaba MCP协议实战：模型上下文协议集成与工具调用

嵌入式信号发生器库：高精度方波生成与载波调制

XPath 语法完全指南：从基础语法到 SQL 注入中的应用

南北阁 Nanbeige 4.1-3B 企业应用方案：私有化部署+对话记忆管理+审计日志扩展接口

保姆级教程：用Python+Robotics Toolbox搞定Panda机械臂的DH建模与正逆解（附避坑指南）

【JSReverser-MCP】一句话逆向猿人学21题

GLM-TTS语音克隆实测：5分钟搞定方言克隆，效果惊艳！

Adafruit ICM20X库详解：ICM20649与ICM20948驱动开发指南

计算机视觉进阶教学之Mediapipe库（一）

Alpamayo-R1-10B开源模型价值：降低L4研发门槛，让算法团队专注因果逻辑而非工程胶水

SmolVLA参数详解：256×256输入分辨率对边缘计算设备的友好性分析

论文AI率突然从20%涨到50%怎么办？紧急处理攻略

密码学算法 - 连分数算法

Linux内核构建三要素：Makefile、Kconfig与.config协同机制

DIY四足机器人入门：用开源项目打造你的第一个仿生机器狗

HAR实战指南：从Kinetics-400数据集获取到视频帧预处理全流程解析

通义千问3-Reranker-0.6B模型压缩：基于TensorRT的推理加速

2026年AI提示词（Prompt）终极指南：国内聚合站实战技巧

大模型学习笔记------SAM模型架构拆解与实战指南

读了Linux内核slab源码，发现Linus在20年前就写出了比std::pmr更高效的内存池——内核内存管理的4个设计模式

Dify + Celery + Webhook深度集成：构建高可靠异步管道的6大关键配置点

JTAG接口原理、失效诊断与硬件防护实战指南

STM32电机控制库5.4版：开源无感驱动注释详解——从寄存器设置到弱磁控制策略实现

高效掌握SeisUnix：从架构解析到实战应用

Windows任务栏美化：TranslucentTB打造个性化视觉体验

嵌入式可观测性库：面向教学的轻量级实时调试方案

C语言实现OTA安全降级与故障隔离：3层状态持久化+2次幂回退重试，让固件升级不再“一失足成千古恨”

Mos：3大核心技术彻底解决macOS鼠标滚动的终极体验难题

OpenClaw技能扩展：GLM-4.7-Flash加持的微信公众号排版