当前位置：首页 > article >正文

5分钟搞定Ollama本地大模型：用LiteLLM实现OpenAI API无缝兼容（附完整代码）

article 2026/3/22 13:52:58

5分钟实现Ollama本地大模型与OpenAI API无缝兼容的终极方案当开发者需要将现有基于OpenAI API的项目迁移到本地大模型时往往面临接口不兼容、代码重构成本高等痛点。本文将介绍如何利用LiteLLM这一轻量级代理工具在5分钟内完成从Ollama本地模型部署到OpenAI API无缝兼容的全过程。1. 环境准备与模型部署在开始之前我们需要确保基础环境已经就绪。Ollama作为当前最流行的本地大模型运行框架支持多种开源模型的一键部署。1.1 安装Ollama并拉取模型首先通过以下命令安装Ollama以macOS为例brew install ollama然后拉取我们需要的模型这里以通义千问3的4B版本和Llama3.1为例ollama pull qwen3:4b ollama pull llama3.1提示模型下载速度取决于网络环境建议在稳定的网络环境下进行。1.2 启动Ollama服务启动Ollama服务非常简单只需执行ollama serve服务默认会运行在http://localhost:11434。可以通过以下命令验证服务是否正常运行curl http://localhost:11434如果看到类似Ollama is running的响应说明服务已成功启动。2. LiteLLM的安装与配置LiteLLM是一个轻量级的API兼容层能够将各种大模型API转换为OpenAI兼容格式。2.1 安装LiteLLM使用pip安装LiteLLMpip install litellm2.2 创建配置文件创建一个名为config.yaml的配置文件内容如下model_list: - model_name: qwen-local litellm_params: model: ollama/qwen3:4b api_base: http://localhost:11434 - model_name: llama3.1-tool-use litellm_params: model: ollama/llama3.1 api_base: http://localhost:11434 litellm_settings: set_verbose: true这个配置文件定义了两个模型别名qwen-local和llama3.1-tool-use每个别名对应的实际Ollama模型API基础地址指向本地Ollama服务3. 启动LiteLLM代理服务在配置文件所在目录下运行以下命令启动代理litellm --config config.yaml --port 4000代理服务将在http://localhost:4000启动这个端口现在就是你的OpenAI兼容API入口。4. 使用OpenAI方式调用本地模型现在你可以完全按照OpenAI的标准方式来调用本地模型了。4.1 使用Python OpenAI库调用from openai import OpenAI # 配置客户端指向LiteLLM代理 client OpenAI( base_urlhttp://localhost:4000/v1, api_keynot-needed # 本地调用不需要API密钥 ) # 调用方式与OpenAI官方API完全一致 response client.chat.completions.create( modelqwen-local, messages[ {role: user, content: 你好请介绍一下你自己} ] ) print(response.choices[0].message.content)4.2 使用cURL调用curl -X POST http://localhost:4000/v1/chat/completions \ -H Content-Type: application/json \ -d { model: qwen-local, messages: [ {role: user, content: 你好请介绍一下你自己} ] }5. 高级功能工具调用(Tool Calling)工具调用是大模型与外部系统交互的重要方式。通过LiteLLM我们可以实现与OpenAI完全相同的工具调用体验。5.1 定义工具并调用from openai import OpenAI import json client OpenAI(base_urlhttp://localhost:4000/v1, api_keynot-needed) # 定义天气查询工具 def get_current_weather(location): 模拟天气查询函数 print(f查询{location}的天气) if 上海 in location: return json.dumps({temperature: 25°C, condition: 多云}) return json.dumps({error: 未知地点}) # 准备请求 messages [{role: user, content: 上海今天的天气怎么样}] tools [ { type: function, function: { name: get_current_weather, description: 获取指定地点的当前天气信息, parameters: { type: object, properties: { location: {type: string, description: 城市名} }, required: [location] } } } ] # 第一次请求 response client.chat.completions.create( modelllama3.1-tool-use, messagesmessages, toolstools ) # 处理工具调用 response_message response.choices[0].message if response_message.tool_calls: messages.append(response_message) for tool_call in response_message.tool_calls: if tool_call.function.name get_current_weather: args json.loads(tool_call.function.arguments) weather get_current_weather(args[location]) messages.append({ tool_call_id: tool_call.id, role: tool, name: get_current_weather, content: weather }) # 第二次请求 final_response client.chat.completions.create( modelllama3.1-tool-use, messagesmessages ) print(final_response.choices[0].message.content)6. 性能优化与调试技巧在实际使用中你可能需要关注以下优化点批处理请求LiteLLM支持批处理可以显著提高吞吐量缓存策略对于重复性查询可以启用响应缓存日志调试通过设置set_verbose: true可以获取详细日志一个优化后的配置示例model_list: - model_name: qwen-local litellm_params: model: ollama/qwen3:4b api_base: http://localhost:11434 num_retries: 3 # 失败重试次数 litellm_settings: set_verbose: true caching: true # 启用缓存 cache_params: type: redis # 使用Redis缓存 host: localhost port: 6379这套方案不仅实现了API兼容还能保持与OpenAI生态工具如LangChain、LlamaIndex等的完美兼容。在实际项目中我们成功将原本基于GPT-4的应用无缝迁移到了本地模型代码修改量几乎为零。

5分钟搞定Ollama本地大模型：用LiteLLM实现OpenAI API无缝兼容（附完整代码）

相关文章：

5分钟搞定Ollama本地大模型：用LiteLLM实现OpenAI API无缝兼容（附完整代码）

先上硬货！用DSP28335搞移相PWM，这事儿新手千万别慌。咱们直接拿官方例程开刀改代码，手把手看看怎么整出12路带移相的方波信号

程序员/小白必看！大模型转行入门全攻略（避坑+方向+就业真相）

《Foundation 网格系统》

MVC 控制器：架构之美与实现细节

WwiseUtil：3步掌握游戏音频解包与替换，释放你的创意潜能！

Linux实用功能代码集（2） —— 获得机器文件大小和MD5值

ONNX模型压缩超快

告别越狱！用TrollStore在iOS 15上永久安装任意IPA（保姆级教程）

手把手教你用CAST和IF函数解决MySQL DECIMAL字段插入报错（含避坑指南）

mmdetection 实战：精准获取并可视化各类别AP，深入解析IoU阈值设定

EKL脚本语言实战：从基础代码到3D建模自动化

脉振方波高频注入仿真程序，永磁同步电机高频方波注入。 1，仿真为离散模型，开关频率5k，注入频...

Python 属性描述符：从原理到 ORM 实践详解

两级三相光伏并网逆变器控制Matlab/Simulink仿真模型：MPPT控制有扰动观察法与电...

Python中的“==“与“is“：深入解析

Clark变换模块截图](https://i.imgur.com/7Xv9bTd.png

双MCU架构下的汽车ECU硬件电路设计关键点解析

用VGG19迁移学习打造花卉分类器：从数据集处理到98%准确率的完整实战

用Multisim 14.2复刻经典：从四路抢答器到病房呼叫系统的设计思路全解析

FFmpeg硬件编解码实战：C++跨平台性能调优与疑难解析

用Nordic52832和6轴传感器DIY一个空中鼠标：从硬件选型到代码调试全记录

AI智能体框架大比拼：AutoGen、AgentScope、CAMEL、LangGraph，哪种更适合你？

RK3588交叉编译避坑指南：如何解决库路径不一致和环境变量干扰问题

Dify v0.12.0+私有化高可用架构升级指南：etcd集群选型对比、PostgreSQL分库策略、Redis哨兵拓扑优化（实测TPS提升3.8倍）

IntellIJ Idea内存不足？3种快速提升性能的配置方法（附实测数据）

I²C多电机控制库：单总线驱动数十台直流电机

编写程序实现智能耳机佩戴检测，摘下耳机自动暂停播放，戴上继续播放，省电便捷。

PCB设计全流程检查清单：从输入验证到文件归档

树莓派硬件接口全解析：从GPIO到高速总线的实战指南