当前位置：首页 > news >正文

ollama+FastAPI部署后端大模型调用接口

news 2026/2/10 23:31:45

ollama+FastAPI部署后端大模型调用接口

记录一下开源大模型的后端调用接口过程

一、ollama下载及运行

1. ollama安装

ollama是一个本地部署开源大模型的软件，可以运行llama、gemma、qwen等国内外开源大模型，也可以部署自己训练的大模型

ollama国内地址

下载安装，并运行

PixPin_2025-01-06_10-53-53

ollama图标出现在折叠的任务栏中，就算安装成功了

2. 下载并运行大模型

在ollama管理的模型中，找到自己想要部署的大模型，以qwen2.5-7B大模型为例

ollama启动状态下，终端执行如下命令：

ollama run qwen2.5

如果是首次运行，会先下载，下载之后，就可以运行起来了

PixPin_2025-01-06_11-01-29

此时，已经可以在终端访问大模型了

二、后端接口调用

ollama运行的本地大模型端口号为11434，可以在线调用

有多种方式可以实现大模型的后端调用，只要是后端语言，都可以

因为我的后端有其他深度学习模型要调用，所以我选用的后端语言是python，调用大模型时，自然也选择了python，接口框架使用的是fastapi

后端调用程序如下：

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author:HP
# datetime:2024/11/11 8:43
from fastapi import HTTPException, APIRouter
import requests
import json
from .inputData import GenerateRequestbig_model_api = APIRouter()# 定义 Ollama API 的 URL
OLLAMA_API_URL = "http://localhost:11434/v1/completions"  # Ollama 默认运行在本地 11434 端口@big_model_api.post('/llama')
async def generate_text(request: GenerateRequest):# 设置请求头和请求数据headers = {"Content-Type": "application/json"}data = {"model": request.model,"prompt": request.prompt,"temperature": request.temperature,"max_tokens": request.max_tokens,}# 发送请求给 Ollama APIresponse = requests.post(OLLAMA_API_URL, headers=headers, data=json.dumps(data))# 检查响应状态并处理结果if response.status_code == 200:result = response.json()return {"generated_text": result.get("choices")[0].get("text")}else:raise HTTPException(status_code=response.status_code, detail=response.text)

这里使用的是分布式路由接口，在fastapi的主程序中加入这个名为big_model_api的APIRouter实例，就可以在前端访问这个接口了

当然，需要配合pydantic定义好请求数据的结构，GenerateRequest类定义如下：

# 数据模型，用于接收请求数据
class GenerateRequest(BaseModel):model: str = "qwen2.5"  # 模型名称prompt: str  # 输入的 prompttemperature: float = 0.7  # 温度参数，默认为 0.7max_tokens: int = 1000  # 最大生成的 token 数，默认为 200

解释一下：

默认调用的模型是qwen2.5，如果传递其他参数，就可以调用其他模型
prompt也就是提示词，就是前端传给后端的问题
temperature不知道有啥用
max_token其实就是支持返回多长的字符，这个值越大，消耗的资源越大

后端服务启动后，前端正常传递对话内容，请求后端接口，就可以调用大模型进行对话了

C4B46D06-F606-4e7b-BA44-DC491515A708

如果有自己训练的模型，也可以参考这种方式部署上线，但是ollama如何来调用，还需要单独研究

ollama+FastAPI部署后端大模型调用接口

ollamaFastAPI部署后端大模型调用接口记录一下开源大模型的后端调用接口过程一、ollama下载及运行 1. ollama安装 ollama是一个本地部署开源大模型的软件，可以运行llama、gemma、qwen等国内外开源大模型，也可以部署自己训练的大模型 ollama国内地…...

编程日记 2025/1/8 13:56:27

BERT：深度双向Transformer的预训练用于语言理解

摘要我们介绍了一种新的语言表示模型，名为BERT，全称为来自Transformer的双向编码器表示。与最近的语言表示模型（Peters等，2018a；Radford等，2018）不同，BERT旨在通过在所有层中联合调…...

编程日记 2025/1/8 13:55:25

【AI-23】深度学习框架中的神经网络3

神经网络有多种不同的类型，每种类型都针对特定的任务和数据类型进行优化。根据任务的特点和所需的计算能力，可以选择适合的神经网络类型。以下是一些主要的神经网络类型及其适用的任务领域。 1. 深度神经网络（DNN） 结构&#xf…...

编程日记 2025/1/8 13:54:22

网站运营数据pv、uv、ip

想要彻底弄清楚pv uv ip的区别，首先要知道三者的定义： IP(独立IP)的定义： 即Internet　Protocol,指独立IP数。24小时内相同公网IP地址只被计算一次。 PV(访问量)的定义： 即Page View,即页面浏览量或点击量，用户每次刷…...

编程日记 2025/1/8 13:53:21

高阶知识库搭建实战五、（向量数据库Milvus安装）

以下是关于在Windows环境下直接搭建Milvus向量数据库的教程：本教程分两部分，第一部分是基于docker安装，在Windows环境下直接安装Milvus向量数据库，目前官方推荐的方式是通过Docker进行部署，因为Milvus的运行环境依赖于Linux系统。如果你希望在Windows上直接运行Milvus…...

编程日记 2025/1/8 13:47:10

【TR369】RTL8197FH-VG+RTL8812F增加TR369 command节点

sdk说明 ** Gateway/AP firmware v3.4.14b – Aug 26, 2019**  Wireless LAN driver changes as:  Refine WiFi Stability and Performance  Add 8812F MU-MIMO  Add 97G/8812F multiple mac-clone  Add 97G 2T3R antenna diversity  Fix 97G/8812F/8814B MP issu…...

编程日记 2025/1/8 13:46:09

FPGA实现UART对应的电路和单片机内部配合寄存器实现的电路到底有何区别？

一、UART相关介绍 UART是我们常用的全双工异步串行总线，常用TTL电平标准，由TXD和RXD两根收发数据线组成。那么，利用硬件描述语言实现UART对应的电路和51单片机内部配合寄存器实现的电路到底有何区别呢？接下来我们对照看一下。 …...

编程日记 2025/1/8 13:44:07

数据库模型全解析：从文档存储到搜索引擎

目录前言1. 文档存储（Document Store）1.1 概念与特点1.2 典型应用1.3 代表性数据库 2. 图数据库（Graph DBMS）2.1 概念与特点2.2 典型应用2.3 代表性数据库 3. 原生 XML 数据库（Native XML DBMS）3.1 概念与…...

编程日记 2025/1/8 13:42:05

【Java基础】Java异常捕捉，throws/throw、finally、try、catch关键字的含义与运用

1. Java 异常处理： 异常是程序中的一些错误，但并不是所有的错误都是异常，并且错误有时候是可以避免的。比如说，你的代码少了一个分号，那么运行出来结果是提示是错 java.lang.Error；如果你用System.out.p…...

编程日记 2025/1/8 13:40:03

Android Studio 安装配置（个人笔记）

Android studio安装的前提是必须保证安装了jdk1.8版本以上一、查看是否安装jdk cmd打开命令行，输入java -version 最后是一个关键点输入 javac ，看看有没有相关信息没有就下载jdk Android studio安装的前提是必须保证安装了jdk1.8版本以上可以到…...

编程日记 2025/1/8 13:38:01

计算机网络——数据链路层-介质访问控制

一、介质访问控制方法在局域网中, 介质访问控制(medium access control)简称MAC，也就是信道访问控制方法，可以简单的把它理解为如何控制网络节点何时发送数据、如何传输数据以及怎样在介质上接收数据， 是解决当局域网中共用信道的使用产生竞…...

编程日记 2025/1/8 13:35:59

pytest日志显示

在 pytest 中，可以通过钩子函数和配置文件 pytest.ini 配置日志的显示方式，实现对日志的灵活控制。以下是常用实现方式及配置说明。方式一：使用 conftest.py 钩子函数自定义日志显示通过 conftest.py 文件中的钩子函数，实现…...

编程日记 2025/1/8 13:33:54

【信息系统项目管理师】第15章：项目风险管理过程详解

更多内容请见：备考信息系统项目管理师-专栏介绍和目录文章目录一、规划风险管理1、输入2、工具与技术3、输出二、识别风险1、输入2、工具与技术3、输出三、实施定性风险分析1、输入2、工具与技术3、输出四、实施定量风险分析1、输入2、工具与技术3、输出五、规划风险应对1、…...

编程日记 2025/1/8 13:30:51

Diffusers 使用 LoRA

使用diffusers 加载 LoRA，实现文生图功能。摘自 diffusers文档。模型可以根据名称去modelscope找对应资源下载。使用的时候需要替换成具体路径。虽然modelscope和diffusers都使用了模型id，但是并不能通用。不同的LoRA对应了不同的“trigger” words&am…...

编程日记 2025/1/8 13:29:50

云安全博客阅读（二）

2024-05-30 Cloudflare acquires BastionZero to extend Zero Trust access to IT infrastructure IT 基础设施的零信任不同于应用安全，基础设置的安全的防护紧急程度更高，基础设施的安全防护没有统一的方案IT基础设施安全的场景多样，如se…...

编程日记 2025/1/8 13:28:48

SpringCloud系列教程：微服务的未来（六）docker教程快速入门、常用命令

对于开发人员和运维工程师而言，掌握 Docker 的基本概念和常用命令是必不可少的。本篇文章将带你快速入门 Docker，并介绍一些最常用的命令，帮助你更高效地进行开发、测试和部署。目录前言快速入门 docker安装配置镜像加速部署Mysql …...

编程日记 2025/1/8 13:22:41

Vue 快速入门：开启前端新征程

在当今的 Web 开发领域，Vue.js 作为一款极具人气的 JavaScript 前端框架，正被广泛应用于各类项目之中。它以简洁的语法、高效的数据绑定机制以及强大的组件化开发模式，为开发者们带来了前所未有的开发体验。如果你渴望踏入前端开发的精彩世界…...

编程日记 2025/1/8 13:21:40

UVM:uvm_component methods configure

topic UVM component base class uvm_config_db 建议使用uvm_config_db代替uvm_resource_db uvm factory sv interface 建议：uvm_config_db 以下了解建议打印error...

编程日记 2025/1/8 13:19:38

LLM 训练中存储哪些矩阵：权重矩阵，梯度矩阵，优化器状态

LLM 训练中存储哪些矩阵目录 LLM 训练中存储哪些矩阵深度学习中梯度和优化器是什么在 LLM 训练中通常会存储以下矩阵：权重矩阵：这是模型的核心组成部分。例如在基于 Transformer 架构的 LLM 中，每一层的多头注意力机制和前馈神经网络都会有相应的权重矩阵。以 BERT 模型为…...

编程日记 2025/1/8 13:18:37

大模型思维链推理的进展、前沿和未来分析

大模型思维链推理的综述：进展、前沿和未来 "Chain of Thought Reasoning: A State-of-the-Art Analysis, Exploring New Horizons and Predicting Future Directions." 思维链推理的综述：进展、前沿和未来摘要：思维链推理&#…...

编程日记 2025/1/8 13:10:29

黑马Mybatis

Mybatis 表现层：页面展示业务层：逻辑处理持久层：持久数据化保存在这里插入图片描述 Mybatis快速入门 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/6501c2109c4442118ceb6014725e48e4.png //logback.xml <?xml ver…...

编程新知 2026/1/22 14:22:27

Cesium1.95中高性能加载1500个点

一、基本方式： 图标使用.png比.svg性能要好 <template><div id"cesiumContainer"></div><div class"toolbar"><button id"resetButton">重新生成点</button><span id"countDisplay&qu…...

编程新知 2025/12/17 2:10:10

从深圳崛起的“机器之眼”：赴港乐动机器人的万亿赛道赶考路

进入2025年以来，尽管围绕人形机器人、具身智能等机器人赛道的质疑声不断，但全球市场热度依然高涨，入局者持续增加。以国内市场为例，天眼查专业版数据显示，截至5月底，我国现存在业、存续状态的机器人相关企…...

编程新知 2026/2/8 7:23:45

【HTML-16】深入理解HTML中的块元素与行内元素

HTML元素根据其显示特性可以分为两大类：块元素(Block-level Elements)和行内元素(Inline Elements)。理解这两者的区别对于构建良好的网页布局至关重要。本文将全面解析这两种元素的特性、区别以及实际应用场景。 1. 块元素(Block-level Elements) 1.1 基本特性 …...

编程新知 2025/11/11 6:28:42

day36-多路IO复用

一、基本概念 （服务器多客户端模型） 定义：单线程或单进程同时监测若干个文件描述符是否可以执行IO操作的能力作用：应用程序通常需要处理来自多条事件流中的事件，比如我现在用的电脑，需要同时处理键盘鼠标…...

编程新知 2026/1/31 7:42:50

解析奥地利 XARION激光超声检测系统：无膜光学麦克风 + 无耦合剂的技术协同优势及多元应用

在工业制造领域，无损检测（NDT)的精度与效率直接影响产品质量与生产安全。奥地利 XARION开发的激光超声精密检测系统，以非接触式光学麦克风技术为核心，打破传统检测瓶颈，为半导体、航空航天、汽车制造等行业提供了高灵敏…...

编程新知 2026/2/3 15:45:51

JDK 17 序列化是怎么回事

如何序列化？其实很简单，就是根据每个类型，用工厂类调用。逐个完成。没什么漂亮的代码，只有有效、稳定的代码。代码中调用toJson toJson 代码 mapper.writeValueAsString ObjectMapper DefaultSerializerProvider 一堆实…...

编程新知 2026/2/7 4:19:21

React核心概念：State是什么？如何用useState管理组件自己的数据？

系列回顾： 在上一篇《React入门第一步》中，我们已经成功创建并运行了第一个React项目。我们学会了用Vite初始化项目，并修改了App.jsx组件，让页面显示出我们想要的文字。但是，那个页面是“死”的，它只是静态…...

编程新知 2025/11/3 8:29:51

C++11 constexpr和字面类型：从入门到精通

文章目录引言一、constexpr的基本概念与使用1.1 constexpr的定义与作用1.2 constexpr变量1.3 constexpr函数1.4 constexpr在类构造函数中的应用1.5 constexpr的优势二、字面类型的基本概念与使用2.1 字面类型的定义与作用2.2 字面类型的应用场景2.2.1 常量定义2.2.2 模板参数…...

编程新知 2026/2/9 14:16:01

在Spring Boot中集成RabbitMQ的完整指南

前言在现代微服务架构中，消息队列（Message Queue）是实现异步通信、解耦系统组件的重要工具。RabbitMQ 是一个流行的消息中间件，支持多种消息协议，具有高可靠性和可扩展性。本博客将详细介绍如何在 Spring Boot 项目…...

编程新知 2025/7/27 20:49:33

ollama+FastAPI部署后端大模型调用接口

一、ollama下载及运行

1. ollama安装

2. 下载并运行大模型

二、后端接口调用

相关文章：