ollama+FastAPI部署后端大模型调用接口
ollama+FastAPI部署后端大模型调用接口
记录一下开源大模型的后端调用接口过程
一、ollama下载及运行
1. ollama安装
ollama是一个本地部署开源大模型的软件,可以运行llama、gemma、qwen等国内外开源大模型,也可以部署自己训练的大模型
ollama国内地址
下载安装,并运行

ollama图标出现在折叠的任务栏中,就算安装成功了
2. 下载并运行大模型
在ollama管理的模型中,找到自己想要部署的大模型,以qwen2.5-7B大模型为例
ollama启动状态下,终端执行如下命令:
ollama run qwen2.5

如果是首次运行,会先下载,下载之后,就可以运行起来了

此时,已经可以在终端访问大模型了
二、后端接口调用
ollama运行的本地大模型端口号为11434,可以在线调用
有多种方式可以实现大模型的后端调用,只要是后端语言,都可以
因为我的后端有其他深度学习模型要调用,所以我选用的后端语言是python,调用大模型时,自然也选择了python,接口框架使用的是fastapi
后端调用程序如下:
#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author:HP
# datetime:2024/11/11 8:43
from fastapi import HTTPException, APIRouter
import requests
import json
from .inputData import GenerateRequestbig_model_api = APIRouter()# 定义 Ollama API 的 URL
OLLAMA_API_URL = "http://localhost:11434/v1/completions" # Ollama 默认运行在本地 11434 端口@big_model_api.post('/llama')
async def generate_text(request: GenerateRequest):# 设置请求头和请求数据headers = {"Content-Type": "application/json"}data = {"model": request.model,"prompt": request.prompt,"temperature": request.temperature,"max_tokens": request.max_tokens,}# 发送请求给 Ollama APIresponse = requests.post(OLLAMA_API_URL, headers=headers, data=json.dumps(data))# 检查响应状态并处理结果if response.status_code == 200:result = response.json()return {"generated_text": result.get("choices")[0].get("text")}else:raise HTTPException(status_code=response.status_code, detail=response.text)
这里使用的是分布式路由接口,在fastapi的主程序中加入这个名为big_model_api的APIRouter实例,就可以在前端访问这个接口了
当然,需要配合pydantic定义好请求数据的结构,GenerateRequest类定义如下:
# 数据模型,用于接收请求数据
class GenerateRequest(BaseModel):model: str = "qwen2.5" # 模型名称prompt: str # 输入的 prompttemperature: float = 0.7 # 温度参数,默认为 0.7max_tokens: int = 1000 # 最大生成的 token 数,默认为 200
解释一下:
- 默认调用的模型是qwen2.5,如果传递其他参数,就可以调用其他模型
- prompt也就是提示词,就是前端传给后端的问题
- temperature不知道有啥用
- max_token其实就是支持返回多长的字符,这个值越大,消耗的资源越大
后端服务启动后,前端正常传递对话内容,请求后端接口,就可以调用大模型进行对话了


如果有自己训练的模型,也可以参考这种方式部署上线,但是ollama如何来调用,还需要单独研究
相关文章:
ollama+FastAPI部署后端大模型调用接口
ollamaFastAPI部署后端大模型调用接口 记录一下开源大模型的后端调用接口过程 一、ollama下载及运行 1. ollama安装 ollama是一个本地部署开源大模型的软件,可以运行llama、gemma、qwen等国内外开源大模型,也可以部署自己训练的大模型 ollama国内地…...
BERT:深度双向Transformer的预训练用于语言理解
摘要 我们介绍了一种新的语言表示模型,名为BERT,全称为来自Transformer的双向编码器表示。与最近的语言表示模型(Peters等,2018a;Radford等,2018)不同,BERT旨在通过在所有层中联合调…...
【AI-23】深度学习框架中的神经网络3
神经网络有多种不同的类型,每种类型都针对特定的任务和数据类型进行优化。根据任务的特点和所需的计算能力,可以选择适合的神经网络类型。以下是一些主要的神经网络类型及其适用的任务领域。 1. 深度神经网络(DNN) 结构…...
网站运营数据pv、uv、ip
想要彻底弄清楚pv uv ip的区别,首先要知道三者的定义: IP(独立IP)的定义: 即Internet Protocol,指独立IP数。24小时内相同公网IP地址只被计算一次。 PV(访问量)的定义: 即Page View,即页面浏览量或点击量,用户每次刷…...
高阶知识库搭建实战五、(向量数据库Milvus安装)
以下是关于在Windows环境下直接搭建Milvus向量数据库的教程: 本教程分两部分,第一部分是基于docker安装,在Windows环境下直接安装Milvus向量数据库,目前官方推荐的方式是通过Docker进行部署,因为Milvus的运行环境依赖于Linux系统。 如果你希望在Windows上直接运行Milvus…...
【TR369】RTL8197FH-VG+RTL8812F增加TR369 command节点
sdk说明 ** Gateway/AP firmware v3.4.14b – Aug 26, 2019** Wireless LAN driver changes as: Refine WiFi Stability and Performance Add 8812F MU-MIMO Add 97G/8812F multiple mac-clone Add 97G 2T3R antenna diversity Fix 97G/8812F/8814B MP issu…...
FPGA实现UART对应的电路和单片机内部配合寄存器实现的电路到底有何区别?
一、UART相关介绍 UART是我们常用的全双工异步串行总线,常用TTL电平标准,由TXD和RXD两根收发数据线组成。 那么,利用硬件描述语言实现UART对应的电路和51单片机内部配合寄存器实现的电路到底有何区别呢?接下来我们对照看一下。 …...
数据库模型全解析:从文档存储到搜索引擎
目录 前言1. 文档存储(Document Store)1.1 概念与特点1.2 典型应用1.3 代表性数据库 2. 图数据库(Graph DBMS)2.1 概念与特点2.2 典型应用2.3 代表性数据库 3. 原生 XML 数据库(Native XML DBMS)3.1 概念与…...
【Java基础】Java异常捕捉,throws/throw、finally、try、catch关键字的含义与运用
1. Java 异常处理: 异常是程序中的一些错误,但并不是所有的错误都是异常,并且错误有时候是可以避免的。 比如说,你的代码少了一个分号,那么运行出来结果是提示是错 java.lang.Error;如果你用System.out.p…...
Android Studio 安装配置(个人笔记)
Android studio安装的前提是必须保证安装了jdk1.8版本以上 一、查看是否安装jdk cmd打开命令行,输入java -version 最后是一个关键点 输入 javac ,看看有没有相关信息 没有就下载jdk Android studio安装的前提是必须保证安装了jdk1.8版本以上 可以到…...
计算机网络——数据链路层-介质访问控制
一、介质访问控制方法 在局域网中, 介质访问控制(medium access control)简称MAC,也就是信道访问控制方法,可以 简单的把它理解为如何控制网络节点何时发送数据、如何传输数据以及怎样在介质上接收数据, 是解决当局域网中共用信道的使用产生竞…...
pytest日志显示
在 pytest 中,可以通过 钩子函数 和 配置文件 pytest.ini 配置日志的显示方式,实现对日志的灵活控制。以下是常用实现方式及配置说明。 方式一:使用 conftest.py 钩子函数自定义日志显示 通过 conftest.py 文件中的钩子函数,实现…...
【信息系统项目管理师】第15章:项目风险管理过程详解
更多内容请见: 备考信息系统项目管理师-专栏介绍和目录 文章目录 一、规划风险管理1、输入2、工具与技术3、输出二、识别风险1、输入2、工具与技术3、输出三、实施定性风险分析1、输入2、工具与技术3、输出四、实施定量风险分析1、输入2、工具与技术3、输出五、规划风险应对1、…...
Diffusers 使用 LoRA
使用diffusers 加载 LoRA,实现文生图功能。摘自 diffusers文档。 模型可以根据名称去modelscope找对应资源下载。使用的时候需要替换成具体路径。虽然modelscope和diffusers都使用了模型id,但是并不能通用。 不同的LoRA对应了不同的“trigger” words&am…...
云安全博客阅读(二)
2024-05-30 Cloudflare acquires BastionZero to extend Zero Trust access to IT infrastructure IT 基础设施的零信任 不同于应用安全,基础设置的安全的防护紧急程度更高,基础设施的安全防护没有统一的方案IT基础设施安全的场景多样,如se…...
SpringCloud系列教程:微服务的未来(六)docker教程快速入门、常用命令
对于开发人员和运维工程师而言,掌握 Docker 的基本概念和常用命令是必不可少的。本篇文章将带你快速入门 Docker,并介绍一些最常用的命令,帮助你更高效地进行开发、测试和部署。 目录 前言 快速入门 docker安装 配置镜像加速 部署Mysql …...
Vue 快速入门:开启前端新征程
在当今的 Web 开发领域,Vue.js 作为一款极具人气的 JavaScript 前端框架,正被广泛应用于各类项目之中。它以简洁的语法、高效的数据绑定机制以及强大的组件化开发模式,为开发者们带来了前所未有的开发体验。如果你渴望踏入前端开发的精彩世界…...
UVM:uvm_component methods configure
topic UVM component base class uvm_config_db 建议使用uvm_config_db代替uvm_resource_db uvm factory sv interface 建议:uvm_config_db 以下了解 建议打印error...
LLM 训练中存储哪些矩阵:权重矩阵,梯度矩阵,优化器状态
LLM 训练中存储哪些矩阵 目录 LLM 训练中存储哪些矩阵深度学习中梯度和优化器是什么在 LLM 训练中通常会存储以下矩阵: 权重矩阵:这是模型的核心组成部分。例如在基于 Transformer 架构的 LLM 中,每一层的多头注意力机制和前馈神经网络都会有相应的权重矩阵。以 BERT 模型为…...
大模型思维链推理的进展、前沿和未来分析
大模型思维链推理的综述:进展、前沿和未来 "Chain of Thought Reasoning: A State-of-the-Art Analysis, Exploring New Horizons and Predicting Future Directions." 思维链推理的综述:进展、前沿和未来 摘要:思维链推理&#…...
3分钟搞定Windows和Office激活:KMS_VL_ALL_AIO完全指南
3分钟搞定Windows和Office激活:KMS_VL_ALL_AIO完全指南 【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为Windows系统激活烦恼吗?还在为Office办公软件过期而头疼&am…...
QTableWidget 表格组件腺
7.1 初识三维模型 7.1.1 三维模型的数据载体 随着计算机图形技术的发展,我们或多或少都会见过或者听说过三维模型。笔者始终记得小时候第一次在电视上看到三维动画《变形金刚:超能勇士》的震撼感受;而现在我们已经可以在手机上玩三维游戏《王…...
保姆级教程:用YOLOv8n-pose ONNX模型实现摄像头实时姿态估计(附完整代码)
零基础实战:YOLOv8n-pose ONNX模型实时姿态估计全流程解析 当我们需要在视频流中实时追踪人体动作时,传统方案往往面临精度与速度难以兼得的困境。YOLOv8n-pose作为轻量级姿态估计模型,配合ONNX运行时的高效推理能力,为开发者提供…...
【深度学习模型】手动部署EfficientNet.h5的完整指南与常见问题解决
1. 为什么需要手动部署EfficientNet.h5文件 当你第一次尝试使用EfficientNet模型时,可能会遇到一个常见问题:Keras自动下载模型文件失败。这种情况通常表现为控制台输出类似"URL fetch failure"的错误信息。这主要是因为网络连接问题或某些地区…...
[Linux][虚拟串口]x一个特殊的字节低
简介 langchain专门用于构建LLM大语言模型,其中提供了大量的prompt模板,和组件,通过chain(链)的方式将流程连接起来,操作简单,开发便捷。 环境配置 安装langchain框架 pip install langchain langchain-community 其中…...
Anything to RealCharacters 2.5D转真人引擎效果展示:动漫角色→写实年龄渐变效果实现
Anything to RealCharacters 2.5D转真人引擎效果展示:动漫角色→写实年龄渐变效果实现 获取更多AI镜像 想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多…...
Seatunnel实战:构建Mysql到Hive的稳定数据同步管道
1. 为什么选择Seatunnel做数据同步? 第一次接触Seatunnel是在去年一个数据仓库迁移项目里。当时客户要求把几十个MySQL业务库的数据实时同步到Hive做分析,试了好几个工具都不太理想。要么配置复杂得要命,要么性能跟不上,直到发现了…...
MCP + Function Calling:让模型自主驱动工具链完成多步推理
标签:Java MCP Function Calling ReAct j-langchain ToolCall Agent 前置阅读:Java 实现 ReAct Agent:工具调用与推理循环 → Java Agent 集成 MCP 工具协议:让 AI 真正驱动企业系统 适合人群:已了解 MCP 基础用法&…...
Flutter漫画阅读器终极指南:打造你的专属漫画世界
Flutter漫画阅读器终极指南:打造你的专属漫画世界 【免费下载链接】flutter_dmzj 动漫之家第三方Flutter客户端 项目地址: https://gitcode.com/gh_mirrors/fl/flutter_dmzj 动漫之家X是一款使用Flutter开发的跨平台第三方客户端,为漫画爱好者提供…...
如何通过wireshark抓取802.11无线网络的数据包
原文链接:https://wiki.wireshark.org/CaptureSetup/WLAN全文总结 本文围绕IEEE 802.11(WLAN)无线网络抓包环境搭建展开详细说明,核心讲解了在使用Wireshark、TShark等工具抓取无线流量时,不同抓包需求对应的配置方式、…...
