当前位置: 首页 > news >正文

ollama+FastAPI部署后端大模型调用接口

ollama+FastAPI部署后端大模型调用接口

记录一下开源大模型的后端调用接口过程

一、ollama下载及运行

1. ollama安装

ollama是一个本地部署开源大模型的软件,可以运行llama、gemma、qwen等国内外开源大模型,也可以部署自己训练的大模型

ollama国内地址

下载安装,并运行

PixPin_2025-01-06_10-53-53

ollama图标出现在折叠的任务栏中,就算安装成功了

2. 下载并运行大模型

在ollama管理的模型中,找到自己想要部署的大模型,以qwen2.5-7B大模型为例

ollama启动状态下,终端执行如下命令:

ollama run qwen2.5

image-20250106105916762

如果是首次运行,会先下载,下载之后,就可以运行起来了

PixPin_2025-01-06_11-01-29

此时,已经可以在终端访问大模型了

二、后端接口调用

ollama运行的本地大模型端口号为11434,可以在线调用

有多种方式可以实现大模型的后端调用,只要是后端语言,都可以

因为我的后端有其他深度学习模型要调用,所以我选用的后端语言是python,调用大模型时,自然也选择了python,接口框架使用的是fastapi

后端调用程序如下:

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author:HP
# datetime:2024/11/11 8:43
from fastapi import HTTPException, APIRouter
import requests
import json
from .inputData import GenerateRequestbig_model_api = APIRouter()# 定义 Ollama API 的 URL
OLLAMA_API_URL = "http://localhost:11434/v1/completions"  # Ollama 默认运行在本地 11434 端口@big_model_api.post('/llama')
async def generate_text(request: GenerateRequest):# 设置请求头和请求数据headers = {"Content-Type": "application/json"}data = {"model": request.model,"prompt": request.prompt,"temperature": request.temperature,"max_tokens": request.max_tokens,}# 发送请求给 Ollama APIresponse = requests.post(OLLAMA_API_URL, headers=headers, data=json.dumps(data))# 检查响应状态并处理结果if response.status_code == 200:result = response.json()return {"generated_text": result.get("choices")[0].get("text")}else:raise HTTPException(status_code=response.status_code, detail=response.text)

这里使用的是分布式路由接口,在fastapi的主程序中加入这个名为big_model_api的APIRouter实例,就可以在前端访问这个接口了

当然,需要配合pydantic定义好请求数据的结构,GenerateRequest类定义如下:

# 数据模型,用于接收请求数据
class GenerateRequest(BaseModel):model: str = "qwen2.5"  # 模型名称prompt: str  # 输入的 prompttemperature: float = 0.7  # 温度参数,默认为 0.7max_tokens: int = 1000  # 最大生成的 token 数,默认为 200

解释一下:

  • 默认调用的模型是qwen2.5,如果传递其他参数,就可以调用其他模型
  • prompt也就是提示词,就是前端传给后端的问题
  • temperature不知道有啥用
  • max_token其实就是支持返回多长的字符,这个值越大,消耗的资源越大

后端服务启动后,前端正常传递对话内容,请求后端接口,就可以调用大模型进行对话了

C4B46D06-F606-4e7b-BA44-DC491515A708

image-20250106112304865

如果有自己训练的模型,也可以参考这种方式部署上线,但是ollama如何来调用,还需要单独研究

相关文章:

ollama+FastAPI部署后端大模型调用接口

ollamaFastAPI部署后端大模型调用接口 记录一下开源大模型的后端调用接口过程 一、ollama下载及运行 1. ollama安装 ollama是一个本地部署开源大模型的软件,可以运行llama、gemma、qwen等国内外开源大模型,也可以部署自己训练的大模型 ollama国内地…...

BERT:深度双向Transformer的预训练用于语言理解

摘要 我们介绍了一种新的语言表示模型,名为BERT,全称为来自Transformer的双向编码器表示。与最近的语言表示模型(Peters等,2018a;Radford等,2018)不同,BERT旨在通过在所有层中联合调…...

【AI-23】深度学习框架中的神经网络3

神经网络有多种不同的类型,每种类型都针对特定的任务和数据类型进行优化。根据任务的特点和所需的计算能力,可以选择适合的神经网络类型。以下是一些主要的神经网络类型及其适用的任务领域。 1. 深度神经网络(DNN) 结构&#xf…...

网站运营数据pv、uv、ip

想要彻底弄清楚pv uv ip的区别,首先要知道三者的定义: IP(独立IP)的定义: 即Internet Protocol,指独立IP数。24小时内相同公网IP地址只被计算一次。 PV(访问量)的定义: 即Page View,即页面浏览量或点击量,用户每次刷…...

高阶知识库搭建实战五、(向量数据库Milvus安装)

以下是关于在Windows环境下直接搭建Milvus向量数据库的教程: 本教程分两部分,第一部分是基于docker安装,在Windows环境下直接安装Milvus向量数据库,目前官方推荐的方式是通过Docker进行部署,因为Milvus的运行环境依赖于Linux系统。 如果你希望在Windows上直接运行Milvus…...

【TR369】RTL8197FH-VG+RTL8812F增加TR369 command节点

sdk说明 ** Gateway/AP firmware v3.4.14b – Aug 26, 2019**  Wireless LAN driver changes as:  Refine WiFi Stability and Performance  Add 8812F MU-MIMO  Add 97G/8812F multiple mac-clone  Add 97G 2T3R antenna diversity  Fix 97G/8812F/8814B MP issu…...

FPGA实现UART对应的电路和单片机内部配合寄存器实现的电路到底有何区别?

一、UART相关介绍 UART是我们常用的全双工异步串行总线,常用TTL电平标准,由TXD和RXD两根收发数据线组成。 那么,利用硬件描述语言实现UART对应的电路和51单片机内部配合寄存器实现的电路到底有何区别呢?接下来我们对照看一下。 …...

数据库模型全解析:从文档存储到搜索引擎

目录 前言1. 文档存储(Document Store)1.1 概念与特点1.2 典型应用1.3 代表性数据库 2. 图数据库(Graph DBMS)2.1 概念与特点2.2 典型应用2.3 代表性数据库 3. 原生 XML 数据库(Native XML DBMS)3.1 概念与…...

【Java基础】Java异常捕捉,throws/throw、finally、try、catch关键字的含义与运用

1. Java 异常处理: 异常是程序中的一些错误,但并不是所有的错误都是异常,并且错误有时候是可以避免的。 比如说,你的代码少了一个分号,那么运行出来结果是提示是错 java.lang.Error;如果你用System.out.p…...

Android Studio 安装配置(个人笔记)

Android studio安装的前提是必须保证安装了jdk1.8版本以上 一、查看是否安装jdk cmd打开命令行,输入java -version 最后是一个关键点 输入 javac ,看看有没有相关信息 没有就下载jdk Android studio安装的前提是必须保证安装了jdk1.8版本以上 可以到…...

计算机网络——数据链路层-介质访问控制

一、介质访问控制方法 在局域网中, 介质访问控制(medium access control)简称MAC,也就是信道访问控制方法,可以 简单的把它理解为如何控制网络节点何时发送数据、如何传输数据以及怎样在介质上接收数据, 是解决当局域网中共用信道的使用产生竞…...

pytest日志显示

在 pytest 中,可以通过 钩子函数 和 配置文件 pytest.ini 配置日志的显示方式,实现对日志的灵活控制。以下是常用实现方式及配置说明。 方式一:使用 conftest.py 钩子函数自定义日志显示 通过 conftest.py 文件中的钩子函数,实现…...

【信息系统项目管理师】第15章:项目风险管理过程详解

更多内容请见: 备考信息系统项目管理师-专栏介绍和目录 文章目录 一、规划风险管理1、输入2、工具与技术3、输出二、识别风险1、输入2、工具与技术3、输出三、实施定性风险分析1、输入2、工具与技术3、输出四、实施定量风险分析1、输入2、工具与技术3、输出五、规划风险应对1、…...

Diffusers 使用 LoRA

使用diffusers 加载 LoRA,实现文生图功能。摘自 diffusers文档。 模型可以根据名称去modelscope找对应资源下载。使用的时候需要替换成具体路径。虽然modelscope和diffusers都使用了模型id,但是并不能通用。 不同的LoRA对应了不同的“trigger” words&am…...

云安全博客阅读(二)

2024-05-30 Cloudflare acquires BastionZero to extend Zero Trust access to IT infrastructure IT 基础设施的零信任 不同于应用安全,基础设置的安全的防护紧急程度更高,基础设施的安全防护没有统一的方案IT基础设施安全的场景多样,如se…...

SpringCloud系列教程:微服务的未来(六)docker教程快速入门、常用命令

对于开发人员和运维工程师而言,掌握 Docker 的基本概念和常用命令是必不可少的。本篇文章将带你快速入门 Docker,并介绍一些最常用的命令,帮助你更高效地进行开发、测试和部署。 目录 前言 快速入门 docker安装 配置镜像加速 部署Mysql …...

Vue 快速入门:开启前端新征程

在当今的 Web 开发领域,Vue.js 作为一款极具人气的 JavaScript 前端框架,正被广泛应用于各类项目之中。它以简洁的语法、高效的数据绑定机制以及强大的组件化开发模式,为开发者们带来了前所未有的开发体验。如果你渴望踏入前端开发的精彩世界…...

UVM:uvm_component methods configure

topic UVM component base class uvm_config_db 建议使用uvm_config_db代替uvm_resource_db uvm factory sv interface 建议:uvm_config_db 以下了解 建议打印error...

LLM 训练中存储哪些矩阵:权重矩阵,梯度矩阵,优化器状态

LLM 训练中存储哪些矩阵 目录 LLM 训练中存储哪些矩阵深度学习中梯度和优化器是什么在 LLM 训练中通常会存储以下矩阵: 权重矩阵:这是模型的核心组成部分。例如在基于 Transformer 架构的 LLM 中,每一层的多头注意力机制和前馈神经网络都会有相应的权重矩阵。以 BERT 模型为…...

大模型思维链推理的进展、前沿和未来分析

大模型思维链推理的综述:进展、前沿和未来 "Chain of Thought Reasoning: A State-of-the-Art Analysis, Exploring New Horizons and Predicting Future Directions." 思维链推理的综述:进展、前沿和未来 摘要:思维链推理&#…...

3分钟搞定Windows和Office激活:KMS_VL_ALL_AIO完全指南

3分钟搞定Windows和Office激活:KMS_VL_ALL_AIO完全指南 【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为Windows系统激活烦恼吗?还在为Office办公软件过期而头疼&am…...

QTableWidget 表格组件腺

7.1 初识三维模型 7.1.1 三维模型的数据载体 随着计算机图形技术的发展,我们或多或少都会见过或者听说过三维模型。笔者始终记得小时候第一次在电视上看到三维动画《变形金刚:超能勇士》的震撼感受;而现在我们已经可以在手机上玩三维游戏《王…...

保姆级教程:用YOLOv8n-pose ONNX模型实现摄像头实时姿态估计(附完整代码)

零基础实战:YOLOv8n-pose ONNX模型实时姿态估计全流程解析 当我们需要在视频流中实时追踪人体动作时,传统方案往往面临精度与速度难以兼得的困境。YOLOv8n-pose作为轻量级姿态估计模型,配合ONNX运行时的高效推理能力,为开发者提供…...

【深度学习模型】手动部署EfficientNet.h5的完整指南与常见问题解决

1. 为什么需要手动部署EfficientNet.h5文件 当你第一次尝试使用EfficientNet模型时,可能会遇到一个常见问题:Keras自动下载模型文件失败。这种情况通常表现为控制台输出类似"URL fetch failure"的错误信息。这主要是因为网络连接问题或某些地区…...

[Linux][虚拟串口]x一个特殊的字节低

简介 langchain专门用于构建LLM大语言模型,其中提供了大量的prompt模板,和组件,通过chain(链)的方式将流程连接起来,操作简单,开发便捷。 环境配置 安装langchain框架 pip install langchain langchain-community 其中…...

Anything to RealCharacters 2.5D转真人引擎效果展示:动漫角色→写实年龄渐变效果实现

Anything to RealCharacters 2.5D转真人引擎效果展示:动漫角色→写实年龄渐变效果实现 获取更多AI镜像 想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多…...

Seatunnel实战:构建Mysql到Hive的稳定数据同步管道

1. 为什么选择Seatunnel做数据同步? 第一次接触Seatunnel是在去年一个数据仓库迁移项目里。当时客户要求把几十个MySQL业务库的数据实时同步到Hive做分析,试了好几个工具都不太理想。要么配置复杂得要命,要么性能跟不上,直到发现了…...

MCP + Function Calling:让模型自主驱动工具链完成多步推理

标签:Java MCP Function Calling ReAct j-langchain ToolCall Agent 前置阅读:Java 实现 ReAct Agent:工具调用与推理循环 → Java Agent 集成 MCP 工具协议:让 AI 真正驱动企业系统 适合人群:已了解 MCP 基础用法&…...

Flutter漫画阅读器终极指南:打造你的专属漫画世界

Flutter漫画阅读器终极指南:打造你的专属漫画世界 【免费下载链接】flutter_dmzj 动漫之家第三方Flutter客户端 项目地址: https://gitcode.com/gh_mirrors/fl/flutter_dmzj 动漫之家X是一款使用Flutter开发的跨平台第三方客户端,为漫画爱好者提供…...

如何通过wireshark抓取802.11无线网络的数据包

原文链接:https://wiki.wireshark.org/CaptureSetup/WLAN全文总结 本文围绕IEEE 802.11(WLAN)无线网络抓包环境搭建展开详细说明,核心讲解了在使用Wireshark、TShark等工具抓取无线流量时,不同抓包需求对应的配置方式、…...