当前位置：首页 > article >正文

Triton推理服务器部署YOLOv8（onnxruntime后端和TensorRT后端）

article 2026/2/8 9:16:39

文章目录

- 一、Trition推理服务器基础知识
- - 1）推理服务器设计概述
  - 2）Trition推理服务器quickstart
  - - （1）创建模型仓库（Create a model Repository）
    - （2）启动Triton （launching triton）并验证是否正常运行
    - （3）发送推理请求（send a inference request）
  - 3）Trition推理服务器架构
  - 4）Trition推理服务器模型配置（最小、最大模型配置，最大批处理次数，模型维度形状，数据类型）
- 二、YOLOv8安装
- - 1）安装网络环境
  - 2）安装pytorch
  - 3）安装和克隆YOLOv8
- 三、TensorRT补充
- - 1）简介
  - 2）TRT引擎构建
  - 3）TRT API基本用法
  - 4）plugin加速推理
- 四、onnx补充
- - 1）onnx概述+模型网络结构+数据结构
  - 2）onnx模型搭建+dump信息+推理
  - 3）onnx_graphsurgeon
  - 4）onnx_Simplifier
- 五、Trion推理服务器部署（onnxruntime后端）
- - 1）安装docker和NVIDIA Container toolkit
  - - （1）安装docker
    - （2）安装NVIDIA Container toolkit
  - 2）导出onnx模型
  - 3）组织模型仓库布局文件
  - 4）构建Triton推理docker容器
  - 5）运行和测试Triton服务器
- 六、Trion推理服务器部署（TensorRT后端）
- - 1）构建TensorRT引擎
  - 2）组织模型仓库布局(ensemble是先用trt推理后，再用后处理图片)
  - 3）构建Triton推理的docker容器
  - 4）运行和测试Triton服务器
  - 5）前处理说明（yolov8的前处理是放在前端main.py）

一、Trition推理服务器基础知识

1）推理服务器设计概述

在这里插入图片描述

设计思想和特点
1、支持多种机器学习框架

2、支持多种部署场景

在这里插入图片描述
3、高性能推理

4、灵活的模型管理

5、可扩展性

6、强大的客户端支持

2）Trition推理服务器quickstart

（1）创建模型仓库（Create a model Repository）

在这里插入图片描述

（2）启动Triton （launching triton）并验证是否正常运行

cpu运行

$ docker run --rm -p8000:8000 -p8001:8001 -p8002:8002 -v/full/path/to/docs/examples/model_repository:/models nvcr.io/nvidia/tritonserver:<xx.yy>-py3 tritonserver --model-repository=/models

在这里插入图片描述
GPU运行

命令

$ docker run --gpus=1 --rm -p8000:8000 -p8001:8001 -p8002:8002 -v/full/path/to/docs/examples/model_repository:/models nvcr.io/nvidia/tritonserver:<xx.yy>-py3 tritonserver --model-repository=/models

输出

+----------------------+---------+--------+
| Model                | Version | Status |
+----------------------+---------+--------+
| <model_name>         | <v>     | READY  |
| ..                   | .       | ..     |
| ..                   | .       | ..     |
+----------------------+---------+--------+
...
...
...
I1002 21:58:57.891440 62 grpc_server.cc:3914] Started GRPCInferenceService at 0.0.0.0:8001
I1002 21:58:57.893177 62 http_server.cc:2717] Started HTTPService at 0.0.0.0:8000
I1002 21:58:57.935518 62 http_server.cc:2736] Started Metrics Service at 0.0.0.0:8002

在这里插入图片描述

验证是否正常运行

$ curl -v localhost:8000/v2/health/ready
...
< HTTP/1.1 200 OK
< Content-Length: 0
< Content-Type: text/plain

（3）发送推理请求（send a inference request）

①从NGC拉去客户端库和示例
Use docker pull to get the client libraries and examples image from NGC.

$ docker pull nvcr.io/nvidia/tritonserver:<xx.yy>-py3-sdk

②拉取特定版本镜像的客户端
Where <xx.yy> is the version that you want to pull. Run the client image.

$ docker run -it --rm --net=host nvcr.io/nvidia/tritonserver:<xx.yy>-py3-sdk

③开始请求模型获取前三个分类
在这里插入图片描述

$ /workspace/install/bin/image_client -m densenet_onnx -c 3 -s INCEPTION /workspace/images/mug.jpg
Request 0, batch size 1
Image '/workspace/images/mug.jpg':15.346230 (504) = COFFEE MUG13.224326 (968) = CUP10.422965 (

Triton推理服务器部署YOLOv8（onnxruntime后端和TensorRT后端）

文章目录一、Trition推理服务器基础知识1）推理服务器设计概述2）Trition推理服务器quickstart（1）创建模型仓库（Create a model Repository）（2）启动Triton （launching triton）并验证是否正常运行（3）发送推理请求（send a inference request）3）Trition推理服务器架…...

编程日记 2026/1/29 19:44:04

TDengine 的 AI 应用实战——电力需求预测

作者： derekchen Demo数据集准备我们使用公开的UTSD数据集里面的电力需求数据，作为预测算法的数据来源，基于历史数据预测未来若干小时的电力需求。数据集的采集频次为30分钟，单位与时间戳未提供。为了方便演示，按…...

编程日记 2026/2/8 7:17:58

NLP学习路线图（二十一）：词向量可视化与分析

在自然语言处理（NLP）的世界里，词向量（Word Embeddings）犹如一场静默的革命。它将原本离散、难以捉摸的词语，转化为稠密、富含语义的连续向量，为机器理解语言铺平了道路。然而，这些向…...

编程日记 2026/2/5 14:49:46

【分布式技术】KeepAlived高可用架构科普

KeepAlived高可用架构 Keepalived 架构详解一、核心架构组件二、VRRP 协议详解1. **VRRP 核心概念**2. **VRRP 工作流程**3. **VRRP 通信机制** 三、高可用架构模型四、健康检查机制五、配置文件详解配置文件关键参数说明： 六、高可用实现流程七、脑裂问题与解决方案…...

编程日记 2026/2/5 9:34:46

如何配置mvn镜像源为华为云 # 查找mvn 配置文件 mvn -X help:effective-settings | grep settings.xml# 配置mvn镜像源为华为云，/home/apache-maven-3.9.5/conf/settings.xml文件路径需要根据上一步中查询结果调整 cat > /home/apache-maven-3.9.5/conf/setting…...

编程日记 2026/1/31 6:49:03

Linux平台排查CPU占用高的进程和线程指南

基础排查工具 1. top命令 - 实时进程监控 top操作指令： 按 P：按CPU使用率排序按 1：显示每个CPU核心的使用情况按 H：切换显示线程视图按 M：按内存使用排序按 q：退出 2. htop命令 - 增强版top&#xff08…...

编程日记 2025/12/20 16:25:59

多模态大语言模型arxiv论文略读（105）

UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model ➡️ 论文标题：UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model ➡️ 论文作者：Zhaowei…...

编程日记 2026/1/31 6:04:13

简述MySQL 超大分页怎么处理？

针对MySQL超大分页（深度分页）的性能问题，核心优化方案如下： 1. ‌子查询覆盖索引（延迟关联）‌ ‌原理‌： 子查询仅扫描‌覆盖索引‌（如主键），避免回表操作…...

编程日记 2025/10/24 3:33:46

Pyhton中的命名空间包（Namespace Package）您了解吗？

在 Python 中，命名空间包（Namespace Package） 是一种特殊的包结构，它允许将模块分散在多个独立的目录中，但这些目录在逻辑上属于同一个包命名空间。命名空间包的核心特点是：没有 __init__.py 文件&#xff…...

编程日记 2026/1/29 23:11:03

Java设计模式之备忘录模式详解

Java设计模式之备忘录模式详解一、备忘录模式核心思想核心目标：捕获对象内部状态并在需要时恢复，同时不破坏对象的封装性。如同游戏存档系统，允许玩家保存当前进度并在需要时回退到之前的状态。二、备忘录模式类图（Mermaid&am…...

编程日记 2025/11/29 12:14:07

Azure DevOps Server 2022.2 补丁（Patch 5）

微软Azure DevOps Server的产品组在4月8日发布了2022.2 的第5个补丁。下载路径为：https://aka.ms/devops2022.2patch5 这个补丁的主要功能是修改了代理(Agent)二进制安装文件的下载路径；之前，微软使用这个CND(域名为vstsagentpackage.azuree…...

编程日记 2026/1/31 0:09:37

手摸手还原vue3中reactive的get陷阱以及receiver的作用

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、实例是什么？二、new Prxoy三、实现代码1.引入代码2.读入数据总结前言 receiver不是为解决get陷阱而生，而是为解决Proxy中的this绑…...

编程日记 2026/1/29 23:09:01

小明的Java面试奇遇之互联网保险系统架构与性能优化

一、文章标题小明的Java面试奇遇之互联网保险系统架构与性能优化🚀 二、文章标签 Java,Spring Boot,MyBatis,Redis,Kafka,JVM,多线程,互联网保险,系统架构,性能优化三、文章概述本文模拟了程序员小明在应聘互联网保险系统开发岗位时，参与的一场深…...

编程日记 2025/10/29 18:29:03

C++学习-入门到精通【13】标准库的容器和迭代器

C学习-入门到精通【13】标准库的容器和迭代器目录 C学习-入门到精通【13】标准库的容器和迭代器一、标准模板库简介1.容器简介2.STL容器总览3.近容器4.STL容器的通用函数5.首类容器的通用typedef6.对容器元素的要求二、迭代器简介1.使用istream_iterator输入，使用…...

编程日记 2026/1/29 23:08:40

C# 面向对象特性

面向对象编程的三大基本特性是：封装、继承和多态。下面将详细介绍这三大特性在C#中的体现方式。封装定义：把对象的数据和操作代码组合在同一个结构中，这就是对象的封装性。体现方式： 使用访问修饰符控制成员的可见性通过属…...

编程日记 2026/1/29 21:18:34

ElasticStack技术之logstash介绍

一、什么是Logstash Logstash 是 Elastic Stack（ELK Stack）中的一个开源数据处理管道工具，主要用于收集、解析、过滤和传输数据。它支持多种输入源，如文件、网络、数据库等，能够灵活地对数据进行处理，比如…...

编程日记 2026/2/5 15:25:04

前端与后端

实例一处理登录页面请求 # 处理登录页面请求 app.route(/c, methods[GET, POST]) # /c是网页地址 def login(): usernameaa passwordbb print(username,password) if request.method POST: username request.form.get(yhm) password requ…...

编程日记 2026/1/9 3:05:30

CI/CD 持续集成、持续交付、持续部署

CI/CD 是持续集成（Continuous Integration） 和持续交付/持续部署（Continuous Delivery/Deployment） 的缩写，代表现代软件开发中通过自动化流程快速、可靠地构建、测试和发布代码的实践。其核心目标是减少人工干预、…...

编程日记 2026/2/7 19:15:19

代码随想录60期day54

岛屿dfs #include<iostream> #include<vector> using namespace std;int dir[4][2] {0,1,1,0,-1,0,0,-1};void dfs(const vector<vector<int>>&grid,vector<vecotr<bool>>&visited,int x,int y){for(int i 0 ; i < 4; i){in…...

编程日记 2025/12/9 13:17:55

关于easyx头文件

一、窗口创建 （1）几种创建方式 #include<easyx.h>//easyx的头文件 #include<iostream> using namespace std;int main() {//创建一个500*500的窗口//参数为：长度，宽度，是否显示黑框（无参为不…...

编程日记 2026/2/7 10:24:53

Java 中执行命令并使用指定配置文件的最佳实践

在Java开发中，有时需要从Java应用程序中执行系统命令，并使用指定的配置文件来控制这些命令的行为。本文将详细介绍在Java中执行命令并使用指定配置文件的最佳实践，包括如何设置环境变量、重定向输入输出以及处理可能出现的异常。一、基本实…...

编程日记 2025/8/2 23:25:57

django入门-orm数据库操作

一：下载数据库依赖项mysqlclient pip install mysqlclient 二：django配置文件配置数据库链接路径：mysite2\mysite2\settings.py DATABASES {default: {ENGINE: django.db.backends.mysql,NAME: data, # 数据库名称USER: root, …...

编程日记 2026/1/29 23:10:10

食品电商突围战！品融电商全平台代运营，助您抢占天猫京东抖音红利！

食品电商突围战！品融电商全平台代运营，助您抢占天猫京东抖音红利！ 一、食品电商的黄金时代：机遇与挑战并存随着消费升级和线上渗透率的持续攀升，食品行业正迎来前所未有的发展机遇。2023年&#xff…...

编程日记 2026/2/7 8:34:03

Termux下如何使用MATLAB

实际上，termux 目前无法运行MATLAB，但是可以运行MATLAB的平替octave ，可以完全在终端环境运行，方便运算和查看模型拟合结果等，完全兼容MATLAB命令。食用方法： //pkg install wget wget https://its-poin…...

编程日记 2026/2/7 9:58:46

STM32外部中断（EXTI）以及旋转编码器的简介

一、外部中断机制概述中断是指当主程序执行期间出现特定触发条件（即中断源）时，CPU将暂停当前任务，转而执行相应的中断服务程序（ISR），待处理完成后恢复原程序的运行流程。该机制通过事件驱动…...

编程日记 2026/1/29 21:18:34

双擎驱动：华为云数字人与DeepSeek大模型的智能交互升级方案

一、技术融合概述华为云数字人华为云数字人，全称：数字内容生产线 MetaStudio。数字内容生产线，提供数字人视频制作、视频直播、智能交互、企业代言等多种服务能力，使能千行百业降本增效。另外，数字内容生产线&#…...

编程日记 2026/2/6 0:25:39

Unity Version Control UVC报错：Not connected. Trying to re-connect…

问题背景今天备份项目的时候遇到了这个问题，起因是Unity停用了原始的Plastic SCM的项目管理功能，我使用新的Unity Version Control系统时遇到了无法新建workspace的问题，即使新建之后进入Unity也无法连接到仓库，点击重试也无反应…...

编程日记 2025/10/15 9:43:22

场景题-1

场景题-1 订单到期关闭 1、DelayQueue 无界阻塞队列，用于放置实现了Delayed接口的对象，基于PriorityQueue实现，可用于实现在指定的延迟时间之后处理元素。订单创建后放入队列中，然后使用一个常驻任务不停地执行扫描取出超时订单…...

编程日记 2025/12/27 9:08:54

Java复习Day26

Lambda表达式简介 Lambda表达式是Java 8的重要特性，允许使用简洁的表达式代替功能接口。它类似于方法，包含参数列表和执行主体（可以是表达式或代码块）。Lambda可以视为匿名内部类的语法糖，也被称为闭包。优点代码…...

编程日记 2026/1/9 11:46:39

实验设计与分析（第6版，Montgomery)第5章析因设计引导5.7节思考题5.5 R语言解题

本文是实验设计与分析（第6版，Montgomery著，傅珏生译) 第5章析因设计引导5.7节思考题5.5 R语言解题。主要涉及方差分析，正态假设检验，残差分析，交互作用图。 dataframe <-data.frame( wrapc(17,20,12,9,…...

编程日记 2026/1/31 17:08:45

文章目录

一、Trition推理服务器基础知识

1）推理服务器设计概述

2）Trition推理服务器quickstart

（1）创建模型仓库（Create a model Repository）

（2）启动Triton （launching triton）并验证是否正常运行

（3）发送推理请求（send a inference request）

相关文章：