当前位置：首页 > news >正文

【Triton-ONNX】如何使用 ONNX 模型服务与 Triton 通信执行推理任务上-Triton快速开始

news 2026/2/10 11:53:07

模型部署系列文章

前置-docker 理解:【 0 基础 Docker 极速入门】镜像、容器、常用命令总结
前置-http/gRPC 的理解: 【HTTP和gRPC的区别】协议类型/传输效率 /性能等对比
【保姆级教程附代码】Pytorch (.pth) 到 TensorRT (.plan) 模型转化全流程
【保姆级教程附代码(二)】Pytorch (.pth) 到 TensorRT (.plan) 模型转化全流程细化
前面介绍了模型从 PyTorch 到 TensoRT 转化的过程（属于整体流程图的 Model Repo 那部分），接下来几篇则是将重点放到 client-server 之间的部分，需要我们加深对 triton_client 以及不同的 triton inference server 的理解。
【Triton Inference Server 多输入|多输出|无输出】如何用 triton_client.infer 调用多输入、多输出的模型进行推理呢？
本篇重点是解释如何使用 Python 库与 Triton 通信执行推理任务，参考官方 repo。

文章目录

模型部署系列文章
Client-Server 整体流程
- - 关键步骤
一、前置特性了解
二、创建模型存储库
三、启动 Triton（docker）
四、Client 发送推理请求

Client-Server 整体流程

在这里插入图片描述

关键步骤

Creating a Model Repository / 创建模型存储库
Launching Triton / 启动 Triton
Send an Inference Request / 发送推理请求

一、前置特性了解

Python 客户端库使用 numpy 来表示输入和输出张量。
- 其它框架（如 PyTorch）支持张量，其中张量中的每个元素都位于可变长度二进制数据。
- 每个元素可以包含一个字符串或任意字节序列。
- 在客户端上，此数据类型为 BYTES（请参阅数据类型有关支持的数据类型的信息）。
在某些情况下，使用系统共享内存在客户端库和 Triton 之间通信张量可以显著提高性能。
- Python 示例应用程序 simple_http_shm_client.py 和 simple_grpc_shm_client.py 中演示了如何使用系统共享内存。
- Python 没有分配和访问共享内存的标准方法，因此举个例子，一个简单的系统共享内存模块提供了，可以与 Python 客户端库一起使用来创建，设置和销毁系统共享内存。
在某些情况下，使用 CUDA 共享内存在客户端库和 Triton 之间传递张量可以显著提高性能。
- Python 示例应用程序 simple_http_cudashm_client.py 和 simple_grpc_cudashm_client.py 中演示了如何使用 CUDA 共享内存。
- Python 没有分配和访问共享内存的标准方法，因此举个例子，一个简单的 CUDA 共享内存模块提供了，可以与 Python 客户端库一起使用来创建，设置和销毁 CUDA 共享内存。该模块目前支持 numpy 数组（示例用法）和 DLPack 张量（示例用法）。

正式动手，以👉快速开始为案例。

二、创建模型存储库

可以在示例中下载模型来进行尝试

cd docs/examples
./fetch_models.sh

本文这里只下载了 densenet 作为尝试

# ONNX densenet
mkdir -p model_repository/densenet_onnx/1
wget -O model_repository/densenet_onnx/1/model.onnx \https://github.com/onnx/models/raw/main/validated/vision/classification/densenet-121/model/densenet-7.onnx

三、启动 Triton（docker）

docker run --gpus all --rm -p 8000:8000 -p 8001:8001 -p 8002:8002 -v $(pwd)/densenet_onnx:/models/densenet_onnx docker.io/xxx:v1 tritonserver --model-repository=/models

启动特定 Triton 的 docker 时过程中遇到了: Error response from daemon: could not select device driver “” with capabilities，参考方案得到了解决。
启动时要注意所在的路径和 docker 命令对应上。
- 如下 -v $(pwd)/densenet_onnx:/models/densenet_onnx：这部分将当前工作目录下的 densenet_onnx 目录挂载到容器内的 /models/densenet_onnx 目录。
- 那么当前目录下就需要有以下的结构才行。
验证 Triton 是否正确运行
- 正常运行后会有以下提示，可以看到模型是处于 READY 状态。
- 新开一个 terminal 后输入以下 curl 的语句。
- 用 Triton 的就绪端点来验证服务器和模型是否已准备好进行推理。
- 从主机系统使用curl 访问指示服务器状态的HTTP 端点。

curl -v localhost:8000/v2/health/ready# 输出为
*   Trying 127.0.0.1:8000...
* Connected to localhost (127.0.0.1) port 8000 (#0)
> GET /v2/health/ready HTTP/1.1
> Host: localhost:8000
> User-Agent: curl/7.81.0
> Accept: */*
> 
* Mark bundle as not supporting multiuse
< HTTP/1.1 200 OK
< Content-Length: 0
< Content-Type: text/plain
< 
* Connection #0 to host localhost left intact

这个输出说明 Triton Inference Server 已经准备好（ready）。返回的 200 OK 状态码表示服务器正常运行并能够处理请求。
通过访问 /v2/health/ready 端点，你确认了 Triton Inference Server 的健康状态，表明它已成功启动并准备好接受推理请求。

四、Client 发送推理请求

可以通过 docker 中的客户端来实现。

docker pull nvcr.io/nvidia/tritonserver:<xx.yy>-py3-sdkdocker run -it --rm --net=host nvcr.io/nvidia/tritonserver:24.08-py3-sdk

从 nvcr.io/nvidia/tritonserver:<xx.yy>-py3-sdk 映像中，运行示例图像客户端应用程序，以使用示例 dendensenet_onnx 模型执行图像分类。

要发送 dendensenet_onnx 模型的请求，请使用 /workspace/images 目录中的图像。在本例中，我们要求前 3 个分类。

$ /workspace/install/bin/image_client -m densenet_onnx -c 3 -s INCEPTION /workspace/images/mug.jpg
Request 0, batch size 1
Image '/workspace/images/mug.jpg':15.346230 (504) = COFFEE MUG13.224326 (968) = CUP10.422965 (505) = COFFEEPOT

在这里插入图片描述

【Triton-ONNX】如何使用 ONNX 模型服务与 Triton 通信执行推理任务上-Triton快速开始

模型部署系列文章前置-docker 理解:【 0 基础 Docker 极速入门】镜像、容器、常用命令总结前置-http/gRPC 的理解: 【HTTP和gRPC的区别】协议类型/传输效率 /性能等对比【保姆级教程附代码】Pytorch (.pth) 到 TensorRT (.plan) 模型转化全流程【保姆级教程附代码(二)】Pytor…...

编程日记 2025/1/3 18:48:46

CertiK《Hack3d：2024年度安全报告》（附报告全文链接）

CertiK《Hack3d：2024年度安全报告》现已发布，本次报告深入分析了2024年Web3.0领域的安全状况。2024年损失总额超过23亿美元，同比增幅高达31.61%；其中，12月的损失金额最少。过去一年，网络钓鱼攻击和私钥泄露…...

编程日记 2025/1/3 18:46:44

TIOBE 指数 12 月排行榜公布，VB.Net排行第九

IT之家 12 月 10 日消息，TIOBE 编程社区指数是一个衡量编程语言受欢迎程度的指标，评判的依据来自世界范围内的工程师、课程、供应商及搜索引擎，今天 TIOBE 官网公布了 2024 年 12 月的编程语言排行榜，IT之家整理如下： …...

编程日记 2025/1/3 18:45:43

【网络协议】开放式最短路径优先协议OSPF详解（一）

OSPF 是为取代 RIP 而开发的一种无类别的链路状态路由协议，它通过使用区域划分以实现更好的可扩展性。文章目录链路状态路由协议OSPF 的工作原理OSPF 数据包类型Dijkstra算法、管理距离与度量值OSPF的管理距离OSPF的度量值链路状态路由协议的优势拓扑结构路由器O…...

编程日记 2025/1/3 18:43:40

嵌入式Linux驱动开发的基本知识(驱动程序的本质、常见的设备类型、设备号的本质理解、设备实例的注册过程)

基本概念之什么是驱动程序()？ 驱动程序本质上是代码逻辑的集合，通常用于管理、驱动多个设备实例。某个设备要想使用驱动程序，需要实例化相应的驱动程序的结构体，并在系统中注册，获得主设备号、次设备号，并…...

编程日记 2025/1/3 18:42:39

爱死机第四季（秘密关卡）4KHDR国语字幕

通过网盘分享的文件：love_death_robot 链接: https://pan.baidu.com/s/1bG3Xtdopenil2O_y93hY_g?pwd8kib 提取码: 8kib...

编程日记 2025/1/3 18:40:38

journalctl -xeu kubelet 执行后的日志如下： -- -- The process exit code is exited and its exit status is 1. Jan 02 14:20:06 iv-ydipyqxfr4wuxjsij0bd systemd[1]: kubelet.service: Failed with result exit-code. -- Subject: Unit failed -- Defined-By: system…...

编程日记 2025/1/3 18:39:36

＜div＞{{ $t(“collectionPlan“) }}＜/div＞中的$t是什么

$t是Vue I18n插件提供的一种方法，用于根据当前应用的语言环境来获取相应的翻译文本。以下是一个简单的示例，展示如何在Vue I18n中定义消息： const i18n new VueI18n({locale: en, // 设置默认语言messages: {en: {collectionPlan: Collec…...

编程日记 2025/1/3 18:38:35

[C++刷题] 求回文素数

求回文素数题目素数回文数的个数题目描述求 11 11 11 到 n n n 之间（包括 n n n），既是素数又是回文数的整数有多少个。输入格式一个大于 11 11 11 小于 10000 10000 10000 的整数 n n n。输出格式 11 11 11 到 n n n 之…...

编程日记 2025/1/3 18:37:33

SQLALchemy如何将SQL语句编译为特定数据库方言

最近在一个使用fastapitortoise-orm的项目中，需要将orm的语句编译成特定数据库方言，但是查询了官方文档及一些资料却找不到合适的方法论😔，于是乎我就把目光放到了sqlalchemy身上，东找西找给我找着了。话不多说&#x…...

编程日记 2025/1/3 18:33:29

[卫星遥感] 解密卫星目标跟踪：挑战与突破的深度剖析

目录 [卫星遥感] 解密卫星目标跟踪：挑战与突破的深度剖析 1. 卫星目标跟踪的核心挑战 1.1 目标的高速与不确定性 1.2 卫星传感器的局限性 1.3 数据处理与融合问题 1.4 大尺度与实时性要求 2. 当前卫星目标跟踪的主流技术 2.1 卡尔曼滤波（Kalman …...

编程日记 2025/1/3 18:31:26

I2C（一）：存储器模式：stm32作为主机对AT24C02写读数据

存储器模式：在HAL库中，I2C有专门对存储器外设设置的库函数 I2C（一）：存储器模式的使用 1、I2C轮询式写读AT24C02一页数据2、I2C轮询式写读AT24C02多页数据3、I2C中断式写读AT24C02一页数据4、I2C使用DMA式写读AT24C02一…...

编程日记 2025/1/3 18:29:23

scrapy 教程

Scrapy Tutorial In this tutorial, we’ll assume that Scrapy is already installed on your system. If that’s not the case, see Installation guide. We are going to scrape quotes.toscrape.com, a website that lists quotes from famous authors. This tutorial …...

编程日记 2025/1/3 18:25:18

2025元旦源码免费送

我们常常在当下感到时间慢，觉得未来遥远，但一旦回头看，时间已经悄然流逝。对于未来，尽管如此，也应该保持一种从容的态度，相信未来仍有许多可能性等待着我们。免费获取源码。更多内容敬请期待。如有需要可…...

编程日记 2025/1/3 18:19:09

高级架构五设计模式

一设计模式七大原则 1.1. 设计模式目的编写软件过程中，程序员面临着来自耦合性，内聚性以及可维护性，可扩展性，重用性，灵活性等多方面的挑战，设计模式是为了让程序(软件)，具有更好的&#…...

编程日记 2025/1/3 18:17:05

RFID手持机与RFID工业平板在仓储物流管理系统中的选型

概述随着物联网技术在仓储物流管理系统中的普及，RFID手持机与RFID工业平板作为基于RFID技术手持式读写器的两种重要终端设备形态，得到了广泛应用。尽管RFID手持机与RFID工业平板都具备读写 RFID标签的基本功能，使用场景较为类似&#xff0c…...

编程日记 2025/1/3 18:15:03

IoC设计模式详解：控制反转的核心思想

前言：在软件开发中，设计模式是一种经过验证的、在特定场景下能有效解决问题的解决方案。控制反转（Inversion of Control，IoC） 作为一种设计模式，通过让程序的控制流和对象管理反转，从而使得代码…...

编程日记 2025/1/3 18:12:00

《云原生安全攻防》-- K8s安全配置：CIS安全基准与kube-bench工具

在本节课程中，我们来了解一下K8s集群的安全配置，通过对CIS安全基准和kube-bench工具的介绍，可以快速发现K8s集群中不符合最佳实践的配置项，及时进行修复，从而来提高集群的安全性。在这个课程中，我们将学习…...

编程日记 2025/1/3 18:10:59

LINUX下载编译gtk

下载选择自己合适的版本 GNOME / gtk GitLab 下载meson GNOME / gtk GitLab 编译 BUILD_DIRbuilddir INSTALL_DIR${HOME}/gtk-resultMESON_PATHpwd/meson-1.6.1/meson.py${MESON_PATH} setup \--prefix ${INSTALL_DIR} \${BUILD_DIR}cd builddir${MESON_PATH} compile…...

编程日记 2025/1/3 18:09:56

基于VSCode软件框架的RISC-V IDE MRS2正式上线发布

基于VSCode软件框架的RISC-V IDE MRS2正式上线发布一、概述 MounRiver Studio Ⅱ(MRS2)为MounRiver Studio的换代版本，从V2.1开始，框架更换至更现代的VSCode，并深度定制开发。在工程管理、代码编辑、编译、调试等方面均兼容之前版本&#…...

编程日记 2025/1/3 18:06:52

web vue 项目 Docker化部署

Web 项目 Docker 化部署详细教程目录 Web 项目 Docker 化部署概述Dockerfile 详解构建阶段生产阶段构建和运行 Docker 镜像 1. Web 项目 Docker 化部署概述 Docker 化部署的主要步骤分为以下几个阶段： 构建阶段（Build Stage）&#xff1a…...

编程新知 2025/8/12 16:28:43

7.4.分块查找

一.分块查找的算法思想： 1.实例： 以上述图片的顺序表为例， 该顺序表的数据元素从整体来看是乱序的，但如果把这些数据元素分成一块一块的小区间， 第一个区间[0,1]索引上的数据元素都是小于等于10的， 第二…...

编程新知 2026/2/8 20:43:02

CMake基础：构建流程详解

目录 1.CMake构建过程的基本流程 2.CMake构建的具体步骤 2.1.创建构建目录 2.2.使用 CMake 生成构建文件 2.3.编译和构建 2.4.清理构建文件 2.5.重新配置和构建 3.跨平台构建示例 4.工具链与交叉编译 5.CMake构建后的项目结构解析 5.1.CMake构建后的目录结构 5.2.构…...

编程新知 2026/2/2 7:39:34

关于nvm与node.js

1 安装nvm 安装过程中手动修改 nvm的安装路径， 以及修改通过nvm安装node后正在使用的node的存放目录【这句话可能难以理解，但接着往下看你就了然了】 2 修改nvm中settings.txt文件配置 nvm安装成功后，通常在该文件中会出现以下配置&…...

编程新知 2026/1/28 15:17:32

LLM基础1_语言模型如何处理文本

基于GitHub项目：https://github.com/datawhalechina/llms-from-scratch-cn 工具介绍 tiktoken：OpenAI开发的专业"分词器" torch：Facebook开发的强力计算引擎，相当于超级计算器理解词嵌入：给词语画"…...

编程新知 2025/9/25 5:16:24

Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决

Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决问题背景在一个基于 Spring Cloud Gateway WebFlux 构建的微服务项目中，新增了一个本地验证码接口 /code，使用函数式路由（RouterFunction）和 Hutool 的 Circle…...

编程新知 2026/2/9 4:25:05

代码随想录刷题day30

1、零钱兑换II 给你一个整数数组 coins 表示不同面额的硬币，另给一个整数 amount 表示总金额。请你计算并返回可以凑成总金额的硬币组合数。如果任何硬币组合都无法凑出总金额，返回 0 。假设每一种面额的硬币有无限个。题目数据保证结果符合 32 位带…...

编程新知 2025/10/4 6:30:56

Ubuntu Cursor升级成v1.0

0. 当前版本低使用当前 Cursor v0.50时 GitHub Copilot Chat 打不开，快捷键也不好用，当看到 Cursor 升级后，还是蛮高兴的 1. 下载 Cursor 下载地址：https://www.cursor.com/cn/downloads 点击下载 Linux (x64) ，…...

编程新知 2026/2/4 16:04:11

第八部分：阶段项目 6：构建 React 前端应用

现在，是时候将你学到的 React 基础知识付诸实践，构建一个简单的前端应用来模拟与后端 API 的交互了。在这个阶段，你可以先使用模拟数据，或者如果你的后端 API（阶段项目 5）已经搭建好，可以直接连…...

编程新知 2025/9/21 1:58:01

ArcPy扩展模块的使用(3)

管理工程项目 arcpy.mp模块允许用户管理布局、地图、报表、文件夹连接、视图等工程项目。例如，可以更新、修复或替换图层数据源，修改图层的符号系统，甚至自动在线执行共享要托管在组织中的工程项。以下代码展示了如何更新图层的数据源&…...

编程新知 2025/10/2 7:24:40

【Triton-ONNX】如何使用 ONNX 模型服务与 Triton 通信执行推理任务上-Triton快速开始

模型部署系列文章

文章目录

Client-Server 整体流程

关键步骤

一、前置特性了解

二、创建模型存储库

三、启动 Triton（docker）

四、Client 发送推理请求

相关文章：

【Triton-ONNX】如何使用 ONNX 模型服务与 Triton 通信执行推理任务上-Triton快速开始

CertiK《Hack3d：2024年度安全报告》（附报告全文链接）

TIOBE 指数 12 月排行榜公布，VB.Net排行第九

【网络协议】开放式最短路径优先协议OSPF详解（一）

嵌入式Linux驱动开发的基本知识(驱动程序的本质、常见的设备类型、设备号的本质理解、设备实例的注册过程)

爱死机第四季（秘密关卡）4KHDR国语字幕

kubelet状态错误报错

＜div＞{{ $t(“collectionPlan“) }}＜/div＞中的$t是什么

[C++刷题] 求回文素数

SQLALchemy如何将SQL语句编译为特定数据库方言

[卫星遥感] 解密卫星目标跟踪：挑战与突破的深度剖析

I2C（一）：存储器模式：stm32作为主机对AT24C02写读数据

scrapy 教程

2025元旦源码免费送

高级架构五设计模式

RFID手持机与RFID工业平板在仓储物流管理系统中的选型

IoC设计模式详解：控制反转的核心思想

《云原生安全攻防》-- K8s安全配置：CIS安全基准与kube-bench工具

LINUX下载编译gtk

基于VSCode软件框架的RISC-V IDE MRS2正式上线发布

web vue 项目 Docker化部署

7.4.分块查找

CMake基础：构建流程详解

关于nvm与node.js

LLM基础1_语言模型如何处理文本

Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决

代码随想录刷题day30

Ubuntu Cursor升级成v1.0

第八部分：阶段项目 6：构建 React 前端应用

ArcPy扩展模块的使用(3)