当前位置：首页 > news >正文

Opencv_CUDA实现推理图像前处理与后处理

news 2025/7/12 15:32:12

Opencv_CUDA实现推理图像前处理与后处理

通过trt 或者 openvino部署深度学习算法时，往往会通过opencv的Mat及算法将图像转换为固定的格式作为输入
openvino图像的前后处理后边将在单独的文章中写出
今晚空闲搜了一些opencv_cuda的使用方法，在此总结一下
前提是已经通过CMake将cuda和opencv重新编译好了C++库

1.前处理

参考：【基于opencv-cuda的常见图像预处理】

 
// -------------- opencv ----------------------- # 
#include <opencv2/opencv.hpp>
#include <opencv2/core/core.hpp>
#include <opencv2/highgui/highgui.hpp>
// ---------------- opencv-cuda ---------------- #
#include <opencv2/cudawarping.hpp>
#include <opencv2/cudaarithm.hpp>
#include <opencv2/cudaimgproc.hpp>// ------------ cuda ------------------------- #
#include <cuda_runtime_api.h>
// ------------------- nvinfer1 ------------------ # 
#include "NvInfer.h"// ------------ standard libraries  --------------- # 
#include <iostream>
#include <assert.h>
#include <string>
#include <vector>// ---------------------------------------------- #void preprocessImage(const std::string& image_path, float* gpu_input,nvinfer1::Dims3& dims)
{// read imagecv::Mat frame = cv::imread(image_path);if(frame.empty()){std::cerr << "failed to load image: " << image_path << "!" << std::endl;return;}// uploadcv::cuda::GpuMat gpu_frame;gpu_frame.upload(frame);// resize// CHW orderauto input_width = dims.d[2];auto input_height = dims.d[1];auto channels = dims.d[0];auto input_size = cv::Size(input_width, input_height);cv::cuda::GpuMat resized;cv::cuda::resize(gpu_frame, resized, input_size, 0, 0, cv::INTER_LINEAR);//*  ------------------------ Pytorch ToTensor and Normalize ------------------- */cv::cuda::GpuMat flt_image;resized.convertTo(flt_image, CV_32FC3, 1.f/255.f);cv::cuda::subtract(flt_image, cv::Scalar(0.485f, 0.346f, 0.406f), flt_image,cv::noArray(), -1);cv::cuda::divide(flt_image, cv::Scalar(0.229f, 0.224f, 0.225f), flt_image, 1, -1);//* ----------------------------------------------------------------------------------- /// BGR To RGBcv::cuda::GpuMat rgb;cv::cuda::cvtColor(flt_image, rgb, cv::COLOR_BGR2RGB);// toTensor(copy data to input float pointer channel by channel)std::vector<cv::cuda::GpuMat> rgb_out;for(size_t i=0; i<channels; ++i){rgb_out.emplace_back(cv::cuda::GpuMat(cv::Size(input_width, input_height), CV_32FC1, gpu_input + i * input_width * input_height));}cv::cuda::split(flt_image, rgb_out); // opencv HWC order -> CHW order
}// calculate size of tensor
size_t getSizeByDim(const nvinfer1::Dims& dims)
{size_t size = 1;for (size_t i = 0; i < dims.nbDims; ++i){size *= dims.d[i];}return size;
}int main()
{std::string image_path = "./turkish_coffee.jpg";// CHW ordernvinfer1::Dims3 input_dim(3, 640, 640);auto input_size = getSizeByDim(input_dim) * sizeof(float);// allocate gpu memory for network inference// 此处的buffer可以认为是TensorRT engine推理时在GPU上分配的输入显存std::vector<void*> buffers(1);cudaMalloc(&buffers[0], input_size);// preprocesspreprocessImage(image_path, (float*)buffers[0], input_dim);// downloadcv::cuda::GpuMat gpu_output;std::vector<cv::cuda::GpuMat> resized;for (size_t i = 0; i < 3; ++i){resized.emplace_back(cv::cuda::GpuMat(cv::Size(input_dim.d[2], input_dim.d[1]), CV_32FC1, (float*)buffers[0] + i * input_dim.d[2] * input_dim.d[1]));}cv::cuda::merge(resized, gpu_output);cv::cuda::GpuMat image_out;// normalizegpu_output.convertTo(image_out, CV_32FC3, 1.f * 255.f);// downloadcv::Mat dst;image_out.download(dst);cv::imwrite("../01_test_demo.jpg", dst);for(void* buf:buffers){cudaFree(buf);}return 0;
}

原图与结果图：

2. 输出后处理

下边通过一个trt demo展示一下后处理操作
源码实现如下：

#include <iostream>
#include <fstream>
#include <NvInfer.h>
#include <memory>
#include <NvOnnxParser.h>
#include <vector>
#include <cuda_runtime_api.h>
#include <opencv2/imgcodecs.hpp>
#include <opencv2/core/cuda.hpp>
#include <opencv2/cudawarping.hpp>
#include <opencv2/core.hpp>
#include <opencv2/cudaarithm.hpp>
#include <algorithm>
#include <numeric>// destroy TensorRT objects if something goes wrong
struct TRTDestroy
{template <class T>void operator()(T* obj) const{if (obj){obj->destroy();}}
};template <class T>
using TRTUniquePtr = std::unique_ptr<T, TRTDestroy>;// calculate size of tensor
size_t getSizeByDim(const nvinfer1::Dims& dims)
{size_t size = 1;for (size_t i = 0; i < dims.nbDims; ++i){size *= dims.d[i];}return size;
}// get classes names
std::vector<std::string> getClassNames(const std::string& imagenet_classes)
{std::ifstream classes_file(imagenet_classes);std::vector<std::string> classes;if (!classes_file.good()){std::cerr << "ERROR: can't read file with classes names.\n";return classes;}std::string class_name;while (std::getline(classes_file, class_name)){classes.push_back(class_name);}return classes;
}// preprocessing stage ------------------------------------------------------------------------------------------------
void preprocessImage(const std::string& image_path, float* gpu_input, const nvinfer1::Dims& dims)
{// read input imagecv::Mat frame = cv::imread(image_path);if (frame.empty()){std::cerr << "Input image " << image_path << " load failed\n";return;}cv::cuda::GpuMat gpu_frame;// upload image to GPUgpu_frame.upload(frame);auto input_width = dims.d[2];auto input_height = dims.d[1];auto channels = dims.d[0];auto input_size = cv::Size(input_width, input_height);// resizecv::cuda::GpuMat resized;cv::cuda::resize(gpu_frame, resized, input_size, 0, 0, cv::INTER_NEAREST);// normalizecv::cuda::GpuMat flt_image;resized.convertTo(flt_image, CV_32FC3, 1.f / 255.f);cv::cuda::subtract(flt_image, cv::Scalar(0.485f, 0.456f, 0.406f), flt_image, cv::noArray(), -1);cv::cuda::divide(flt_image, cv::Scalar(0.229f, 0.224f, 0.225f), flt_image, 1, -1);// to tensorstd::vector<cv::cuda::GpuMat> chw;for (size_t i = 0; i < channels; ++i){chw.emplace_back(cv::cuda::GpuMat(input_size, CV_32FC1, gpu_input + i * input_width * input_height));}cv::cuda::split(flt_image, chw);
}// post-processing stage ----------------------------------------------------------------------------------------------
void postprocessResults(float *gpu_output, const nvinfer1::Dims &dims, int batch_size)
{// get class namesauto classes = getClassNames("imagenet_classes.txt");// copy results from GPU to CPUstd::vector<float> cpu_output(getSizeByDim(dims) * batch_size);cudaMemcpy(cpu_output.data(), gpu_output, cpu_output.size() * sizeof(float), cudaMemcpyDeviceToHost);// calculate softmaxstd::transform(cpu_output.begin(), cpu_output.end(), cpu_output.begin(), [](float val) {return std::exp(val);});auto sum = std::accumulate(cpu_output.begin(), cpu_output.end(), 0.0);// find top classes predicted by the modelstd::vector<int> indices(getSizeByDim(dims) * batch_size);std::iota(indices.begin(), indices.end(), 0); // generate sequence 0, 1, 2, 3, ..., 999std::sort(indices.begin(), indices.end(), [&cpu_output](int i1, int i2) {return cpu_output[i1] > cpu_output[i2];});// print resultsint i = 0;while (cpu_output[indices[i]] / sum > 0.005){if (classes.size() > indices[i]){std::cout << "class: " << classes[indices[i]] << " | ";}std::cout << "confidence: " << 100 * cpu_output[indices[i]] / sum << "% | index: " << indices[i] << "\n";++i;}
}// main pipeline ------------------------------------------------------------------------------------------------------
int main(int argc, char* argv[])
{if (argc < 3){std::cerr << "usage: " << argv[0] << " model.onnx image.jpg\n";return -1;}std::string model_path(argv[1]);std::string image_path(argv[2]);int batch_size = 1;// initialize TensorRT engine and parse ONNX modelTRTUniquePtr<nvinfer1::ICudaEngine> engine{nullptr};//初始化engine.........省略// get sizes of input and output and allocate memory required for input data and for output datastd::vector<nvinfer1::Dims> input_dims; // we expect only one inputstd::vector<nvinfer1::Dims> output_dims; // and one outputstd::vector<void*> buffers(engine->getNbBindings()); // buffers for input and output datafor (size_t i = 0; i < engine->getNbBindings(); ++i){auto binding_size = getSizeByDim(engine->getBindingDimensions(i)) * batch_size * sizeof(float);cudaMalloc(&buffers[i], binding_size);if (engine->bindingIsInput(i)){input_dims.emplace_back(engine->getBindingDimensions(i));}else{output_dims.emplace_back(engine->getBindingDimensions(i));}}if (input_dims.empty() || output_dims.empty()){std::cerr << "Expect at least one input and one output for network\n";return -1;}// preprocess input datapreprocessImage(image_path, (float *) buffers[0], input_dims[0]);// inferencecontext->enqueue(batch_size, buffers.data(), 0, nullptr);// postprocess resultspostprocessResults((float *) buffers[1], output_dims[0], batch_size);for (void* buf : buffers){cudaFree(buf);}return 0;
}

Opencv_CUDA实现推理图像前处理与后处理

Opencv_CUDA实现推理图像前处理与后处理通过trt 或者 openvino部署深度学习算法时，往往会通过opencv的Mat及算法将图像转换为固定的格式作为输入openvino图像的前后处理后边将在单独的文章中写出今晚空闲搜了一些opencv_cuda的使用方法，在此总结一下前…...

编程日记 2023/12/27 5:29:50

Android.bp 和 Android.mk 的对应关系

参考 Soong 构建系统 Android.mk 转为 Android.bp 没有分支、循环等流程控制的简单的 Android.mk ，可以通过 androidmk 命令转化为 Android.bp source 、lunch 之后执行即可。 androidmk Android.mk > Android.bp对应关系 Android 13 ，build/soon…...

编程日记 2023/12/27 5:26:48

力扣-收集足够苹果的最小花园周长[思维+组合数]

题目链接题意： 给你一个用无限二维网格表示的花园，每一个整数坐标处都有一棵苹果树。整数坐标 (i, j) 处的苹果树有 |i| |j| 个苹果。你将会买下正中心坐标是 (0, 0) 的一块正方形土地 ，且每条边都与两条坐标轴之一平行。给你一个整…...

编程日记 2023/12/27 5:24:47

【C语言】自定义类型：结构体深入解析（三）结构体实现位段最终篇

文章目录 📝前言🌠什么是位段？🌉 位段的内存分配🌉VS怎么开辟位段空间呢？🌉位段的跨平台问题🌠 位段的应⽤🌠位段使⽤的注意事项🚩总结 📝前言本…...

编程日记 2023/12/27 5:21:44

基于Hexo+GitHub Pages 的个人博客搭建

基于HexoGitHub Pages 的个人博客搭建步骤一：安装 Node.js 和 Git步骤二：创建Github Pages 仓库步骤二：安装 Hexo步骤三：创建 Hexo 项目步骤四：配置 Hexo步骤五：创建新文章步骤六：生成静态文件…...

编程日记 2023/12/27 5:20:43

7. 结构型模式 - 代理模式

亦称： Proxy 意图代理模式是一种结构型设计模式， 让你能够提供对象的替代品或其占位符。代理控制着对于原对象的访问， 并允许在将请求提交给对象前后进行一些处理。问题为什么要控制对于某个对象的访问呢？ 举个例子&#xff…...

编程日记 2023/12/27 5:19:42

100+ Python challenging programming exercises 6 Question 51 Define a class named American and its subclass NewYorker. Hints: Use class Subclass(ParentClass) to define a subclass. 定义一个名为American的类及其子类NewYorker。提示：使用class Subclass（Paren…...

编程日记 2023/12/27 5:18:41

gin实现登录逻辑，包含cookie，session

users/login.html {{define "users/login.html"}} <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>登录页面</title> </head> <body><form method"post" a…...

编程日记 2023/12/27 5:09:33

云原生Kubernetes：K8S集群版本升级(v1.22.14 - v1.23.14)

目录一、理论 1.K8S集群升级 2.环境 3.升级集群（v1.23.14） 4.验证集群（v1.23.14） 二、实验 1. 环境 2.升级集群（v1.23.14） 2.验证集群（v1.23.14） 一、理论 1.K8S集群升级 …...

编程日记 2023/12/27 5:08:33

C++面向对象（OOP）编程-位运算详解

本文主要介绍原码、位运算的种类，以及常用的位运算的使用场景。目录 1 原码、反码、补码 2 有符号和无符号数 3 位运算 4 位运算符使用规则 4.1 逻辑移位和算术移位 4.1.1 逻辑左移和算法左移 4.1.2 逻辑右移和算术右移 4.1.3 总结 4.2 位运算的应用场景 …...

编程日记 2023/12/27 5:07:32

linux运行服务提示报错/usr/bin/java: 没有那个文件或目录

如果是直接从官网下载的jdk解压安装，那么/usr/bin/没有java的软连接，即/usr/bin/java，所以即使在/etc/profile中配置了jdk的环境变量也没用，识别不到。方法一：用java的执行路径配置/usr/bin/java软连接（优…...

编程日记 2023/12/27 5:05:30

一篇文章教会你数据仓库之详解拉链表怎么做

前言本文将会谈一谈在数据仓库中拉链表相关的内容，包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成： 先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释，以及拉链表和…...

编程日记 2023/12/27 4:59:24

C/S医院检验LIS系统源码

一、检验科LIS系统概述： LIS系统即实验室信息管理系统。LIS系统能实现临床检验信息化，检验科信息管理自动化。其主要功能是将检验科的实验仪器传出的检验数据经数据分析后，自动生成打印报告，通过网络存储在数据库中&#xff…...

编程日记 2023/12/27 4:58:23

项目应用多级缓存示例

前不久做的一个项目，需要在前端实时展示硬件设备的数据。设备很多，并且每个设备的数据也很多，总之就是数据很多。同时，设备的刷新频率很快，需要每2秒读取一遍数据。问题来了，我们如何读取数据&#xff0c…...

编程日记 2023/12/27 4:57:22

音视频技术开发周刊 | 325

每周一期，纵览音视频技术领域的干货。新闻投稿：contributelivevideostack.com。 AI读心术震撼登顶会！模型翻译脑电波，人类思想被投屏｜NeurIPS 2023 在最近举办的NeurIPS大会上，研究人员展示了当代AI更震撼…...

编程日记 2023/12/27 4:51:16

量化服务器 - 后台挂载运行

服务器 - 后台运行 pip3命令被kill 在正常的pip命令后面加上 -no-cache-dir tmux 使用教程 https://codeleading.com/article/40954761108/ 如果你希望在 tmux 中后台执行一个 Python 脚本，你可以按照以下步骤操作： 启动 tmux: tmux这将会创建一个新…...

编程日记 2023/12/27 4:46:11

使用tesla gpu 加速大模型，ffmpeg,unity 和 UE等二三维应用

我们知道tesla gpu 没有显示器接口，那么在windows中怎么使用加速unity ue这种三维编辑器呢，答案就是改变注册表来加速相应的三维渲染程序. 1 tesla gpu p40 p100 加速在windows中使用regedit 来改变核显配置， 让p100 p40 等等显卡通过核显…...

编程日记 2023/12/27 4:45:10

巅峰画师Midjourney：新时代的独角兽

介绍 AI绘画领域中，Midjourney处于绝对地位，并且一年时间就登顶。 Midjourney是一家独立的AI研究实验室,探索新的思维媒介,拓展人类的想象力。它由一个小型的自筹资金团队组成,专注于设计、人类基础设施和AI。在AI绘画领域,Midjourney取得了非常突出…...

编程日记 2023/12/27 4:40:05

入行 4 年，跳槽 2 次，我摸透了软件测试这一行！

最近几年行业在如火如荼的发展壮大，以及其他传统公司都需要大批量的软件测试人员，但是最近几年的疫情导致大规模裁员，让人觉得行业寒冬已来，软件测试人员的职业规划值得我们深度思考。大家都比较看好软件测试行业，只是…...

编程日记 2023/12/27 4:39:04

Hive01_安装部署

Hive的安装上传安装包解压 tar zxvf apache-hive-3.1.2-bin.tar.gz mv apache-hive-3.1.2-bin hive解决Hive与Hadoop之间guava版本差异 cd /export/software/hive/ rm -rf lib/guava-19.0.jarcp cp /export/software/hadoop/hadoop-3.3.0/share/hadoop/common/lib/guava-27.0…...

编程日记 2023/12/27 4:33:00

wordpress后台更新后前端没变化的解决方法

使用siteground主机的wordpress网站，会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后，网站没有变化的情况。不熟悉siteground主机的新手，遇到这个问题，就很抓狂，明明是哪都没操作错误&#x…...

编程新知 2025/7/12 11:07:03

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …...

编程新知 2025/7/11 18:30:39

css实现圆环展示百分比，根据值动态展示所占比例

代码如下 <view class""><view class"circle-chart"><view v-if"!!num" class"pie-item" :style"{background: conic-gradient(var(--one-color) 0%,#E9E6F1 ${num}%),}"></view><view v-else …...

编程新知 2025/7/12 5:45:59

可靠性+灵活性：电力载波技术在楼宇自控中的核心价值

可靠性灵活性：电力载波技术在楼宇自控中的核心价值在智能楼宇的自动化控制中，电力载波技术（PLC）凭借其独特的优势，正成为构建高效、稳定、灵活系统的核心解决方案。它利用现有电力线路传输数据，无需额外布…...

编程新知 2025/7/5 23:31:25

UDP(Echoserver)

网络命令 Ping 命令检测网络是否连通使用方法: ping -c 次数网址ping -c 3 www.baidu.comnetstat 命令 netstat 是一个用来查看网络状态的重要工具. 语法：netstat [选项] 功能：查看网络状态常用选项： n 拒绝显示别名&#…...

编程新知 2025/7/11 0:56:43

ESP32 I2S音频总线学习笔记（四）： INMP441采集音频并实时播放

简介前面两期文章我们介绍了I2S的读取和写入，一个是通过INMP441麦克风模块采集音频，一个是通过PCM5102A模块播放音频，那如果我们将两者结合起来，将麦克风采集到的音频通过PCM5102A播放，是不是就可以做一个扩音器了呢…...

编程新知 2025/7/10 20:12:52

镜像里切换为普通用户

如果你登录远程虚拟机默认就是 root 用户，但你不希望用 root 权限运行 ns-3（这是对的，ns3 工具会拒绝 root），你可以按以下方法创建一个非 root 用户账号并切换到它运行 ns-3。一次性解决方案：创建非 roo…...

编程新知 2025/7/12 10:16:37

Nginx server_name 配置说明

Nginx 是一个高性能的反向代理和负载均衡服务器，其核心配置之一是 server 块中的 server_name 指令。server_name 决定了 Nginx 如何根据客户端请求的 Host 头匹配对应的虚拟主机（Virtual Host）。 1. 简介 Nginx 使用 server_name 指令来确定…...

编程新知 2025/6/17 10:29:06

土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测；从基础到高级，涵盖ArcGIS数据处理、ENVI遥感解译与CLUE模型情景模拟等

🔍 土地利用/土地覆盖数据是生态、环境和气象等诸多领域模型的关键输入参数。通过遥感影像解译技术，可以精准获取历史或当前任何一个区域的土地利用/土地覆盖情况。这些数据不仅能够用于评估区域生态环境的变化趋势，还能有效评价重大生态工程…...

编程新知 2025/7/6 4:52:27

【RockeMQ】第2节｜RocketMQ快速实战以及核⼼概念详解（二）

升级Dledger高可用集群一、主从架构的不足与Dledger的定位主从架构缺陷数据备份依赖Slave节点，但无自动故障转移能力，Master宕机后需人工切换，期间消息可能无法读取。Slave仅存储数据，无法主动升级为Master响应请求&#xff…...

编程新知 2025/6/18 22:53:06

Opencv_CUDA实现推理图像前处理与后处理

Opencv_CUDA实现推理图像前处理与后处理

1.前处理

2. 输出后处理

相关文章：

Opencv_CUDA实现推理图像前处理与后处理

Android.bp 和 Android.mk 的对应关系

力扣-收集足够苹果的最小花园周长[思维+组合数]

【C语言】自定义类型：结构体深入解析（三）结构体实现位段最终篇

基于Hexo+GitHub Pages 的个人博客搭建

7. 结构型模式 - 代理模式

挑战Python100题(6)

gin实现登录逻辑，包含cookie，session

云原生Kubernetes：K8S集群版本升级(v1.22.14 - v1.23.14)

C++面向对象（OOP）编程-位运算详解

linux运行服务提示报错/usr/bin/java: 没有那个文件或目录

一篇文章教会你数据仓库之详解拉链表怎么做

C/S医院检验LIS系统源码

项目应用多级缓存示例

音视频技术开发周刊 | 325

量化服务器 - 后台挂载运行

使用tesla gpu 加速大模型，ffmpeg,unity 和 UE等二三维应用

巅峰画师Midjourney：新时代的独角兽

入行 4 年，跳槽 2 次，我摸透了软件测试这一行！

Hive01_安装部署

wordpress后台更新后前端没变化的解决方法

Linux应用开发之网络套接字编程(实例篇)

css实现圆环展示百分比，根据值动态展示所占比例

可靠性+灵活性：电力载波技术在楼宇自控中的核心价值

UDP(Echoserver)

ESP32 I2S音频总线学习笔记（四）： INMP441采集音频并实时播放

镜像里切换为普通用户

Nginx server_name 配置说明

土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测；从基础到高级，涵盖ArcGIS数据处理、ENVI遥感解译与CLUE模型情景模拟等

【RockeMQ】第2节｜RocketMQ快速实战以及核⼼概念详解（二）