当前位置：首页 > article >正文

用TensorRT加速你的YOLOv5：Windows C++推理部署实战（附完整项目配置）

article 2026/5/21 2:20:31

用TensorRT加速YOLOv5Windows C推理部署全流程解析在计算机视觉领域YOLOv5因其出色的实时检测性能广受欢迎。但当我们需要将训练好的模型部署到实际生产环境时Python的解释执行往往难以满足性能要求。这时TensorRT作为NVIDIA推出的高性能推理引擎能够显著提升模型执行效率。本文将带你从零开始将一个PyTorch训练的YOLOv5模型转换为TensorRT引擎并集成到C应用程序中。1. 环境准备与模型转换在开始之前我们需要确保开发环境配置正确。以下是必需的组件Windows 10/11 64位系统NVIDIA显卡支持CUDAVisual Studio 2019或更高版本CUDA 11.x和对应版本的cuDNNTensorRT 8.x提示务必保持CUDA、cuDNN和TensorRT版本匹配这是后续步骤成功的关键。首先我们需要将训练好的YOLOv5 PyTorch模型(.pt)转换为ONNX格式import torch from models.experimental import attempt_load # 加载训练好的模型 model attempt_load(yolov5s.pt, map_locationcpu) # 设置输入张量尺寸 input_tensor torch.randn(1, 3, 640, 640) # 导出为ONNX torch.onnx.export( model, input_tensor, yolov5s.onnx, opset_version12, input_names[images], output_names[output], dynamic_axes{ images: {0: batch}, output: {0: batch} } )转换过程中常见的问题及解决方案问题现象可能原因解决方法导出失败使用了不支持的算子降低opset版本或修改模型结构推理结果异常动态尺寸设置不当检查dynamic_axes参数性能下降导出时优化不足添加--simplify参数2. TensorRT引擎构建获得ONNX模型后我们需要使用TensorRT的builder工具将其转换为优化的推理引擎。这里介绍两种方法使用trtexec命令行工具和编程方式构建。2.1 使用trtexec快速转换trtexec是TensorRT自带的实用工具适合快速原型开发trtexec --onnxyolov5s.onnx --saveEngineyolov5s.engine --fp16 --workspace2048关键参数说明--fp16: 启用FP16精度可显著提升性能--workspace: 设置最大工作空间大小(MB)--minShapes/--optShapes/--maxShapes: 定义动态尺寸范围2.2 编程方式构建引擎对于需要更多控制的情况可以使用TensorRT C API#include NvInfer.h #include NvOnnxParser.h nvinfer1::IBuilder* builder nvinfer1::createInferBuilder(logger); const auto explicitBatch 1U static_castuint32_t(nvinfer1::NetworkDefinitionCreationFlag::kEXPLICIT_BATCH); nvinfer1::INetworkDefinition* network builder-createNetworkV2(explicitBatch); nvonnxparser::IParser* parser nvonnxparser::createParser(*network, logger); parser-parseFromFile(yolov5s.onnx, nvinfer1::ILogger::Severity::kWARNING); nvinfer1::IBuilderConfig* config builder-createBuilderConfig(); config-setMaxWorkspaceSize(1 30); if (builder-platformHasFastFp16()) { config-setFlag(nvinfer1::BuilderFlag::kFP16); } nvinfer1::ICudaEngine* engine builder-buildEngineWithConfig(*network, *config);构建引擎时的优化技巧层融合TensorRT会自动融合ConvBNReLU等常见组合精度校准对于INT8量化需要提供校准数据集动态形状合理设置优化配置文件和内存限制3. C推理代码实现有了TensorRT引擎后我们需要编写C代码来加载并执行推理。以下是核心代码结构3.1 引擎加载与上下文创建std::ifstream engineFile(yolov5s.engine, std::ios::binary); engineFile.seekg(0, std::ios::end); size_t engineSize engineFile.tellg(); engineFile.seekg(0, std::ios::beg); std::vectorchar engineData(engineSize); engineFile.read(engineData.data(), engineSize); nvinfer1::IRuntime* runtime nvinfer1::createInferRuntime(logger); nvinfer1::ICudaEngine* engine runtime-deserializeCudaEngine(engineData.data(), engineSize); nvinfer1::IExecutionContext* context engine-createExecutionContext();3.2 内存分配与数据传输// 获取输入输出绑定信息 int nbBindings engine-getNbBindings(); std::vectorvoid* buffers(nbBindings); for (int i 0; i nbBindings; i) { nvinfer1::Dims dims engine-getBindingDimensions(i); size_t size std::accumulate(dims.d, dims.d dims.nbDims, 1, std::multipliessize_t()); cudaMalloc(buffers[i], size * sizeof(float)); } // 将输入数据从主机拷贝到设备 cudaMemcpy(buffers[inputIndex], inputData.data(), inputSize * sizeof(float), cudaMemcpyHostToDevice);3.3 执行推理与结果处理context-executeV2(buffers.data()); // 将输出数据从设备拷贝回主机 std::vectorfloat outputData(outputSize); cudaMemcpy(outputData.data(), buffers[outputIndex], outputSize * sizeof(float), cudaMemcpyDeviceToHost); // 解析YOLOv5输出 std::vectorDetection detections; parseYOLOv5Output(outputData, detections);4. 前后处理优化在实际应用中前后处理往往成为性能瓶颈。以下是几种优化策略4.1 图像预处理加速传统CPU预处理cv::Mat image cv::imread(input.jpg); cv::resize(image, image, cv::Size(640, 640)); image.convertTo(image, CV_32F, 1.0/255.0);优化后的GPU预处理void preprocessGPU(const cv::Mat h_image, float* d_input, cudaStream_t stream) { // 分配设备内存 uchar* d_uchar; cudaMalloc(d_uchar, h_image.rows * h_image.cols * 3); // 拷贝并转换 cudaMemcpyAsync(d_uchar, h_image.data, h_image.rows * h_image.cols * 3, cudaMemcpyHostToDevice, stream); // 调用CUDA核函数进行归一化和通道重排 preprocessKernelgrid, block, 0, stream(d_uchar, d_input, h_image.cols, h_image.rows); }4.2 后处理优化YOLOv5的后处理主要包括解码边界框坐标应用置信度阈值执行非极大值抑制(NMS)优化后的NMS实现__global__ void nmsKernel(Detection* detections, int num_detections, float iou_threshold, int* keep_indices) { // 共享内存存储检测框信息 extern __shared__ float shared_boxes[]; // 每个线程处理一个检测框 int i blockIdx.x * blockDim.x threadIdx.x; if (i num_detections) return; // 加载检测框到共享内存 if (threadIdx.x 0) { for (int j 0; j num_detections; j) { shared_boxes[j*5 0] detections[j].x1; // 加载其他坐标... } } __syncthreads(); // 计算IoU并执行抑制 // ... }5. 性能对比与调优完成部署后我们需要评估TensorRT带来的性能提升。以下是典型测试结果测试项PyTorch CPUPyTorch GPUTensorRT FP32TensorRT FP16延迟(ms)120452515吞吐量(FPS)8.322.240.066.7显存占用(MB)-15001200800性能调优的关键点批处理大小适当增大批处理可提高吞吐量但会增加延迟精度选择FP16通常能在精度损失很小的情况下显著提升性能CUDA流使用多个CUDA流实现流水线并行内存复用避免频繁分配释放内存// 使用CUDA流实现异步执行 cudaStream_t stream; cudaStreamCreate(stream); while (true) { // 异步预处理 preprocessGPU(image, d_input, stream); // 异步推理 context-enqueueV2(buffers.data(), stream, nullptr); // 异步后处理 postprocessGPU(d_output, detections, stream); cudaStreamSynchronize(stream); }在实际项目中我们还需要考虑工程化方面的优化异常处理健壮的错误检查和恢复机制日志系统详细的性能监控和调试信息资源管理使用RAII模式管理CUDA资源多线程支持线程安全的TensorRT上下文管理通过以上步骤我们成功将YOLOv5模型部署到了Windows C环境中并利用TensorRT实现了显著的性能提升。这种部署方式特别适合需要低延迟、高吞吐量的生产环境如视频分析、工业检测等应用场景。

用TensorRT加速你的YOLOv5：Windows C++推理部署实战（附完整项目配置）

相关文章：

用TensorRT加速你的YOLOv5：Windows C++推理部署实战（附完整项目配置）

香橙派Lite全解析：从硬件到应用，玩转ARM开发板与物联网项目

BGA底部填充胶：嵌入式主控板可靠性设计与工艺全解析

TI AM64x 5路原生千兆网口：工业物联网确定性网络与多核异构计算实战

18V/4A同步降压转换器：MPQ8632GLE-4的COT控制与快速瞬态响应解析

服务器电源、电机驱动、UPS：IRLR3636TRPBF的60V功率MOSFET应用版图

【Perplexity阅读推荐查询实战指南】：20年AI工具专家亲授5大精准筛选技巧，错过再等一年

PB 级自动驾驶数据秒级检索：Apache Doris 统一多模态数据平台实践

无需电荷泵的高边开关：IRLML6401TRPBF在便携设备电源管理中的简化设计

Vibe Coding 灾难的爆发

5个真正赚钱的 AI 工作流 (2026)

如何判断杉木桩品牌的选型标准？

半波整流电路：从原理到实践，掌握AC-DC转换基础

嵌入式PID温度控制：从算法原理到C语言工程实现

复旦微FM33FR0xx开发板实战：从零构建低功耗电容触摸应用

大模型在软件测试中的应用：从测试用例生成到bug检测

3个实战场景掌握Kafka-UI：高效管理Apache Kafka集群的实用指南

谷歌开发者大会2026：Gemini全面升级，重塑搜索与生活体验！

AI从业者的理财攻略：如何用AI技术实现被动收入

S32K3 FlexCAN驱动避坑指南：从波特率计算到邮箱锁定的实战心得

uni-app项目上架前必做：手把手教你用Android Studio生成正式签名APK（从证书到发布）

非 CTP 柜台连接天勤：众期融航易达等网关差异备忘

SystemVerilog测试套件从IP到SoC的重用：架构设计与工程实践

别再让用户错过消息！UniApp应用通知权限引导的最佳实践与UniPush 2.0优化

HsMod终极指南：55项功能打造你的个性化炉石传说体验

MATLAB图像处理实战：用strel函数玩转膨胀腐蚀，5分钟搞定车牌去噪

别再死磕标注数据了！用扩散模型从海量无标签遥感图像中‘白嫖’语义信息，提升变化检测精度

阿里云服务器上fastText安装踩坑记：从C++11报错到模型量化压缩的完整避坑指南

别再死记硬背！用Python可视化理解第一类曲面积分中的dσ与dxdy关系

小白程序员必备：从零基础到大模型实战，这份学习路线图请收藏！