CUDNN详解
文章目录
- CUDNN详解
- 一、引言
- 二、cuDNN的基本使用
- 1、初始化cuDNN句柄
- 2、创建和设置描述符
- 三、执行卷积操作
- 1、设置卷积参数
- 2、选择卷积算法
- 3、执行卷积
- 四、使用示例
- 五、总结
CUDNN详解

一、引言
cuDNN(CUDA Deep Neural Network library)是NVIDIA为深度神经网络开发的GPU加速库。它提供了高效实现深度学习算法所需的基本构建块,如卷积、池化、激活函数等。cuDNN通过优化这些操作,显著提高了深度学习模型的训练和推理速度,是深度学习框架(如TensorFlow、PyTorch)在GPU上高效运行的关键组件。
二、cuDNN的基本使用
1、初始化cuDNN句柄
在使用cuDNN之前,需要创建一个cuDNN句柄,该句柄用于管理cuDNN的上下文。例如:
cudnnHandle_t cudnn;
checkCUDNN(cudnnCreate(&cudnn));
这里使用了checkCUDNN宏来检查cuDNN函数调用的返回值,确保操作成功。
2、创建和设置描述符
cuDNN使用描述符(Descriptor)来描述张量(Tensor)、卷积核(Filter)和卷积操作(Convolution)等。例如,创建一个输入张量描述符并设置其属性:
cudnnTensorDescriptor_t input_descriptor;
checkCUDNN(cudnnCreateTensorDescriptor(&input_descriptor));
checkCUDNN(cudnnSetTensor4dDescriptor(input_descriptor,CUDNN_TENSOR_NCHW,CUDNN_DATA_FLOAT,batch_size, channels, height, width));
这里设置了输入张量的格式(NCHW)、数据类型(float)和维度(批量大小、通道数、高度、宽度)。
三、执行卷积操作
1、设置卷积参数
在执行卷积操作之前,需要设置卷积核描述符和卷积描述符。例如:
cudnnFilterDescriptor_t kernel_descriptor;
checkCUDNN(cudnnCreateFilterDescriptor(&kernel_descriptor));
checkCUDNN(cudnnSetFilter4dDescriptor(kernel_descriptor,CUDNN_DATA_FLOAT,CUDNN_TENSOR_NCHW,output_channels, input_channels, kernel_height, kernel_width));cudnnConvolutionDescriptor_t convolution_descriptor;
checkCUDNN(cudnnCreateConvolutionDescriptor(&convolution_descriptor));
checkCUDNN(cudnnSetConvolution2dDescriptor(convolution_descriptor,padding_height, padding_width,vertical_stride, horizontal_stride,dilation_height, dilation_width,CUDNN_CROSS_CORRELATION,CUDNN_DATA_FLOAT));
这里设置了卷积核的大小、输入和输出通道数、步长、填充等参数。
2、选择卷积算法
cuDNN提供了多种卷积算法,可以选择最适合当前硬件和数据的算法。例如:
int algo_count;
checkCUDNN(cudnnGetConvolutionForwardAlgorithmMaxCount(cudnn, &algo_count));
cudnnConvolutionFwdAlgo_t algo;
checkCUDNN(cudnnGetConvolutionForwardAlgorithm(cudnn,input_descriptor,kernel_descriptor,convolution_descriptor,output_descriptor,CUDNN_CONVOLUTION_FWD_PREFER_FASTEST,0,&algo));
这里选择了最快的卷积算法。
3、执行卷积
最后,使用选择的算法执行卷积操作:
float alpha = 1.0f, beta = 0.0f;
checkCUDNN(cudnnConvolutionForward(cudnn,&alpha,input_descriptor, input_data,kernel_descriptor, kernel_data,convolution_descriptor,algo,workspace, workspace_size,&beta,output_descriptor, output_data));
这里alpha和beta是缩放因子,input_data、kernel_data和output_data分别是输入、卷积核和输出数据的指针。
四、使用示例
以下是一个完整的cuDNN卷积操作示例,包括初始化、设置描述符、执行卷积和清理资源:
#include <iostream>
#include <cuda_runtime.h>
#include <cudnn.h>#define CHECK_CUDNN(call) \
{ \cudnnStatus_t status = call; \if (status != CUDNN_STATUS_SUCCESS) { \std::cerr << "cuDNN error: " << cudnnGetErrorString(status) << std::endl; \exit(1); \} \
}int main() {int batch_size = 1, channels = 1, height = 28, width = 28;int output_channels = 16, kernel_height = 3, kernel_width = 3;// 创建cuDNN句柄cudnnHandle_t cudnn;CHECK_CUDNN(cudnnCreate(&cudnn));// 创建输入张量描述符cudnnTensorDescriptor_t input_descriptor;CHECK_CUDNN(cudnnCreateTensorDescriptor(&input_descriptor));CHECK_CUDNN(cudnnSetTensor4dDescriptor(input_descriptor,CUDNN_TENSOR_NCHW,CUDNN_DATA_FLOAT,batch_size, channels, height, width));// 创建输出张量描述符cudnnTensorDescriptor_t output_descriptor;CHECK_CUDNN(cudnnCreateTensorDescriptor(&output_descriptor));CHECK_CUDNN(cudnnSetTensor4dDescriptor(output_descriptor,CUDNN_TENSOR_NCHW,CUDNN_DATA_FLOAT,batch_size, output_channels, height, width));// 创建卷积核描述符cudnnFilterDescriptor_t kernel_descriptor;CHECK_CUDNN(cudnnCreateFilterDescriptor(&kernel_descriptor));CHECK_CUDNN(cudnnSetFilter4dDescriptor(kernel_descriptor,CUDNN_DATA_FLOAT,CUDNN_TENSOR_NCHW,output_channels, channels, kernel_height, kernel_width));// 创建卷积描述符cudnnConvolutionDescriptor_t convolution_descriptor;CHECK_CUDNN(cudnnCreateConvolutionDescriptor(&convolution_descriptor));CHECK_CUDNN(cudnnSetConvolution2dDescriptor(convolution_descriptor,1, 1, 1, 1, 1, 1,CUDNN_CROSS_CORRELATION,CUDNN_DATA_FLOAT));// 选择卷积算法cudnnConvolutionFwdAlgo_t algo;CHECK_CUDNN(cudnnGetConvolutionForwardAlgorithm(cudnn,input_descriptor,kernel_descriptor,convolution_descriptor,output_descriptor,CUDNN_CONVOLUTION_FWD_PREFER_FASTEST,0,&algo));// 分配内存float *input_data, *kernel_data, *output_data, *workspace;size_t workspace_size;cudaMalloc(&input_data, batch_size * channels * height * width * sizeof(float));cudaMalloc(&kernel_data, output_channels * channels * kernel_height * kernel_width * sizeof(float));cudaMalloc(&output_data, batch_size * output_channels * height * width * sizeof(float));CHECK_CUDNN(cudnnGetConvolutionForwardWorkspaceSize(cudnn,input_descriptor,kernel_descriptor,convolution_descriptor,output_descriptor,algo,&workspace_size));cudaMalloc(&workspace, workspace_size);// 执行卷积float alpha = 1.0f, beta = 0.0f;CHECK_CUDNN(cudnnConvolutionForward(cudnn,&alpha,input_descriptor, input_data,kernel_descriptor, kernel_data,convolution_descriptor,algo,workspace, workspace_size,&beta,output_descriptor, output_data));// 清理资源cudaFree(input_data);cudaFree(kernel_data);cudaFree(output_data);cudaFree(workspace);cudnnDestroyTensorDescriptor(input_descriptor);cudnnDestroyTensorDescriptor(output_descriptor);cudnnDestroyFilterDescriptor(kernel_descriptor);cudnnDestroyConvolutionDescriptor(convolution_descriptor);cudnnDestroy(cudnn);return 0;
}
这个示例展示了如何使用cuDNN进行二维卷积操作,包括初始化、设置描述符、选择算法、执行卷积和清理资源。
五、总结
cuDNN是深度学习中不可或缺的加速库,通过优化卷积、池化、激活等操作,显著提高了模型的训练和推理速度。掌握cuDNN的基本使用方法,可以帮助开发者更高效地实现深度学习模型。在实际应用中,cuDNN与CUDA、深度学习框架(如TensorFlow、PyTorch)紧密配合,提供了强大的计算支持。
版权声明:本博客内容为原创,转载请保留原文链接及作者信息。
参考文章:
- [cuDNN API的使用与测试-以二维卷积+Relu激活函数为例](https://www.hbblog.cn/cuda%E7%9B%B8%E5%85%B3/2022%E5%B9%B407%E6%9C%8823%E6%97%A5%2023%E
相关文章:
CUDNN详解
文章目录 CUDNN详解一、引言二、cuDNN的基本使用1、初始化cuDNN句柄2、创建和设置描述符 三、执行卷积操作1、设置卷积参数2、选择卷积算法3、执行卷积 四、使用示例五、总结 CUDNN详解 一、引言 cuDNN(CUDA Deep Neural Network library)是NVIDIA为深度…...
下载并安装MySQL
在Linux系统上下载并安装数据库(以MySQL为例)的步骤如下: 一、下载MySQL 访问MySQL官网 打开浏览器,访问MySQL的官方网站:https://www.mysql.com/。 进入下载页面 在MySQL官网首页,找到并点击“Downloads…...
Linux ffmpeg 基础用法
简介 FFmpeg 是一个强大的开源多媒体框架,用于处理视频、音频和其他多媒体文件和流。它允许转换、录制、编辑、流媒体等等。 安装 Debian/Ubuntu sudo apt update sudo apt install ffmpegRed Hat/CentOS sudo dnf install ffmpegmacOS (via Homebrew) brew i…...
【C++入门】详解(中)
目录 💕1.函数的重载 💕2.引用的定义 💕3.引用的一些常见问题 💕4.引用——权限的放大/缩小/平移 💕5. 不存在的空引用 💕6.引用作为函数参数的速度之快(代码体现) Ǵ…...
深度学习的加速器:Horovod,让分布式训练更简单高效!
什么是 Horovod? Horovod 是 Uber 开发的一个专注于深度学习分布式训练的开源框架,旨在简化和加速多 GPU、多节点环境下的训练过程。它以轻量级、易用、高性能著称,特别适合需要快速部署分布式训练的场景。Horovod 的名字来源于俄罗斯传统舞…...
计算机的错误计算(二百零八)
摘要 用两个大模型计算 arccot(0.9911588354432518e10) . 保留16位有效数字。两个的输出均是错误的。代码的输出格式亦均出错。 本节题目为一读者来信提议(不知该题目有何玄机?)。 例1. 计算 arccot(0.9911588354432518e10) . 保留16位有…...
海康机器人IPO,又近了一步
导语 大家好,我是社长,老K。专注分享智能制造和智能仓储物流等内容。欢迎大家到本文底部评论区留言。 海康机器人的IPO之路,一路跌宕起伏,让无数投资者和业内人士关注。这不仅仅是一家企业的上市之旅,更是中国智能制造…...
【环境搭建】Metersphere v2.x 容器部署教程踩坑总结
前言 Metersphere部署过程中遇到的问题有点多,原因是其容器的架构蛮复杂的,比较容易踩坑,所以记录一下。 介绍 MeterSphere 是开源持续测试平台,遵循 GPL v3 开源许可协议,涵盖测试管理、接口测试、UI 测试和性能测…...
系统看门狗配置--以ubuntu为例
linux系统配置看门狗 以 ubuntu 系统配置看门狗为例 配置看门狗使用的脚本文件,需要使用管理员权限来执行: 配置是:系统每 30S 喂一次狗,超过 60S 不进行投喂,就会自动重启。 1. 系统脚本内容: #!/bin/b…...
阅读笔记——《A survey of protocol fuzzing》
【参考文献】Zhang X, Zhang C, Li X, et al. A survey of protocol fuzzing[J]. ACM Computing Surveys, 2024, 57(2): 1-36.【注】本文仅为作者个人学习笔记,如有冒犯,请联系作者删除。 目录 1、Introduction 2、Background 2.1、Communication Pro…...
C# 语法中级
总目录 C# 语法总目录 C# 语法中级 lambda 表达式1. 捕获外部变量2. 捕获迭代变量 匿名类型匿名方法异常相关1. 枚举器2. 可枚举对象3. 迭代器3. 迭代器语义4. yield break 语句5. 组合序列 可空类型1. Nullable< T > 结构体 lambda 表达式 编译器在内部将lambda表达式编…...
STORM:从多时间点2D图像中快速重建动态3D场景的技术突破
随着计算机视觉和机器学习技术的迅猛发展,我们已经能够利用AI来解决许多复杂的问题。然而,在处理大规模室外动态3D场景重建时,现有的方法往往面临着诸多挑战,如需要大量人工标注数据、处理速度慢以及难以准确捕捉移动物体等。为了解决这些问题,研究者们开发了STORM(Spati…...
excel前缀和(递增求和)
方法一:https://www.zhihu.com/zvideo/1382164996659515392?utm_id0 假设输入数据在B2:B10,选中单元格C2,输入SUM(B2:B2,然后选中其中的B2,按F4(或者直接输入SUM(B$2:B2),回车确认&…...
【AI日记】25.01.11 Weights Biases | AI 笔记 notion
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】【读书与思考】 AI kaggle 比赛:Forecasting Sticker Sales笔记:我的 AI 笔记主要记在两个地方 有道云笔记:数学公式和符号比较多的笔记notion:没什么数学公式的…...
P8772 [蓝桥杯 2022 省 A] 求和
题目描述 给定 𝑛 个整数 𝑎1,𝑎2,⋯ ,𝑎𝑛 求它们两两相乘再相加的和,即 𝑆𝑎1⋅𝑎2𝑎1⋅𝑎3⋯𝑎1⋅𝑎𝑛&…...
【Oracle篇】深入了解执行计划中的访问路径(含表级别、B树索引、位图索引、簇表四大类访问路径)
💫《博主介绍》:✨又是一天没白过,我是奈斯,从事IT领域✨ 💫《擅长领域》:✌️擅长阿里云AnalyticDB for MySQL(分布式数据仓库)、Oracle、MySQL、Linux、prometheus监控;并对SQLserver、NoSQL(…...
WSDL的基本概念
《WSDL 语法》这篇文章将详细介绍WSDL(Web Services Description Language)的语法。WSDL是一种基于XML的语言,用于描述Web服务及其访问方式。它允许开发者将Web服务定义为服务访问点或端口的集合,这些服务访问点可以通过特定的协议…...
RabbitMQ解决消息积压的方法
目录 减少发送mq的消息体内容 增加消费者数量 批量消费消息 临时队列转移 监控和预警机制 分阶段实施 最后还有一个方法就是开启队列的懒加载 这篇文章总结一下自己知道的解决消息积压得方法。 减少发送mq的消息体内容 像我们没有必要知道一个的中间状态,只需…...
Android 网络层相关介绍
关注 Android 默认支持的网络管理行为,默认支持的网络服务功能。 功能术语 术语缩写全称释义DHCPv6Dynamic Host Configuration Protocol for IPv6动态主机配置协议的第六版,用于在IPv6网络中动态分配IP地址和其他网络配置参数。DNS Domain Name System域名系统。LLALink-Loc…...
2025年第三届“华数杯”国际赛B题解题思路与代码(Matlab版)
问题1:产业关联性分析 在 question1.m 文件中,我们分析了中国主要产业之间的相互关系。以下是代码的详细解读: % 问题1:分析中国主要产业之间的相互关系function question1()% 清空工作区和命令窗口clear;clc;% 设置中文显示set…...
生成xcframework
打包 XCFramework 的方法 XCFramework 是苹果推出的一种多平台二进制分发格式,可以包含多个架构和平台的代码。打包 XCFramework 通常用于分发库或框架。 使用 Xcode 命令行工具打包 通过 xcodebuild 命令可以打包 XCFramework。确保项目已经配置好需要支持的平台…...
使用VSCode开发Django指南
使用VSCode开发Django指南 一、概述 Django 是一个高级 Python 框架,专为快速、安全和可扩展的 Web 开发而设计。Django 包含对 URL 路由、页面模板和数据处理的丰富支持。 本文将创建一个简单的 Django 应用,其中包含三个使用通用基本模板的页面。在此…...
【JavaEE】-- HTTP
1. HTTP是什么? HTTP(全称为"超文本传输协议")是一种应用非常广泛的应用层协议,HTTP是基于TCP协议的一种应用层协议。 应用层协议:是计算机网络协议栈中最高层的协议,它定义了运行在不同主机上…...
Java 8 Stream API 入门到实践详解
一、告别 for 循环! 传统痛点: Java 8 之前,集合操作离不开冗长的 for 循环和匿名类。例如,过滤列表中的偶数: List<Integer> list Arrays.asList(1, 2, 3, 4, 5); List<Integer> evens new ArrayList…...
理解 MCP 工作流:使用 Ollama 和 LangChain 构建本地 MCP 客户端
🌟 什么是 MCP? 模型控制协议 (MCP) 是一种创新的协议,旨在无缝连接 AI 模型与应用程序。 MCP 是一个开源协议,它标准化了我们的 LLM 应用程序连接所需工具和数据源并与之协作的方式。 可以把它想象成你的 AI 模型 和想要使用它…...
高等数学(下)题型笔记(八)空间解析几何与向量代数
目录 0 前言 1 向量的点乘 1.1 基本公式 1.2 例题 2 向量的叉乘 2.1 基础知识 2.2 例题 3 空间平面方程 3.1 基础知识 3.2 例题 4 空间直线方程 4.1 基础知识 4.2 例题 5 旋转曲面及其方程 5.1 基础知识 5.2 例题 6 空间曲面的法线与切平面 6.1 基础知识 6.2…...
智能仓储的未来:自动化、AI与数据分析如何重塑物流中心
当仓库学会“思考”,物流的终极形态正在诞生 想象这样的场景: 凌晨3点,某物流中心灯火通明却空无一人。AGV机器人集群根据实时订单动态规划路径;AI视觉系统在0.1秒内扫描包裹信息;数字孪生平台正模拟次日峰值流量压力…...
在QWebEngineView上实现鼠标、触摸等事件捕获的解决方案
这个问题我看其他博主也写了,要么要会员、要么写的乱七八糟。这里我整理一下,把问题说清楚并且给出代码,拿去用就行,照着葫芦画瓢。 问题 在继承QWebEngineView后,重写mousePressEvent或event函数无法捕获鼠标按下事…...
安全突围:重塑内生安全体系:齐向东在2025年BCS大会的演讲
文章目录 前言第一部分:体系力量是突围之钥第一重困境是体系思想落地不畅。第二重困境是大小体系融合瓶颈。第三重困境是“小体系”运营梗阻。 第二部分:体系矛盾是突围之障一是数据孤岛的障碍。二是投入不足的障碍。三是新旧兼容难的障碍。 第三部分&am…...
基于Java+VUE+MariaDB实现(Web)仿小米商城
仿小米商城 环境安装 nodejs maven JDK11 运行 mvn clean install -DskipTestscd adminmvn spring-boot:runcd ../webmvn spring-boot:runcd ../xiaomi-store-admin-vuenpm installnpm run servecd ../xiaomi-store-vuenpm installnpm run serve 注意:运行前…...
