当前位置：首页 > news >正文

CUDA常用函数

news 2026/2/9 1:47:37

cudaDeviceSynchronize

cudaDeviceSynchronize是一个CUDA函数，用于同步当前设备上的所有CUDA流。它会阻塞调用它的线程，直到所有设备上的CUDA流都执行完为止。这可以确保在进行后续的CUDA操作时，先前的操作已经完成。

在CUDA程序中，通常需要使用cudaDeviceSynchronize来确保在主机代码继续执行之前，所有的CUDA代码都已经执行完毕。这可以避免由于异步执行而导致的数据竞争和其他问题。但是，过多地使用cudaDeviceSynchronize可能会导致程序的性能下降，因此需要谨慎使用。

#include <stdio.h>__global__ void hello_from_gpu()
{printf("Hello World from the GPU!\n");
}int main(void)
{hello_from_gpu<<<2, 4>>>();cudaDeviceSynchronize();return 0;
}

去掉这个函数就打印不出字符串了。这是因为调用输出函数时，输出流是先存放在缓冲区
的，而缓冲区不会自动刷新。只有程序遇到某种同步操作时缓冲区才会刷新。函数cudaDeviceSynchronize 的作用是同步主机与设备，所以能够促使缓冲区刷新。

cudaDeviceReset

用于重置当前设备上的所有CUDA资源，包括显存、设备状态和所有CUDA上下文。它会释放设备上的所有已分配资源，以及清除所有已注册的回调函数。

在CUDA程序中，通常需要在程序结束时调用cudaDeviceReset来确保所有CUDA资源都被正确释放。如果没有调用cudaDeviceReset，那么在程序结束时可能会出现内存泄漏或其他资源泄漏问题。此外，在程序运行期间，也可以调用cudaDeviceReset来释放和重置设备资源，以便在程序执行期间重复使用设备。

#include <stdio.h>__global__ void hello_from_gpu()
{printf("Hello World from the GPU!\n");
}int main(void)
{hello_from_gpu<<<2, 4>>>();cudaDeviceReset();return 0;
}

此处调用cudaDeviceReset也会达到cudaDeviceSynchronize的效果使语句输出，因为是使核函数强制完成返回了，所以达到了类似于同步的效果，还是比较危险的。

cudaGetDeviceCount(&count)

获取系统中可用的 CUDA 设备数量。

cudaSetDevice(int device)

用于选择当前要使用的 CUDA 设备。

cudaGetDeviceProperties(cudaDeviceProp* prop, int device)

用于检索指定 CUDA 设备的属性信息。

struct cudaDeviceProp {char name[256]; // 识别设备的ASCII字符串（比如，"GeForce GTX 940M"）size_t totalGlobalMem; // 全局内存大小size_t sharedMemPerBlock; // 每个block内共享内存的大小int regsPerBlock; // 每个block 32位寄存器的个数int warpSize; // warp大小size_t memPitch; // 内存中允许的最大间距字节数int maxThreadsPerBlock; // 每个Block中最大的线程数是多少int maxThreadsDim[3]; // 一个块中每个维度的最大线程数int maxGridSize[3]; // 一个网格的每个维度的块数量size_t totalConstMem; // 可用恒定内存量int major; // 该设备计算能力的主要修订版号int minor; // 设备计算能力的小修订版本号int clockRate; // 时钟速率size_t textureAlignment; // 该设备对纹理对齐的要求int deviceOverlap; // 一个布尔值，表示该装置是否能够同时进行cudamemcpy()和内核执行int multiProcessorCount; // 设备上的处理器的数量int kernelExecTimeoutEnabled; // 一个布尔值，该值表示在该设备上执行的内核是否有运行时的限制int integrated; // 返回一个布尔值，表示设备是否是一个集成的GPU（即部分的芯片组、没有独立显卡等）int canMapHostMemory; // 表示设备是否可以映射到CUDA设备主机内存地址空间的布尔值int computeMode; // 一个值，该值表示该设备的计算模式：默认值，专有的，或禁止的int maxTexture1D; // 一维纹理内存最大值int maxTexture2D[2]; // 二维纹理内存最大值int maxTexture3D[3]; // 三维纹理内存最大值int maxTexture2DArray[3]; // 二维纹理阵列支持的最大尺寸int concurrentKernels; // 一个布尔值，该值表示该设备是否支持在同一上下文中同时执行多个内核
｝

CUDA常用函数

cudaDeviceSynchronize

cudaDeviceReset

cudaGetDeviceCount(&count)

cudaSetDevice(int device)

cudaGetDeviceProperties(cudaDeviceProp* prop, int device)

相关文章：

CUDA常用函数

72. ElasticSearch常用命令

2023.7.26(同余方程的通解与特解)

Diffusion扩散模型学习3——Stable Diffusion结构解析-以图像生成图像（图生图，img2img）为例

LangChain｜｜什么是LangChain? LangChain有什么用?

秋招算法备战第28天 | 93.复原IP地址、78.子集、90.子集II

Mongodb空间索引的使用以及与Django的对接

Windows安装MySQL数据库

聊聊函数式编程中的“式”

ubuntu目录分析

Python 进阶（三）：正则表达式（re 模块）

Vue2 第六节 key的作用与原理

React之组件的生命周期

linux -网络编程-多线程并发服务器

Golang之路---02 基础语法——字典

Pytorch(三)

Linux——进程控制

剑指 Offer 59 - I. 滑动窗口的最大值 / LeetCode 239. 滑动窗口最大值（优先队列 / 单调队列）

【Linux后端服务器开发】IP协议

React组件进阶之children属性,props校验与默认值以及静态属性static

网络编程（Modbus进阶）

XML Group端口详解

Prompt Tuning、P-Tuning、Prefix Tuning的区别

简易版抽奖活动的设计技术方案

Unity3D中Gfx.WaitForPresent优化方案

day52 ResNet18 CBAM

uni-app学习笔记二十二---使用vite.config.js全局导入常用依赖

LeetCode - 394. 字符串解码

Java - Mysql数据类型对应

C++.OpenGL （10/64）基础光照（Basic Lighting）