当前位置：首页 > news >正文

[9] CUDA性能测量与错误处理

news 2025/12/21 14:12:02

CUDA性能测量与错误处理

讨论如何通过CUDA事件来测量它的性能
如何通过CUDA代码进行调试

1.测量CUDA程序的性能

1.1 CUDA事件

CPU端的计时器可能无法给出正确的内核执行时间
CUDA事件等于是在你的CUDA应用运行的特定时刻被记录的时间戳，通过使用CUDA事件API，由GPU来记录这个时间戳
使用CUDA测量时间需要两个步骤：创建事件和记录事件，记录事件（开始时间与结束时间）
代码如下：

#include "stdio.h"
#include<iostream>
#include <cuda.h>
#include <cuda_runtime.h>
//Defining number of elements in Array
#define N	50000
//Defining Kernel function for vector addition
__global__ void gpuAdd(int* d_a, int* d_b, int* d_c) {//Getting Thread index of current kernelint tid = threadIdx.x + blockIdx.x * blockDim.x;while (tid < N){d_c[tid] = d_a[tid] + d_b[tid];tid += blockDim.x * gridDim.x;}}int main(void) {//Defining host arraysint h_a[N], h_b[N], h_c[N];//Defining device pointersint* d_a, * d_b, * d_c;//----------创建事件记录起止时间---------------------cudaEvent_t e_start, e_stop;cudaEventCreate(&e_start);cudaEventCreate(&e_stop);//第一次记录时间戳cudaEventRecord(e_start, 0);// allocate the memorycudaMalloc((void**)&d_a, N * sizeof(int));cudaMalloc((void**)&d_b, N * sizeof(int));cudaMalloc((void**)&d_c, N * sizeof(int));//Initializing Arraysfor (int i = 0; i < N; i++) {h_a[i] = 2 * i * i;h_b[i] = i;}// Copy input arrays from host to device memorycudaMemcpy(d_a, h_a, N * sizeof(int), cudaMemcpyHostToDevice);cudaMemcpy(d_b, h_b, N * sizeof(int), cudaMemcpyHostToDevice);//Calling kernels passing device pointers as parametersgpuAdd << <512, 512 >> > (d_a, d_b, d_c);//Copy result back to host memory from device memorycudaMemcpy(h_c, d_c, N * sizeof(int), cudaMemcpyDeviceToHost);cudaDeviceSynchronize();//再次记录时间戳cudaEventRecord(e_stop, 0);//等待所有GPU工作都完成cudaEventSynchronize(e_stop);float elapsedTime;//计算时间插值cudaEventElapsedTime(&elapsedTime, e_start, e_stop);printf("Time to add %d numbers: %3.1f ms\n", N, elapsedTime);int Correct = 1;printf("Vector addition on GPU \n");//Printing result on consolefor (int i = 0; i < N; i++) {if ((h_a[i] + h_b[i] != h_c[i])){Correct = 0;}}if (Correct == 1){printf("GPU has computed Sum Correctly\n");}else{printf("There is an Error in GPU Computation\n");}//Free up memorycudaFree(d_a);cudaFree(d_b);cudaFree(d_c);return 0;
}

1.2 NVIDIA Visual Profiler

如果你在程序中使用了CUDA，代码的性能并未提升，在这种情况下，能够可视化地查看代码的哪些部分花费了最长的时间完成将非常有用，这叫剖析内核执行代码
英伟达提供了以上用途的工具 nvvp ，就在标准的CUDA安装包里，在电脑的如下路径可以被找到：C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.7\libnvvp：
执行它需要安装java环境，即安装jdk8即可，可以去官网下载，也可以从我的链接 jdk8下载，然后需要配置环境变量C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.7\extras\CUPTI\lib64 C:\Program Files\Java\jdk-1.8\bin
打开nvvp 会出现如下窗口，此工具会分析你的代码执行过程，采集GPU上的性能数据，运行结束后会给你一个详细的报告，包括每个内核的执行时间，代码中每个详细操作的时间戳，以及代码存储器的使用情况
想要得到详细报告，可依次点击 File -> New Session，然后在弹出的对话框中选择程序的.exe文件
Profiler 是分析内核执行情况的重要工具，它也可以用来比较两个内核的性能。它会告诉你就是是代码里的何种操作拉低了性能

2. CUDA中的错误处理

如果系统中没有可用的GPU设备怎么办？显存不足怎么办？
学会在CUDA程序里边添加错误处理代码很有好处

#include "cuda_runtime.h"
#include "device_launch_parameters.h"#include <stdio.h>__global__ void gpuAdd(int *d_a, int *d_b, int *d_c) {*d_c = *d_a + *d_b;
}
int main()
{//Defining host variablesint h_a, h_b, h_c;//Defining Device Pointersint *d_a, *d_b, *d_c;//Initializing host variablesh_a = 1;h_b = 4;//定义错误结果变量cudaError_t cudaStatus;// Allocate GPU buffers for three vectors (two input, one output)    .cudaStatus = cudaMalloc((void**)&d_c, sizeof(int));if (cudaStatus != cudaSuccess) {fprintf(stderr, "cudaMalloc failed!");goto Error;}cudaStatus = cudaMalloc((void**)&d_a, sizeof(int));if (cudaStatus != cudaSuccess) {fprintf(stderr, "cudaMalloc failed!");goto Error;}cudaStatus = cudaMalloc((void**)&d_b, sizeof(int));if (cudaStatus != cudaSuccess) {fprintf(stderr, "cudaMalloc failed!");goto Error;}// Copy input vectors from host memory to GPU buffers.cudaStatus = cudaMemcpy(d_a,&h_a, sizeof(int), cudaMemcpyHostToDevice);if (cudaStatus != cudaSuccess) {fprintf(stderr, "cudaMemcpy failed!");goto Error;}cudaStatus = cudaMemcpy(d_b, &h_b, sizeof(int), cudaMemcpyHostToDevice);if (cudaStatus != cudaSuccess) {fprintf(stderr, "cudaMemcpy failed!");goto Error;}// Launch a kernel on the GPU with one thread for each element.gpuAdd<<<1, 1>>>(d_a, d_b, d_c);// Check for any errors launching the kernelcudaStatus = cudaGetLastError();if (cudaStatus != cudaSuccess) {fprintf(stderr, "addKernel launch failed: %s\n", cudaGetErrorString(cudaStatus));goto Error;}// Copy output vector from GPU buffer to host memory.cudaStatus = cudaMemcpy(&h_c, d_c, sizeof(int), cudaMemcpyDeviceToHost);if (cudaStatus != cudaSuccess) {fprintf(stderr, "cudaMemcpy failed!");goto Error;}printf("Passing Parameter by Reference Output: %d + %d = %d\n", h_a, h_b, h_c);
Error:cudaFree(d_c);cudaFree(d_a);cudaFree(d_b);return 0;
}

-----------------------END----------------------------

[9] CUDA性能测量与错误处理

CUDA性能测量与错误处理讨论如何通过CUDA事件来测量它的性能如何通过CUDA代码进行调试 1.测量CUDA程序的性能 1.1 CUDA事件 CPU端的计时器可能无法给出正确的内核执行时间CUDA事件等于是在你的CUDA应用运行的特定时刻被记录的时间戳，通过使用CUDA事件API&#…...

编程日记 2024/5/29 1:23:54

Java学习四

Random 随机数数组静态初始化数组数组在计算机中的基本原理数组的访问什么是遍历数组的动态初始化动态初始化数组元素默认值规则 Java内存分配介绍数组在计算机中的执行原理使用数组时常见的一个问题案例求数组元素最大值 public class Test1 {public static void ma…...

编程日记 2024/5/29 1:22:54

Vue 父组件使用refs来直接访问和修改子组件的属性或调用子组件的方法

步骤 1: 在子组件中定义要被修改的属性或方法首先，在子组件中定义你想要父组件能够修改或调用的属性或方法。例如，我们有一个名为MyChildComponent的子组件，它有一个名为childData的数据属性和一个名为updateData的方法。 // 子组件 MyChi…...

编程日记 2024/5/29 1:21:53

范罗士、希喂、安德迈爆款宠物空气净化器哪款好？深度对比测评

作为一名深受养猫过敏困扰的铲屎官，我经常提醒新手铲屎官重视家里的空气环境。宠物的浮毛和皮屑不仅会引发过敏，还可能传播细菌和病毒。很多人以为普通空气净化器能解决问题，但这些产品并未针对宠物家庭的特殊需求。经过多次研究和测试&#…...

编程日记 2024/5/29 1:20:52

SAP OBYC自动记账详解

在MM模块的许多操作都能实现在FI模块自动过账，如PO收货、发票验证、工单发料、向生产车间发料等等。不用说，一定需要在IMG中进行配置才可以实现自动处理。但SAP实现的这种自动配置的机制是怎样的呢？其实也并不复杂，让我们先以一种最简单的情况来了解实现原理和实现流程，然…...

编程日记 2024/5/29 1:19:50

《NoSQL数据库技术与应用》 MongoDB副本集

《NoSQL数据库技术与应用》教学设计课程名称：NoSQL数据库技术与应用授课年级： 20xx年级授课学期： 20xx学年第一学期教师姓名： 某某老师 2020年5月6日课题名称第4章 MongoDB副本集计划学时 8课时内容分析独立模式可…...

编程日记 2024/5/29 1:18:49

Flutter 中的 DropdownButtonFormField 小部件：全面指南

Flutter 中的 DropdownButtonFormField 小部件：全面指南在Flutter中，DropdownButtonFormField是一个特殊的表单字段小部件，它结合了下拉选择框（DropdownButton）和表单字段（FormField）的功能。…...

编程日记 2024/5/29 1:17:49

哈希算法教程（个人总结版）

背景哈希算法（Hash Algorithm）是一种将任意长度的输入（也称为消息）转换为固定长度的输出（也称为哈希值、散列值、摘要）的算法。哈希算法在计算机科学中有着广泛的应用，包括数据存储、数据检索…...

编程日记 2024/5/29 1:16:47

Nocobase快速上手 -第一个collection

本文记录Nocobase中如何创建collection，以及如何将collection展示到页面中，并且配置CRUD相应的操作. Collection 在NocoBase中，collection（集合）是用来组织和存储各种数据的容器，如订单、产品、用户、评论…...

编程日记 2024/5/29 1:15:47

吴恩达2022机器学习专项课程C2W2：2.19 sigmoid函数的替代方案 2.20如何选择激活函数 2.21 激活函数的重要性

这里写目录标题引言sigmoid激活函数的局限1.回顾需求案例2.ReLU激活函数常用的激活函数1.线性激活函数的解释如何选择激活函数？1.选择输出层的激活函数2.选择隐藏层的激活函数选择激活函数的总结1.输出层总结2.隐藏层总结3.TensorFlow设置激活函数激活函数多样…...

编程日记 2024/5/29 1:14:46

文章目录 1.概述1.1 Docker Compose 定义1.2 Docker Compose背景1.3 Docker Compose核心概念 2.安装2.1 Official Repos2.2 Manual Installation2.3 v1.x 兼容性 3. YAML 配置说明3.1 Services3.2 Volumes & Networks 4. 解析 Service4.1 Pulling一个Image4.2 Building一个…...

编程日记 2024/5/29 1:13:45

怎样查看JavaScript中没有输出结果的数组值？

在JavaScript中，可以方便地定义和使用数组，对于已经定义的数组，怎样查看其值呢？ 看下面的示例，并运行它。上面的示例中，标签不完整，请补充完整再试运行。你知道少了什么标签么？ 注…...

编程日记 2024/5/29 1:12:44

强化学习学习笔记-李宏毅

Policy Gradient actorenvreward function，env和reward是不能控制的，唯一可以变的是actor，Policy π \pi π是一个网络，参数为 θ \theta θ，输入是当前的观察，输出是采取的行为，例如游戏中输…...

编程日记 2024/5/29 1:11:43

吴恩达深度学习笔记：超参数调试、 Batch 正则化和程序框架（Hyperparameter tuning）3.8-3.9

目录第二门课: 改善深层神经网络：超参数调试、正则化以及优化 (Improving Deep Neural Networks:Hyperparameter tuning, Regularization and Optimization)第三周： 超参数调试、 Batch 正则化和程序框架（Hyperparameter …...

编程日记 2024/5/29 1:10:42

SQL 语言：数据控制

文章目录概述授权（GRANT)销权（REVOKE）总结概述 SQL语言中的数据控制权限分配是数据库管理的重要组成部分，它涉及到如何合理地为用户分配对数据库资源的访问和使用权限。权限类型：在SQL中，权限主要分为…...

编程日记 2024/5/29 1:09:41

『ZJUBCA Weekly Feed 07』MEV | AO超并行计算机 | Eigen layer AVS生态

一文读懂MEV：区块链的黑暗森林法则 01 💡TL;DR 这篇文章介绍了区块链中的最大可提取价值（MEV）概念，MEV 让矿工和验证者通过抢先交易、尾随交易和三明治攻击等手段获利，但也导致网络拥堵和交易费用增加。为了…...

编程日记 2024/5/29 1:08:40

正点原子延时函数delay_ms延时失效的原因

1、问题陈述今天在测试小车程序的时候使用了如下代码，发现延时并没有达到期望的4s，而是仅仅延时了0.4s左右，本来以为少加了个0，最后在我多次测试下来，发现在延时大约超过2s的时候就会失效。 while(1){Set_Pwm(6000,60…...

编程日记 2024/5/29 1:07:39

MySQL 满足条件函数中使用查询最大值函数

在实际的数据库操作中，我们常常需要根据某些条件找到最大值并据此进行下一步的操作。例如，在一个包含订单信息的表中，可能需要找到特定客户的最大订单金额，并据此进行某些统计或决策。MySQL 提供了多种函数和查询方法，…...

编程日记 2024/5/29 1:06:38

Java | Leetcode Java题解之第101题对称二叉树

题目： 题解： class Solution {public boolean isSymmetric(TreeNode root) {return check(root, root);}public boolean check(TreeNode u, TreeNode v) {Queue<TreeNode> q new LinkedList<TreeNode>();q.offer(u);q.offer(v);while (!q.…...

编程日记 2024/5/29 1:05:37

【区块链】智能合约漏洞测试

打开Ganache vscode打开智能合约漏洞工程合约内容 pragma solidity >0.8.3;contract EtherStore {mapping(address > uint) public balances;function deposit() public payable {balances[msg.sender] msg.value;emit Balance(balances[msg.sender]);}function with…...

编程日记 2024/5/29 1:04:36

MPNet：旋转机械轻量化故障诊断模型详解python代码复现

目录一、问题背景与挑战二、MPNet核心架构 2.1 多分支特征融合模块（MBFM） 2.2 残差注意力金字塔模块（RAPM） 2.2.1 空间金字塔注意力（SPA） 2.2.2 金字塔残差块（PRBlock） 2.3 分类器设计三、关键技术突破 3.1 多尺度特征融合 3.2 轻量化设计策略 3.3 抗噪声…...

编程新知 2025/12/20 22:37:06

深入浅出Asp.Net Core MVC应用开发系列-AspNetCore中的日志记录

ASP.NET Core 是一个跨平台的开源框架，用于在 Windows、macOS 或 Linux 上生成基于云的新式 Web 应用。 ASP.NET Core 中的日志记录 .NET 通过 ILogger API 支持高性能结构化日志记录，以帮助监视应用程序行为和诊断问题。可以通过配置不同的记录提供程…...

编程新知 2025/12/21 5:12:49

从深圳崛起的“机器之眼”：赴港乐动机器人的万亿赛道赶考路

进入2025年以来，尽管围绕人形机器人、具身智能等机器人赛道的质疑声不断，但全球市场热度依然高涨，入局者持续增加。以国内市场为例，天眼查专业版数据显示，截至5月底，我国现存在业、存续状态的机器人相关企…...

编程新知 2025/12/19 10:39:38

ABAP设计模式之---“简单设计原则(Simple Design)”

“Simple Design”（简单设计）是软件开发中的一个重要理念，倡导以最简单的方式实现软件功能，以确保代码清晰易懂、易维护，并在项目需求变化时能够快速适应。其核心目标是避免复杂和过度设计，遵循“让事情保…...

编程新知 2025/12/14 23:17:22

深度学习水论文：mamba＋图像增强

🧀当前视觉领域对高效长序列建模需求激增，对Mamba图像增强这方向的研究自然也逐渐火热。原因在于其高效长程建模，以及动态计算优势，在图像质量提升和细节恢复方面有难以替代的作用。 🧀因此短时间内，就有不…...

编程新知 2025/12/19 2:25:32

虚拟电厂发展三大趋势：市场化、技术主导、车网互联

市场化：从政策驱动到多元盈利政策全面赋能 2025年4月，国家发改委、能源局发布《关于加快推进虚拟电厂发展的指导意见》，首次明确虚拟电厂为“独立市场主体”，提出硬性目标：2027年全国调节能力≥2000万千瓦&#xff0…...

编程新知 2025/12/20 18:09:59

aardio 自动识别验证码输入

技术尝试上周在发学习日志时有网友提议“在网页上识别验证码”，于是尝试整合图像识别与网页自动化技术，完成了这套模拟登录流程。核心思路是：截图验证码→OCR识别→自动填充表单→提交并验证结果。代码在这里 import soImage; import we…...

编程新知 2025/12/5 7:23:30

何谓AI编程【02】AI编程官网以优雅草星云智控为例建设实践-完善顶部-建立各项子页-调整排版-优雅草卓伊凡

何谓AI编程【02】AI编程官网以优雅草星云智控为例建设实践-完善顶部-建立各项子页-调整排版-优雅草卓伊凡背景我们以建设星云智控官网来做AI编程实践，很多人以为AI已经强大到不需要程序员了，其实不是，AI更加需要程序员，普通人…...

编程新知 2025/12/9 15:13:51

小智AI+MCP

什么是小智AI和MCP 如果还不清楚的先看往期文章手搓小智AI聊天机器人 MCP 深度解析：AI 的USB接口如何使用小智MCP 1.刷支持mcp的小智固件 2.下载官方MCP的示例代码 Github：https://github.com/78/mcp-calculator 安这个步骤执行其中MCP_ENDPOI…...

编程新知 2025/12/19 9:39:18

深入浅出JavaScript中的ArrayBuffer：二进制数据的“瑞士军刀”

深入浅出JavaScript中的ArrayBuffer：二进制数据的“瑞士军刀” 在JavaScript中，我们经常需要处理文本、数组、对象等数据类型。但当我们需要处理文件上传、图像处理、网络通信等场景时，单纯依赖字符串或数组就显得力不从心了。这时&#xff…...

编程新知 2025/11/12 20:44:21

[9] CUDA性能测量与错误处理

CUDA性能测量与错误处理

1.测量CUDA程序的性能

1.1 CUDA事件

1.2 NVIDIA Visual Profiler

2. CUDA中的错误处理

相关文章：

[9] CUDA性能测量与错误处理

Java学习四

Vue 父组件使用refs来直接访问和修改子组件的属性或调用子组件的方法

范罗士、希喂、安德迈爆款宠物空气净化器哪款好？深度对比测评

SAP OBYC自动记账详解

《NoSQL数据库技术与应用》 MongoDB副本集

Flutter 中的 DropdownButtonFormField 小部件：全面指南

哈希算法教程（个人总结版）

Nocobase快速上手 -第一个collection

吴恩达2022机器学习专项课程C2W2：2.19 sigmoid函数的替代方案 2.20如何选择激活函数 2.21 激活函数的重要性

循序渐进Docker Compose

怎样查看JavaScript中没有输出结果的数组值？

强化学习学习笔记-李宏毅

吴恩达深度学习笔记：超参数调试、 Batch 正则化和程序框架（Hyperparameter tuning）3.8-3.9

SQL 语言：数据控制

『ZJUBCA Weekly Feed 07』MEV | AO超并行计算机 | Eigen layer AVS生态

正点原子延时函数delay_ms延时失效的原因

MySQL 满足条件函数中使用查询最大值函数

Java | Leetcode Java题解之第101题对称二叉树

【区块链】智能合约漏洞测试

MPNet：旋转机械轻量化故障诊断模型详解python代码复现

深入浅出Asp.Net Core MVC应用开发系列-AspNetCore中的日志记录

从深圳崛起的“机器之眼”：赴港乐动机器人的万亿赛道赶考路

ABAP设计模式之---“简单设计原则(Simple Design)”

深度学习水论文：mamba＋图像增强

虚拟电厂发展三大趋势：市场化、技术主导、车网互联

aardio 自动识别验证码输入

何谓AI编程【02】AI编程官网以优雅草星云智控为例建设实践-完善顶部-建立各项子页-调整排版-优雅草卓伊凡

小智AI+MCP

深入浅出JavaScript中的ArrayBuffer：二进制数据的“瑞士军刀”