当前位置: 首页 > news >正文

【CUDA】《CUDA编程:基础与实践》CUDA加速的关键因素

CUDA事件计时

CUDA提供了一种基于CUDA事件(CUDA event)的计时方式,可用来给一段CUDA代码(可能包含主机代码和设备代码)计时。
对计时器的封装:

class CUDATimeCost {
public:void start() {elapsed_time_ = 0.0;// 初始化cudaEventcheckCudaRuntime(cudaEventCreate(&start_));checkCudaRuntime(cudaEventCreate(&stop_));// 记录开始事件checkCudaRuntime(cudaEventRecord(start_));cudaEventQuery(start_);}void stop() {// 记录结束事件checkCudaRuntime(cudaEventRecord(stop_));checkCudaRuntime(cudaEventSynchronize(stop_));// 计算事件差checkCudaRuntime(cudaEventElapsedTime(&elapsed_time_, start_, stop_));checkCudaRuntime(cudaEventDestroy(start_));checkCudaRuntime(cudaEventDestroy(stop_));}/*** @brief Get the elapsed time ms* * @return float */float get_elapsed_time() {return elapsed_time_;}private:cudaEvent_t start_, stop_;float elapsed_time_{0.0};
};

比较单精度和双精度的性能差异

测试的GPU为 MX450 显存带宽为:10GBps

double : 58.4116 ms
float  : 27.7594 ms

有效显存带宽

8×107×4B2.7×10−2(1)\frac{8 \times 10^7 \times 4 B}{2.7 \times 10^{-2}}\tag{1} 2.7×1028×107×4B(1)

几个影响GPU加速的关键因素

1. 数据传输比

当我们将计时器只计算运算的时间时发现,在向量求和的程序中,大部分的时间都消耗在了数据拷贝上。

  • GPU的显存带宽理论值(几百吉比特)远大于PCIex16 (16GB/s)的带宽。相差几十倍
  • 在CUDA编程的过程中应该尽可能减少数据在主机和设备之间的拷贝

2. 算术强度

一个问题的算术强度指的是其中算术操作的工作量与必要的内存操作的工作量之比。例如在求和操作中,去两次数据、存一次数据,但是只做一次计算,这样的算术强度就不高。在CUDA中,设备内存的读、写都是比较耗时的。

3. 并行规模

并行规模可用GPU中的总的线程数目来衡量。从硬件的角度来看,一个GPU由多个流处理器(streaming multiprocessor, SM)构成,而每个SM中有若干CUDA核心。每个SM是相对独立的。一个SM中最多能驻留线程的个数为1024(图灵架构),开普勒架构到伏特架构最多驻留的线程个数为2048. 一块GPU中一般有几个到几十个SM。所以一块GPU一共可以驻留几万到几十万个线程。所以一个核函数定义的线程数目小于这个数的话,就很难得到很高的加速比。所以对于数据规模很小的问题,用GPU很难得到可观的加速。

总结

一个CUDA程序能够获得高性能的必要条件有如下几点:

  • 数据传输比例较小
  • 核函数的算术强度较高。
  • 核函数中定义的线程数目较多

在编写优化CUDA程序时,一定要想方设法做到如下几点:

  • 减少主机与设备之间的数据传输
  • 提高核函数的算术强度
  • 增大核函数的并行规模

相关文章:

【CUDA】《CUDA编程:基础与实践》CUDA加速的关键因素

CUDA事件计时 CUDA提供了一种基于CUDA事件(CUDA event)的计时方式,可用来给一段CUDA代码(可能包含主机代码和设备代码)计时。 对计时器的封装: class CUDATimeCost { public:void start() {elapsed_time_ 0.0;// 初始化cudaEventcheckCudaRuntime(cud…...

数据结构【Golang实现】(四)——双向循环链表

目录0. 定义节点1. IsEmpty()2. Length()3. AddFromHead()4. AddFromTail()5. Insert()6. DeleteHead()7. DeleteTail()8. Remove()9. RemoveByValue()10. Contain()11. Traverse()0. 定义节点 type DLNode struct {Data anyPrev, Next *DLNode }// DoublyLoopLinkedLis…...

【Redis】高可用架构之哨兵模式 - Sentinel

Redis 高可用架构之哨兵模式 - Sentinel1. 前言2. Redis Sentinel 哨兵集群搭建2.1 一主两从2.2 三个哨兵3. Redis Sentinel 原理剖析3.1 什么哨兵模式3.2 哨兵机制的主要任务3.2.1 监控(1)每1s发送一次 PING 命令(2)PING 命令的回…...

图片的美白与美化

博主简介 博主是一名大二学生,主攻人工智能研究。感谢让我们在CSDN相遇,博主致力于在这里分享关于人工智能,c,Python,爬虫等方面知识的分享。 如果有需要的小伙伴可以关注博主,博主会继续更新的&#xff0c…...

面试官:关于CPU你了解多少?

CPU是如何执行程序的? 程序执行的基本过程 第一步,CPU 读取「程序计数器」的值,这个值是指令的内存地址,然后 CPU 的「控制单元」操作「地址总线」指定需要访问的内存地址,接着通知内存设备准备数据,数据准…...

UI自动化测试-Selenium的使用

文章目录 1. 环境搭建1.1 入门示例1.2 元素操作常用方法1.3 浏览器操作常用方法1.4 获取元素信息常用方法1.5 鼠标操作常用方法1.6 键盘操作常用方法1.7 下拉选择框操作2. 元素定位2.1 id定位2.2 name定位2.3 class_name定位2.4 tag_name定位2.5 link_text定位2.6 partail_link…...

嵌入式学习笔记——STM32的USART相关寄存器介绍及其配置

文章目录前言USART的相关寄存器介绍状态寄存器:USARTX->SR具体位代表的含义实际代码数据寄存器 USARTX->DR波特率寄存器 USARTX->BRR控制寄存器 (USART_CR)控制寄存器1(USART_CR1)控制寄存器2(USART_CR2)GPIO…...

Android setContentView流程分析(一)

对于做Android App的小伙伴来说setContentView这个方法再熟悉不过了,那么有多少小伙伴知道它的调用到底做了多少事情呢?下面就让我们来看看它背后的故事吧? setContentView()方法将分为两节来讲:   第一节:如何获取De…...

doris数据库操作数字遇到的问题

关于doris数据库Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。…...

3.13文件的IO操作

一.文件1.定义文件一般指的是存储在硬盘上的普通文件形如:txt.jpg.mp4,rar等这些文件在计算机中,文件可能是一个广义的概念,不仅可以包含普通文件,还可以包含目录(也就是文件夹.把目录称为目录文件)在操作系统中,还会用文件来描述一些其他的硬件设备或者软件资源比如网卡,显示器…...

ffmpeg使用

1 下载FFmpeg安装 官网地址:https://www.ffmpeg.org/download.html#build-windows 进入网址,点击下面红框部分 点击下面范围进行下载,下载速度有点慢,等等吧! 下载成功后,解压后,复制bin的路…...

spark中的并行度(分区数)/分区器如何确定

源头RDD有自己的分区计算逻辑,一般没有分区器,并行度是根据分区算法自动计算的,RDD的compute函数中记录了数据如何而来,如何分区的hadoopRDD,根据XxxinputFormat.getInputSplits()来决定,比如默认的TextInputFormat将文…...

00后女生“云摆摊”两周赚1.5万,实体店转战线上真的能赚钱吗?

最近,山东临沂的00后女生利用小程序在线上“云摆摊”卖水果,两周赚1.5万,引发网友热议。不少人发出质疑的声音:年轻人不要有稳定的工作不做,去摆摊;网上开店成本低,开实体店结果就难说了&#x…...

华为OD机试题 - 最优资源分配(JavaScript)| 机考必刷

更多题库,搜索引擎搜 梦想橡皮擦华为OD 👑👑👑 更多华为OD题库,搜 梦想橡皮擦 华为OD 👑👑👑 更多华为机考题库,搜 梦想橡皮擦华为OD 👑👑👑 华为OD机试题 最近更新的博客使用说明本篇题解:最优资源分配题目输入输出描述备注示例一输入输出说明示例二输入…...

利用python判断字符串是否为回文

1 问题 如何用python判断字符串是否为回文。 2 方法 用两个变量left,right模仿指针(一个指向第一个字符,一个指向最后一个字符),每比对成功一次,left向右移动一位,right向左移动一位&#xff0c…...

GDB 调用之ptype、set variable

今天在公司的时候,排查一个问题,创建l3 lif 失败,查看各种日志发现是用key去创建的 lif失败了,日志里指示key为空,导致的创建失败。原因为一个结构体比基线的多了一些东西,导致版本不对,既而计算…...

并发编程---阻塞队列(五)

阻塞队列一 阻塞队列1.1.阻塞队列概念1.2.阻塞队列API案例1.2.1. ArrayBlockingQueue1.2.1.1.抛出异常1.2.1.2.返回布尔1.2.1.3.阻塞1.2.1.4.超时1.2.2.SynchronousQueue二 阻塞队列应用---生产者消费者2.1.传统模式案例代码结果案例问题---防止虚假唤醒2.2.⽣产者消费者防⽌虚…...

本科课程【计算机组成原理】实验1 - 输出ABCD程序的生成

大家好,我是【1+1=王】, 热爱java的计算机(人工智能)渣硕研究生在读。 如果你也对java、人工智能等技术感兴趣,欢迎关注,抱团交流进大厂!!! Good better best, never let it rest, until good is better, and better best. 近期会把自己本科阶段的一些课程设计、实验报…...

Java并发编程(2) —— 线程创建的方式与原理

一、Java线程创建的三种方式 1. 继承Thread类并重写run()方法 ///方法一:使用匿名内部类重写Thread的run()方法Thread t1 new Thread() {Overridepublic void run() {try {sleep(10000);} catch (InterruptedException e) {e.printStackTrace();}log.debug("…...

你写的js性能有多差你知道吗 | js性能优化

性能的计算⽅式 确认⾃⼰需要关注的指标 常⻅的指标有: ⻚⾯总加载时间 load⾸屏时间⽩屏时间 代码 尝试⽤⼀个指令, 挂载在重要元素上, 当此元素inserted就上报 各个属性所代表的含义 connectStart, connectEnd 分别代表TCP建⽴连接和连接成功的时间节点。如果浏…...

告别Surface“幽灵触控”:从现象溯源到一劳永逸的修复指南

1. 什么是Surface"幽灵触控"? 如果你正在使用Surface设备,突然发现屏幕某个区域莫名其妙地自动点击,或者部分触控功能完全失灵,恭喜你遇到了传说中的"幽灵触控"问题。这个现象最早在Surface Pro 4上被大量报告…...

VIIRS/NPP夜光数据:从数据获取到区域分析的实用指南

1. VIIRS/NPP夜光数据入门指南 第一次接触VIIRS/NPP夜光数据时,我也被各种专业术语和数据产品搞得晕头转向。这种由美国国家海洋和大气管理局(NOAA)提供的夜间灯光遥感数据,已经成为城市发展、能源消耗和经济活动研究的重要数据源…...

Unlock Music:打破音乐平台格式壁垒的终极浏览器解密工具

Unlock Music:打破音乐平台格式壁垒的终极浏览器解密工具 【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库: 1. https://github.com/unlock-music/unlock-music ;2. https://git.unlock-music.dev/um/web 项目地址: ht…...

3分钟掌握B站缓存视频转换:m4s转MP4的完整免费解决方案

3分钟掌握B站缓存视频转换:m4s转MP4的完整免费解决方案 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾为B站下架的视频感到…...

51单片机LCD12864显示中文,别再傻傻用字库了!手把手教你自定义取模显示任意汉字

51单片机LCD12864深度定制:从零实现任意汉字点阵显示的艺术 在嵌入式开发领域,LCD12864液晶屏因其性价比高、接口简单而广受欢迎。但当我们需要显示公司Logo、特殊符号或艺术字体时,标准中文字库的局限性就暴露无遗。本文将彻底打破这种限制&…...

如果写好AI提示词:这份 Prompt 调试速查表帮你事半功倍

有句话说得好:"好的工程师和差的工程师的区别,不在于他们多聪明,而在于他们有没有一份好的排障清单。"这句话对 Prompt 工程也完全适用。最近三个月,我在 Claude 社区的 Discord 里帮人调试 Prompt。最常见的情况是什么…...

终极跨平台音频下载解决方案:喜马拉雅FM批量下载器完整指南

终极跨平台音频下载解决方案:喜马拉雅FM批量下载器完整指南 【免费下载链接】xmly-downloader-qt5 喜马拉雅FM专辑下载器. 支持VIP与付费专辑. 使用GoQt5编写(Not Qt Binding). 项目地址: https://gitcode.com/gh_mirrors/xm/xmly-downloader-qt5 你是否经常…...

Blender 3MF插件:终极指南 - 如何轻松实现3D打印设计一体化

Blender 3MF插件:终极指南 - 如何轻松实现3D打印设计一体化 【免费下载链接】Blender3mfFormat Blender add-on to import/export 3MF files 项目地址: https://gitcode.com/gh_mirrors/bl/Blender3mfFormat 你是否曾经在Blender中精心设计了3D模型&#xff…...

网络优化工具开发全解析:从协议选型到多平台实现与运维

1. 网络连接优化工具的技术原理与实现思路在当今的互联网环境下,许多用户会遇到访问特定在线服务或资源时速度缓慢、连接不稳定甚至无法访问的情况。这背后通常涉及到复杂的网络路由、地域性内容分发策略以及网络基础设施的差异。为了解决这类问题,一些开…...

复合索引设计指南:最左前缀 字段排座次

🍵 复合索引设计指南:最左前缀 & 字段排座次 昨天隔壁工位的老哥一脸懵圈地凑过来:“兄弟,我明明给表建了 (a,b,c) 的复合索引,结果一查 WHERE b1,数据库直接给我上演‘全表扫描’,索引是集…...