当前位置: 首页 > article >正文

CUDA 学习(2)——CUDA 介绍

GeForce 256 是英伟达 1999 年开发的第一个 GPU,最初用作显示器上渲染高端图形,只用于像素计算。

在早期,OpenGL 和 DirectX 等图形 API 是与 GPU 唯一的交互方式。后来,人们意识到 GPU 除了用于渲染图形图像外,还可以做其他的数学计算,但是 OpenGL 和 DirectX 等图形 API 的交互方式比较复杂,不利于程序员设计 GPU 计算程序,这促成了 CUDA 编程框架的开发,它提供了一种与 GPU 交互的简单而高效的方式。

1 CUDA 环境搭建

必要的条件:

  • Nvidia 的 GPU
  • Nvidia 的显卡驱动
  • 标准的 C 编译器
  • CUDA 开发工具

建立好 CUDA 开发环境之后,可以通过以下命令进行检查:

nvidia-smi
nvcc --version

2 CUDA 编程模型简述

2.1 基本概念
  • thread:一个 CUDA 的并行程序会被以许多个 thread 来执行
  • block: 多个线程组成一个线程块(Block),同一个 block 的线程会被调度到同一个 SM 上,即同一个 block 的 thread 可以进行同步并可用 SM 上的 share memory 通信,不同 block 的 thread 无法通信
  • grid: CUDA 的一个函数叫做一个 kernel,一个 kernel 会发起大量执行相同指令的线程

CUDA 编程软件层次:

在这里插入图片描述

这三个概念是 CUDA 编程中最核心的,知道这些,就已经可以写 cuda 代码了,进一步了解硬件结构可以帮助我们更好地对 cuda 代码深度优化。

2.2 helloGPU

尝试编写一个 cuda 程序 hello-gpu.cu,让 GPU 输出Hello World!

#include <stdio.h>void helloCPU() {printf("Hello World!  --From CPU\n");
}__global__ void helloGPU() {printf("Hello World!  --From GPU\n");
}int main() {helloCPU();helloGPU<<<1, 1>>>();cudaDeviceSynchronize();
}

可以看到 cuda 程序和普通的 c 语言非常相似,也存在一些不一样的地方:

  • __global__:定义这是一个 cuda 的 kernel 函数,从主机 host 发起并在设备 device 上执行。
  • <<<1, 1>>>:定义 block 和 threads,这里表示发起 1 个 block,每个 block 里有 1 个线程
  • cudaDeviceSynchronize:与许多 C/C++ 代码不同,核函数启动方式为异步:CPU 代码将继续执行而无需等待核函数完成启动。调用 CUDA 运行时提供的函数 cudaDeviceSynchronize 将导致主机 (CPU) 代码暂作等待,直至设备 (GPU) 代码执行完成,才能在 CPU 上恢复执行。

写好 cuda 代码后,可以使用 nvcc 对代码进行编译与执行:

nvcc -arch=sm_75 -o hello-gpu hello-gpu.cu -run# Hello World!  --From CPU
# Hello World!  --From GPU

说明:

  • nvcc 是使用 nvcc 编译器的命令行命令。
  • xxx.cu 作为文件传递以进行编译。
  • -o标志用于指定编译程序的输出文件。
  • arch 标志表示该文件必须编译为哪个架构类型。本示例中,sm_75 将用于专门针对本实验运行的 NVIDIA GeForce GTX 2080 Ti 进行编译。具体参考:https://docs.nvidia.com/cuda/cuda-compiler-driver-nvcc/index.html#options-for-steering-gpu-code-generation
  • 为方便起见,提供 run 标志将执行已成功编译的二进制文件。

从上面的程序,可以知道 GPU 的工作任务是由 CPU 触发的,GPU 自身是无法独立工作的。

cuda 程序整体的工作流程是 CPU 将需要执行的任务异步地交给 GPU,再由 GPU 进行调度,最后再将计算结果同步给 CPU。

在这里插入图片描述

假设想要 GPU 发送 66 个Hello World,可以简单地修改 blocks 和 ThreadsPerBlock 的数量,即可实现这项功能:

#include <stdio.h>void helloCPU() {printf("Hello World!  --From CPU\n");
}__global__ void helloGPU() {printf("Hello World!  --From GPU\n");
}int main() {helloCPU();helloGPU<<<6, 11>>>();cudaDeviceSynchronize();
}

以上代码则发起了 6 个 block,每个 block 里有 11 个线程。当然,也可以改成helloGPU<<<1, 66>>>();,发起了一个 block,这个 block 里有 66 个线程。

3 Warp

具体怎么设置发起 blocks 和 ThreadsPerBlock 完全由程序员自己设置,而发起后这些 block 和线程在 GPU 中如何调度则由 GPU 内部硬件控制,不被程序员所操作。为了更合理地设置 blocks 和 ThreadsPerBlock,还需要了解 GPU 中的调度策略。

  • 首先是 blocks 的调度:同一个 blocks 会被调度到同一个 SM,不同的 blocks 不保证在同一 SM

为了更好地进行调度,blocks 数可以设置为 GPU 中 SM 的整数倍。由于 SM 上的计算单元是有限的,同一个 blocks 中的 threads 会被划分成多个 warp,一个 warp 才是 GPU 调度与执行的基本单元

一般来说,一个 warp 是 32 个线程(尽量是每个 SM 中的流处理器数量的整倍数?),所以 ThreadsPerBlock 一般会设置成 32 的整数倍,可以让资源利用率更高。

了解了 GPU 中的调度逻辑,编写 cuda 程序时我们就可以根据手中的 GPU 硬件配置,合理地设置 blocks 和 ThreadsPerBlock 这两个参数。当前 GPU 硬件配置有很多内容,在初学 CUDA 编程中应该关注到的是 GPU 上 SM 数量,warp size,每个 block 的最大线程数,每个 SM 最大 block 数。通过这段代码将 GPU 硬件信息打印出来:

#include <stdio.h>
#include <iostream>int main() {int dev = 0;cudaDeviceProp devProp;cudaGetDeviceProperties(&devProp, dev);std::cout << "使用 GPU device " << dev << ": " << devProp.name << std::endl;std::cout << "SM 的数量:" << devProp.multiProcessorCount << std::endl;int warpSize = devProp.warpSize;std::cout << "Warp size: " << warpSize << std::endl;std::cout << "每个线程块的共享内存大小:" << devProp.sharedMemPerBlock / 1024.0 << " KB" << std::endl;std::cout << "每个线程块的最大线程数:" << devProp.maxThreadsPerBlock << std::endl;std::cout << "每个 SM 的最大线程数:" << devProp.maxThreadsPerMultiProcessor << std::endl;std::cout << "每个 SM 的最大 block 数:" << devProp.maxThreadsPerMultiProcessor / warpSize << std::endl;std::cout << "每个 SM 的寄存器数量:" << devProp.regsPerMultiprocessor << std::endl;
}

编译梦并运行:

nvcc -o get_gpu_hwinfo get_gpu_hwinfo.cu -run使用 GPU device 0: NVIDIA GeForce RTX 2080 Ti
SM 的数量:68
Warp size: 32
每个线程块的共享内存大小:48 KB
每个线程块的最大线程数:1024
每个 SM 的最大线程数:1024
每个 SM 的最大 block 数:32
每个 SM 的寄存器数量:65536

举一个简单的例子来说明如何根据硬件配置合理分配资源:

假设一个 SM 上有 8192 个寄存器,程序员每个 block 设置了 256 个线程。

假设每个线程会占用 10 个寄存器,那么一个 block 中的线程会占用 256*10=2560 个寄存器,8192/2560=3.2,即一个 SM 可以同时加载 3 个 block 正常运行。

假设每个线程会占用 11 个寄存器,那么一个 block 中的线程会占用 256*11=2816 个寄存器,8192/2816=2.9,即一个 SM 只能加载 2 个 block,一个 SM 上硬件资源就跑不满,会造成资源浪费。

blocks 调度到 SM 上:

在这里插入图片描述

block 被切分成 wrap:

在这里插入图片描述

由于 GPU 没有复杂的控制单元,在 warp 中所有线程都会执行相同的指令,这意味着在遇到分支时,warp 需要一些特殊的处理。

如下图所示,当遇到分支时,warp 中 32 个线程也许有些线程满足条件,有些线程不满足条件,但一个 warp 中所有线程执行指令的时序是一致的,不满足分支条件的线程必须等待需要执行指令的其他线程,这也意味着分支指令会影响 GPU 的运行效率,在程序设计时应该尽量少用,或者在写分支条件时尽可能保证一个 warp 中所有线程同时满足条件或者同时不满足条件。

在这里插入图片描述

相关文章:

CUDA 学习(2)——CUDA 介绍

GeForce 256 是英伟达 1999 年开发的第一个 GPU&#xff0c;最初用作显示器上渲染高端图形&#xff0c;只用于像素计算。 在早期&#xff0c;OpenGL 和 DirectX 等图形 API 是与 GPU 唯一的交互方式。后来&#xff0c;人们意识到 GPU 除了用于渲染图形图像外&#xff0c;还可以…...

棱镜七彩受邀出席“供应链安全国家标准贯标应用深度行”活动并做主题分享

近日&#xff0c;“供应链安全国家标准贯标应用深度行”活动在北京顺利举办&#xff0c;此次活动汇聚了行业内的众多专家和企业代表&#xff0c;深入探讨了供应链安全国家标准的制定与实施路径。棱镜七彩副总裁黄浩东受邀出席&#xff0c;并发表了题为《国家标准实施路径下的企…...

Vue3项目中的.vscode文件夹

.vscode 文件夹主要用于存放与 Visual Studio Code&#xff08;VS Code&#xff09;编辑器相关的项目配置文件&#xff0c;这些文件能让项目在 VS Code 里的开发体验更加个性化和高效。 extensions.json 在 .vscode 文件夹中&#xff0c;extensions.json 文件的作用是列出项目…...

系统转换、系统维护、净室软件工程、构件软件工程(高软51)

系列文章目录 系统转换、系统维护、净室软件工程、构件软件工程 文章目录 系列文章目录前言一、系统转换二、系统维护三、净室软件工程四、基于构件的软件工程总结 前言 本节讲明遗留系统的系统转换、系统维护、净室软件工程、基于构件软件工程相关知识。 一、系统转换 就是讲…...

K8S学习之基础四十四:k8s中部署Kibana

在Kubernetes集群中安装Kibana通常涉及使用Helm Chart或直接使用Kubernetes Manifest文件。以下是使用Helm Chart安装Kibana的步骤&#xff1a; 添加Elastic Helm仓库 首先&#xff0c;添加Elastic的Helm仓库&#xff1a; bash 复制 helm repo add elastic https://helm.ela…...

联核防爆无人叉车:高危环境中的安全搬运守护者

联核防爆AGV无人叉车是专为易燃易爆环境设计的智能搬运设备&#xff0c;其特点、功能与应用场景均围绕“安全”与“智能”核心展开&#xff1a;联核科技官网-AGV叉车十大品牌-无人叉车厂家-自动化叉车-智能搬运码垛机器人-智能叉车系统解决方案专家 一、核心特点 防爆设计电气…...

23种设计模式-责任链(Chain of Responsibility)设计模式

责任链设计模式 &#x1f6a9;什么是责任链设计模式&#xff1f;&#x1f6a9;责任链设计模式的特点&#x1f6a9;责任链设计模式的结构&#x1f6a9;责任链设计模式的优缺点&#x1f6a9;责任链设计模式的Java实现&#x1f6a9;代码总结&#x1f6a9;总结 &#x1f6a9;什么是…...

Linux使用集群服务器查看已安装conda环境,且环境名无显示、系统环境混乱等问题

一、问题 在使用集群服务器前可以查看导入&#xff0c;module load不需要安装。我都是自己重新下载Anaconda3-2024.10-1-Linux-x86_64.sh&#xff0c;然后安装&#xff0c;导致混乱。下面是情况 1.创建的环境名跑到目录下了 2.多个base,且有个base无显示 二、解决办法 1.删…...

python蓝桥杯刷题的重难点知识笔记

1、datetime模块 datetime.date&#xff1a;代表日期&#xff0c;包含年、月、日信息。datetime.time&#xff1a;代表时间&#xff0c;包含时、分、秒、微秒信息。datetime.datetime&#xff1a;结合了日期和时间&#xff0c;包含年、月、日、时、分、秒、微秒信息。datetime.…...

Android平台毫秒级低延迟HTTP-FLV直播播放器技术探究与实现

一、前言 在移动互联网蓬勃发展的今天&#xff0c;视频播放功能已成为众多Android应用的核心特性之一。面对多样化的视频格式和传输协议&#xff0c;开发一款高效、稳定的视频播放器是许多开发者追求的目标。FLV&#xff08;Flash Video&#xff09;格式&#xff0c;尽管随着H…...

Redmi Note 11 T pro + 刷入 LinegaOs 22.1 记录 手机已经解锁bl.

Redmi Note 11 T pro 刷入 LinegaOs 22.1 记录 手机已经解锁bl. 获取LIneagaOS源码&#xff0c; 以及https://github.com/xiaomi-mediatek-devs 这个组织提供的代码&#xff0c;非常感谢 环境要求&#xff1a; ubuntu 22.04 需要准备的依赖 sudo apt install git curl vim…...

《Operating System Concepts》阅读笔记:p483-p488

《Operating System Concepts》学习第 40 天&#xff0c;p483-p488 总结&#xff0c;总计 6 页。 一、技术总结 1.object storage (1)object storage 管理软件 Hadoop file system(HDFS)、Ceph。 二、英语总结(生词&#xff1a;1) 1.commodity (1)commodity: com-(“tog…...

极光优化PLO-Transformer-LSTM多变量时序

极光优化算法(PLO)于2024年8月发表于SCI期刊《Neurocomputing》&#xff0c;利用算法极光优化算法PLO优化Transformer-LSTM模型&#xff0c;同时提供与未优化模型的对比&#xff0c;包含柱状图、两张雷达图、二维散点图等等。 &#xff08;一&#xff09;LSTM模型LSTM是一种在时…...

Android开发:基于 Kotlin 协程的设备指令控制工具类设计与实现

在安卓开发中&#xff0c;设备控制是一个常见的需求。本文将介绍如何使用 Kotlin 协程实现一个高效、健壮的设备指令控制工具类。该工具类支持指令队列、重试机制、状态管理等功能&#xff0c;并适配安卓平台&#xff0c;确保生命周期管理和主线程安全性。通过本文&#xff0c;…...

SQL Server 中常见的数据类型及其详细解释、内存占用和适用场景

以下是 SQL Server 中常见的数据类型及其详细解释、内存占用和适用场景&#xff1a; 数据类型类别数据类型解释内存占用适用场景整数类型bigint用于存储范围较大的整数&#xff0c;范围是 -2^63 (-9,223,372,036,854,775,808) 到 2^63-1 (9,223,372,036,854,775,807)8 字节需要…...

Android Kotlin 权限工具类封装:简化动态权限管理

在 Android 开发中&#xff0c;动态权限管理是一个常见的需求&#xff0c;尤其是在高版本 Android 系统中&#xff0c;权限管理变得更加严格和复杂。为了简化权限申请的流程&#xff0c;减少重复代码&#xff0c;本文将介绍如何使用 Kotlin 封装一个高效、易用的权限工具类。 权…...

数据结构每日一题day3(顺序表)★★★★★

题目描述&#xff1a;顺序表L的元素递增有序排列&#xff0c;设计一个算法在插入元素x后保持该顺序表仍然递增有序排列,插入成功后返回插入元素所在位置,不成功返回-1 算法思想&#xff1a;在递增有序的顺序表中插入元素 x 并保持有序性&#xff0c;步骤如下&#xff1a; 合法…...

Git合并删除原理

如果有 A 分支&#xff0c;从 A 分支上新建 B 分支&#xff0c;B 分支做出修改合并到 A 分支&#xff0c;然后删除 B 分支&#xff0c;A 分支还有没有 B 分支修改的内容 关键原理&#xff1a; 合并的本质是提交历史的整合 1. 合并操作会将 B 的修改永久写入 A 的历史 当 …...

Git 是什么

第一步&#xff1a;想象一个场景——写作文的烦恼 假设你在电脑上写一篇作文&#xff0c;反复修改了好几次。突然发现 ​改错了 想回到之前的某版&#xff0c;但你已经覆盖保存了。这时候你可能会想&#xff1a; &#x1f62d; “要是能回到昨天的版本就好了&#xff01;”&a…...

基于javaweb的SpringBoot智能无人仓库管理设计与实现(源码+文档+部署讲解)

技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容&#xff1a;免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论…...

python处理音频相关的库

1 音频信号采集与播放 pyaudio import sys import pyaudio import wave import timeCHUNK 1024 FORMAT pyaudio.paInt16 CHANNELS 1#仅支持单声道 RATE 16000 RECORD_SECONDS 3#更改录音时长#录音函数&#xff0c;生成wav文件 def record(file_name):try:os.close(file_…...

JNI 本地方法调用 Java 静态方法 和 实例方法对比;通过本地方法创建 Java 对象;本地方法访问 Java 数组元素;本地方法错误返回给 Java

以下是针对 Java JNI 的详细代码示例和对比分析&#xff1a; 一、调用 Java 静态方法 vs 实例方法 Java 示例类 public class JNIExample {public static void staticMethod(int value) {System.out.println("Static Method: " value);}public void instanceMetho…...

AWS Lambda 深度解析:构建高效无服务器应用的实战指南

在2025年的云计算生态中&#xff0c;AWS Lambda 作为无服务器计算的代表&#xff0c;以其按需执行、高可扩展性和零运维成本的优势&#xff0c;成为开发者构建现代应用的首选。无论是快速原型开发还是生产级系统&#xff0c;Lambda 都能大幅提升效率。然而&#xff0c;如何充分…...

网络爬虫-2:基础与理论

一.同步加载与异步加载 1.1同步加载定义: 页面所有内容一起加载出来,当某一个数据加载有问题,整个页面就不会加载出来(如HiFiNi音乐网站),所以又叫阻塞模式 1.2爬取步骤: 看netword->document 2.1异步加载定义: 数据是分开加载的,当某一份数据有异常时,不影响其他数据…...

从零构建大语言模型全栈开发指南:第二部分:模型架构设计与实现-2.1.2多头注意力扩展与掩码机制(因果掩码与填充掩码)

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 2.1.2 多头注意力扩展与掩码机制(`因果掩码与填充掩码`)1. 多头注意力机制:分治策略的数学实现1.1 多头注意力核心公式2. 逐行代码实现2.1 多头拆分与合并3. 掩码机制:注意力控制的核心技术3.1 因果…...

Oracle 19C 备份

在 Oracle 19c 中&#xff0c;备份数据库通常使用 RMAN&#xff08;Recovery Manager&#xff09; 工具&#xff0c;它是 Oracle 提供的官方备份和恢复工具。以下是通过 RMAN 备份 Oracle 19c 数据库的详细步骤和命令。 一、RMAN 基本概念 RMAN 是 Oracle 的备份和恢复工具&am…...

[项目]基于FreeRTOS的STM32四轴飞行器: 十一.MPU6050配置与读取

基于FreeRTOS的STM32四轴飞行器: 十一.MPU6050 一.芯片介绍二.配置I2C三.编写驱动四.读取任务的测试五.MPU6050六轴数据的校准 一.芯片介绍 芯片应该放置在PCB中间&#xff0c;X Y轴原点&#xff0c;敏感度131表示范围越小越灵敏。理想状态放置在地面上X&#xff0c;Y&#xf…...

后端学习day1-Spring(八股)--还剩9个没看

一、Spring 1.请你说说Spring的核心是什么 参考答案 Spring框架包含众多模块&#xff0c;如Core、Testing、Data Access、Web Servlet等&#xff0c;其中Core是整个Spring框架的核心模块。Core模块提供了IoC容器、AOP功能、数据绑定、类型转换等一系列的基础功能&#xff0c;…...

【赵渝强老师】在Docker中运行达梦数据库

Docker是一个客户端服务器&#xff08;Client-Server&#xff09;架构。Docker客户端和Docker守护进程交流&#xff0c;而Docker的守护进程是运作Docker的核心&#xff0c;起着非常重要的作用&#xff08;如构建、运行和分发Docker容器等&#xff09;。达梦官方提供了DM 8在Doc…...

Python电影市场特征:AR模型时间序列趋势预测、热图可视化评分影响分析IMDb数据|附数据代码

原文链接&#xff1a;https://tecdat.cn/?p41214 分析师&#xff1a;Zhiheng Lin 在数字时代&#xff0c;电影产业的数据分析已成为洞察市场趋势与用户偏好的重要工具。本专题合集聚焦印度电影市场&#xff0c;通过IMDb数据集&#xff08;IMDb Movies Dataset&#xff09;的深…...