当前位置：首页 > news >正文

【CUDA】CUDA Hierarchy

news 2026/5/23 23:17:46

【CUDA】CUDA 基本概念和 Hierarchy

CUDA 编程基础：Host 和 Device 工作流程

首先简单介绍CUDA 编程的基本概念：讲解 Host（CPU）与 Device（GPU）的区别、内存管理以及 CUDA 运行时的工作机制。

Host（主机） vs. Device（设备）

Host（CPU）：
- 执行通用代码（无需 CUDA 扩展）。
- 使用主板上的 RAM 作为内存。
- 运行标记为 __host__ 的函数。
Device（GPU）：
- 进行高效并行计算。
- 使用 GPU 自带的 VRAM（视频内存、显存）。
- 运行标记为 __global__ 或 __device__ 的函数。

CUDA 程序运行流程

将数据从 Host 复制到 Device：使用 cudaMemcpy 传输输入数据到 GPU 的显存。
加载并执行 CUDA 内核：
- 使用 GPU 并行执行内核函数（__global__）。
- 内核函数处理传入的变量并完成计算。
将结果从 Device 复制回 Host：将处理后的数据从显存复制回主机内存。

CUDA 命名约定

变量命名：
- h_A：Host（CPU）上的变量，例如 A。
- d_A：Device（GPU）上的变量，例如 A。
函数修饰符：
- __global__：GPU 上的内核函数，可以由 CPU 调用。它通常不返回值，而是通过修改传入的变量完成操作，例如矩阵乘法。
- __device__：只能由 GPU 调用，用于在内核函数中执行特定任务。它类似于调用库函数，但只能在 GPU 内部执行。
- __host__：只能在 CPU 上执行，与普通的 C/C++ 函数相似。

CUDA 内存管理

显存分配：使用 cudaMalloc 在显存中分配内存。

float *d_a, *d_b, *d_c;
cudaMalloc(&d_a, N * N * sizeof(float));
cudaMalloc(&d_b, N * N * sizeof(float));
cudaMalloc(&d_c, N * N * sizeof(float));

内存拷贝：使用 cudaMemcpy 在 Host 和 Device 间传输数据：
- Host → Device（CPU → GPU）：cudaMemcpyHostToDevice
- Device → Host（GPU → CPU）：cudaMemcpyDeviceToHost
- Device → Device（GPU 内部或不同 GPU 之间）：cudaMemcpyDeviceToDevice
释放显存：使用 cudaFree 释放分配的显存。
```
cudaFree(d_a);
cudaFree(d_b);
cudaFree(d_c);
```

CUDA 编译器（nvcc）

Host 代码：
- 被修改以支持 CUDA 内核。
- 编译为普通的 x86 二进制。
Device 代码：
- 编译为 PTX（并行线程执行）代码。
- PTX 是跨 GPU 代的稳定中间表示，通过 JIT（即时编译）转为本地 GPU 指令，实现向前兼容。

CUDA 的并行计算模型是基于层次化的线程结构设计的，这种设计为大规模并行计算提供了高效管理线程的方式。以下是 CUDA 的核心层次结构：

层次结构概览

Kernel:
- 定义：CUDA 程序的核心计算函数，运行在 GPU 上。
- 工作方式：通过网格 (Grid) 和块 (Block) 的组织方式来并行化任务。
Thread:
- 定义：GPU 的基本执行单元，每个线程独立运行。
- 特性：每个线程有自己的寄存器和局部内存空间。
Thread Block (Block):
- 定义：线程的逻辑分组，一个 Block 包含若干个线程。
- 重要性：Block 是 CUDA 的调度单元，提供线程间共享的共享内存。
- 限制：每个 Block 中的线程数量有上限，通常是 1024 个线程（具体依赖于 GPU 架构）。
Grid (网格):
- 定义：Block 的逻辑分组，一个 Grid 包含若干个 Block。
- 重要性：通过组织多个 Block 实现大规模并行任务。

CUDA 的工作流

用户定义一个 Kernel 函数，用于描述 GPU 上的计算。
调用时通过 <<<Grid, Block>>> 来指定 Grid 和 Block 的规模。
GPU 硬件会为每个线程分配一个唯一的索引，这些索引用于访问内存和分配任务。

4 个核心术语

这4个变量都是内置变量，由编译器自动提供，供核函数使用。

1. `gridDim` ⇒ 网格的维度

定义：gridDim 定义了 Grid 在每个维度上的 Block 数量。
类型：3D 变量，gridDim.x, gridDim.y, gridDim.z。
用途：决定网格规模，帮助计算全局索引。

示例：

dim3 grid(4, 3);  // 4 个 Block 在 X 方向，3 个 Block 在 Y 方向
printf("Grid dimensions: %d x %d\n", gridDim.x, gridDim.y);

2. `blockIdx` ⇒ Block 的索引

定义：blockIdx 标识当前线程所属 Block 在 Grid 中的索引。
类型：3D 变量，blockIdx.x, blockIdx.y, blockIdx.z。
用途：结合线程索引计算全局索引。
范围：[0, gridDim.{x|y|z} - 1]。

示例：

int block_index = blockIdx.x;  // 当前 Block 在 X 方向的索引

3. `blockDim` ⇒ Block 的维度

定义：blockDim 表示每个 Block 在每个维度上的线程数量。
类型：3D 变量，blockDim.x, blockDim.y, blockDim.z。
用途：用于定义 Block 内线程的局部索引范围。
范围：由 Kernel 配置时的第二个参数决定。

示例：

dim3 block(16, 16);  // 每个 Block 包含 16x16 个线程
printf("Block dimensions: %d x %d\n", blockDim.x, blockDim.y);

4. `threadIdx` ⇒ 线程的索引

定义：threadIdx 表示当前线程在所在 Block 中的索引。
类型：3D 变量，threadIdx.x, threadIdx.y, threadIdx.z。
用途：配合 blockIdx 和 blockDim 计算全局线程索引。
范围：[0, blockDim.{x|y|z} - 1]。

示例：

int thread_index = threadIdx.x;  // 当前线程在 X 方向的索引

可以网格是由多个小长方体(block)组成的一个大长方体（grid），其中小长方体又是由多个更小的长方体（thread)组成。

线程束 (Warp)

定义

线程束（Warp） 是 CUDA 调度的基本单元，每个 Warp 包含 32 个线程。
Warp 内的线程以 SIMD（单指令多数据） 模式运行：所有线程执行相同指令，但操作的数据可以不同。

线程束的特性

执行同步：
- 一个 Warp 内的所有线程在同一个时钟周期内执行同一条指令。
线程束分歧 (Warp Divergence)：
- 如果 Warp 内的线程需要执行不同的分支（例如 if/else），Warp 会被拆分成多个子任务，依次完成分支，导致性能下降。
调度单位：
- Warp 是 CUDA 的硬件调度单位。一个 Block 中的线程数量如果不是 32 的倍数，会浪费部分调度资源。完整代码示例

实例

#include <stdio.h>__global__ void Whoami(void){int block_id = blockIdx.x + blockIdx.y * gridDim.x +blockIdx.z * gridDim.x * gridDim.y;int block_offset = block_id * blockDim.x * blockDim.y * blockDim.z;int thread_offset = threadIdx.x + threadIdx.y * blockDim.x +threadIdx.z * blockDim.x * blockDim.y;int id = block_offset + thread_offset;printf("%04d | Block(%d %d %d) = %3d | Thread(%d %d %d) = %3d\n",id, blockIdx.x, blockIdx.y, blockIdx.z, block_id,threadIdx.x, threadIdx.y, threadIdx.z, thread_offset);
}int main(int argc,char** argv){const int b_x = 2, b_y = 3, b_z = 4;const int t_x = 4, t_y = 4, t_z = 4;int blocks_per_grid = b_x * b_y * b_z;int threads_per_block = t_x * t_y * t_z;printf("%d block/grid\n", blocks_per_grid);printf("%d threads/block\n", threads_per_block);printf("%d total threads\n", blocks_per_grid * threads_per_block);dim3 blocksPerGrid(b_x, b_y, b_z);dim3 threadsPerBlock(t_x, t_y, t_z);Whoami<<<blocksPerGrid, threadsPerBlock>>>();cudaDeviceSynchronize();return 0;
}

这段代码展示了如何使用 gridDim、blockIdx、blockDim 和 threadIdx 来理解grid，block，thread的层级结构。通过输出你也会看到线程束 (Warp)的表现，block中的线程按32分为了两部分，所以同一个block的输出被分为了两部分。

参考：https://github.com/Infatoshi/cuda-course/tree/master/05_Writing_your_First_Kernels

【CUDA】CUDA Hierarchy

【CUDA】CUDA 基本概念和 Hierarchy CUDA 编程基础：Host 和 Device 工作流程首先简单介绍CUDA 编程的基本概念：讲解 Host（CPU）与 Device（GPU）的区别、内存管理以及 CUDA 运行时的工作机制。 Host&#x…...

编程日记 2024/12/4 15:38:48

28.100ASK_T113-PRO Linux+QT 显示一张照片

1.添加资源文件 2. 主要代码 #include "mainwindow.h" #include "ui_mainwindow.h" #include <QImage> #include <QPixmap>MainWindow::MainWindow(QWidget *parent) :QMainWindow(parent),ui(new Ui::MainWindow) {ui->setupUi(this);QIm…...

编程日记 2024/12/4 15:35:44

GitLab使用中遇到的一些问题-记录

错误内容一 Warning: Permanently added gitlab.com (ED25519) to the list of known hosts. gitgitlab.com: Permission denied (publickey). Could not read from remote repository. Please make sure you have the correct access rights and the repository exists. …...

编程日记 2024/12/4 15:33:41

【微服务】Docker

一、Docker基础 1、依赖的兼容问题：Docker允许开发中将应用、依赖、函数库、配置一起打包，形成可移植镜像Docker应用运行在容器中，使用沙箱机制，相互隔离。 2、如何解决开发、测试、生产环境有差异的问题：Docker镜像…...

编程日记 2024/12/4 15:31:39

【C#】书籍信息的添加、修改、查询、删除

文章目录一、简介二、程序功能2.1 Book类属性：方法： 2.2 Program 类三、方法：四、用户界面流程：五、程序代码六、运行效果一、简介简单的C#控制台应用程序，用于管理书籍信息。这个程序将允许用户添加、编辑、查看…...

编程日记 2024/12/4 15:27:34

Python 入门教程（2）搭建环境 | 2.4、VSCode配置Node.js运行环境

文章目录一、VSCode配置Node.js运行环境1、软件安装2、安装Node.js插件3、配置VSCode4、创建并运行Node.js文件5、调试Node.js代码一、VSCode配置Node.js运行环境 1、软件安装安装下面的软件： 安装Node.js：Node.js官网下载Node.js安装包。建议选择L…...

编程日记 2024/12/4 15:26:33

Spark常问面试题---项目总结

一、数据清洗，你都清洗什么？或者说 ETL 你是怎么做的？ 我在这个项目主要清洗的式日志数据，日志数据传过来的json格式去除掉无用的字段，过滤掉json格式不正确的脏数据过滤清洗掉日志中缺少关键字段的数据&#xff…...

编程日记 2024/12/4 15:25:32

【AI系统】Auto-Tuning 原理

Auto-Tuning 原理在硬件平台驱动算子运行需要使用各种优化方式来提高性能，然而传统的手工编写算子库面临各种窘境，衍生出了自动生成高性能算子的的方式，称为自动调优。在本文我们首先分析传统算子库面临的挑战，之后介绍基于 TVM…...

编程日记 2024/12/4 15:22:27

AMEYA360：上海永铭电子全新高压牛角型铝电解电容IDC3系列，助力AI服务器电源高效运转

随着数据中心和云计算的高速发展，AI服务器的能效要求日益提高。如何在有限空间内实现更高的功率密度和稳定的电源管理，成为AI服务器电源设计的一大挑战。永铭推出全新高压牛角型铝电解电容IDC3系列，以大容量、小尺寸的创新特性，为…...

编程日记 2024/12/4 15:21:25

echarts地图立体效果,echarts地图点击事件,echarts地图自定义自定义tooltip

一.地图立体效果方法1:两层地图叠加实现原理:geo数组中放入两个地图对象,通过修改zlevel属性以及top,left,right,bottom形成视觉差配置项参考如下代码: geo: [{zlevel: 2,top: 96,map: map,itemStyle: {color: #091A51ee,opacity: 1,borderWidth: 2,borderColor: #16BAFA…...

编程日记 2024/12/4 15:20:24

什么是 Socket？

Socket（套接字）是计算机网络编程中的一个重要概念，它用于在不同计算机之间进行通信。Socket 提供了一种机制，使得应用程序可以通过网络发送和接收数据。Socket 通信通常基于 TCP/IP 协议，但也可以使用其他协议&#xf…...

编程日记 2024/12/4 15:17:22

【版本控制】SVN安装到使用一条路讲解

文章目录安装使用 Subversion (SVN) 是一款集中式版本控制系统，广泛应用于团队协作和代码管理中。尽管随着 Git 的兴起，集中式版本控制逐渐被分布式工具取代，但 SVN 仍在许多企业项目中发挥着重要作用。它的简单、稳定和易用特性&#xff0c…...

编程日记 2024/12/4 15:14:18

KVCKVO

KVC KVC意思是键值编码，是一种可以通过键名来访问对象属性的机制，也可以对属性进行赋值，包括私有属性，由于KVC的定义是对OC中的NSObject的扩展进行实现的，所以如果要使用KVC机制，那么这个类需要继承NSObje…...

编程日记 2024/12/4 15:13:15

PyQt设计界面优化 #qss #ui设计 #QMainWindow

思维导图通过qss实现ui界面设计优化 Qss是Qt程序界面中用来设置控件的背景图片、大小、字体颜色、字体类型、按钮状态变化等属性，它是用来美化UI界面。实现界面和程序的分离，快速切换界面。首先我们在Pytchram创建一个新目录然后将我们所需要的图片打…...

编程日记 2024/12/4 15:12:13

Qt Serial Bus 前置介绍篇

文章目录 Qt Serial Bus 简介前言什么是 Qt Serial Bus？Qt Serial Bus 的核心功能支持的协议1. **CAN 总线**2. **Modbus**3. **自定义协议** 应用场景优势总结 Qt Serial Bus 简介前言 Qt Serial Bus 是 Qt 框架中的一个模块，用于与工业设备和嵌入式…...

编程日记 2024/12/4 15:10:11

12.2深度学习_项目实战

十、项目实战鲍勃开了自己的手机公司。他想与苹果、三星等大公司展开硬仗。他不知道如何估算自己公司生产的手机的价格。在这个竞争激烈的手机市场，你不能简单地假设事情。为了解决这个问题，他收集了各个公司的手机销售数据。鲍勃想找出手机的特性(例…...

编程日记 2024/12/4 15:07:03

LeetCode 64. 最小路径和(HOT100)

第一次错误代码： class Solution { public:int minPathSum(vector<vector<int>>& grid) {int dp[205][205] {0};int m grid.size(),n grid[0].size();for(int i 1 ;i<m;i){for(int j 1;j<n;j){dp[i][j] min(dp[i][j-1],dp[i-1][j])gr…...

编程日记 2024/12/4 15:06:01

ESP8266作为TCP客户端或者服务器使用

ESP8266模块，STA模式（与手机搭建TCP通讯，EPS8266为服务端）_esp8266作为station-CSDN博客 ESP8266模块，STA模式（与电脑搭建TCP通讯，ESP8266 为客户端）_esp8266 sta 连接tcp-CSDN博客…...

编程日记 2024/12/4 15:02:56

C#结合.NET框架快速构建和部署AI应用

在人工智能（AI）的浪潮中，C#作为一种功能强大且类型安全的编程语言，为AI工程开发提供了坚实的基础。C#结合.NET框架，使得开发者能够快速构建和部署AI应用。本文将通过一个简单的实例，展示如何使用C#进行AI工…...

编程日记 2024/12/4 15:01:53

题外话 (火影密令)

哥们！ 玩火影不！ 村里人全部评论！ 不评论的忍战李全保底！ 哥们！ 密令领了不！ “1219村里人集合”领了吗！ 100金币！ 哥们！ 我粉丝没人能上影！ 老舅说的…...

编程日记 2024/12/4 15:00:52

Unity C#不是编程语言，而是与引擎对话的指令系统

1. 这不是“学编程”，而是重新建立你和计算机对话的语法体系很多人点开这个标题，心里想的是：“不就是写几行代码嘛，网上教程多的是。”我带过三十多个零基础学员做 Unity 小项目，其中超过 21 人卡在同一个地方——不是…...

编程新知 2026/5/23 23:02:05

从零打造 AI 小说创作平台（四）：项目与章节管理

从零打造 AI 小说创作平台（四）：项目与章节管理系列：从零打造 AI 小说创作平台 NovelForge 篇章：第 4 篇 / 共 10 篇关键词：CRUD、自动保存、软删除、章节排序、字数统计前言项目管理是连接用户认证和 AI 创作流水线的桥梁。这个模块看似简单（就是 CRUD），但有几个…...

编程新知 2026/5/23 22:19:30

专业级EdgeRemover配置指南：5种高效部署方案深度解析

专业级EdgeRemover配置指南：5种高效部署方案深度解析【免费下载链接】EdgeRemover A PowerShell script that correctly uninstalls or reinstalls Microsoft Edge on Windows 10 & 11. 项目地址: https://gitcode.com/gh_mirrors/ed/EdgeRemover EdgeR…...

编程新知 2026/5/23 22:06:20

联发科MT6833与MT6853 5G核心板：规格对比与产品选型实战指南

1. 项目概述：两款5G安卓核心板的定位与价值在当前的移动设备开发领域，尤其是面向中高端市场的智能手机、平板电脑以及各类智能终端，选择一颗性能强劲、功能集成度高且成本可控的核心处理器平台，是决定产品成败的关键。联发科&…...

编程新知 2026/5/23 20:51:46

第 3 篇：让 Agent 学会分工，LangGraph 构建多 Agent系统

系列简介：从零搭建一个多 Agent AI 助手，覆盖原理、实现、部署全链路。不讲空话，每篇都有可运行的代码。项目地址：https://github.com/CodeMomentYY/LangGraph-Agent 本篇目标：用 LangGraph 搭建一个多 Agent 协作系统…...

编程新知 2026/5/23 19:58:33

微信小程序wxapkg解密与AES密钥还原技术解析

1. 这不是“黑产教程”，而是一次面向安全研究者的合规技术复盘 “微信小程序逆向”这六个字，在很多开发者听来带着天然的警觉感——它常被误读为“破解他人代码”“窃取商业逻辑”甚至“绕过支付”。但真实情况恰恰相反：在合法授权前提下&…...

编程新知 2026/5/23 18:14:49

《信息学奥赛一本通编程启蒙C++版》适合小学生学习吗

‌适合小学生学习，尤其适合小学低年级作为C启蒙入门使用‌，可以按照以下方式安排阅读学习： 一、适配性说明这本书是专门针对低龄学习者设计的C编程启蒙内容，整体难度较低、循序渐进： 1、对于小学1-4年级的孩子&#x…...

编程新知 2026/5/23 18:06:24

Android Framework 1

Android Framework 1环境准备Ubuntu 环境配置下载安卓源码编译源码Android Studio 环境编译环境准备 VMware WorkStation Pro 17.6.4 Ubuntu 20.04 安卓源码官方地址 Ubuntu 环境配置 1.安装必须的软件包 sudo apt-get install git-core gnupg flex bison build-essential …...

编程新知 2026/5/23 16:48:32

WSA Toolbox：Windows 11上一键安装Android应用的智能解决方案

WSA Toolbox：Windows 11上一键安装Android应用的智能解决方案【免费下载链接】wsa-toolbox A Windows 11 application to easily install and use the Windows Subsystem For Android™ package on your computer. 项目地址: https://gitcode.com/gh_mirrors/ws/…...

编程新知 2026/5/23 13:22:47

M3U8下载器终极指南：三步搞定加密视频下载，告别在线观看限制！

M3U8下载器终极指南：三步搞定加密视频下载，告别在线观看限制！ 【免费下载链接】m3u8-downloader 一个M3U8 视频下载(M3U8 downloader)工具。跨平台: 提供windows、linux、mac三大平台可执行文件,方便直接使用。项目地址: https://gitcode…...

编程新知 2026/5/23 13:04:45