当前位置: 首页 > article >正文

CUDA学习笔记

CUDA入门笔记

总览

CUDA是NVIDIA公司对其GPU产品提供的一个编程模型,在2006年提出,近年随着深度学习的广泛应用,CUDA已成为针对加速深度学习算法的并行计算工具
以下是维基百科的定义:一种专有的并行计算平台应用程序编程接口(API),它允许软件使用某些类型的图形处理单元(gpu)来加速通用处理,这种方法称为gpu上的通用计算。
在这里插入图片描述

CPU+GPU的异构编程模型

现在的计算平台往往是一块CPU + 多块GPU共同搭建而成,CPU称为host端(主机端),GPU称为device端(设备端)
CPU和GPU之间通信需要通过PCIe总线(GPU之间通信通过PCIe或者是NVLink)
在这里插入图片描述
GPU在硬件设计上包含大量的计算单元(ALU),CPU包含相对较少的计算单元,这就天然的导致GPU适合计算密集型任务,CPU适合逻辑复杂型任务,可见,CPU与GPU适合不同的任务,特性上比较互补。
对于一个典型的CUDA程序,执行流程逻辑上可以分为:

  • 分配host内存,并进行数据初始化;
  • 分配device内存,并从host将数据拷贝到device上;
  • 调用CUDA的核函数在device上完成指定的运算;
  • 将device上的运算结果拷贝到host上;
  • 释放device和host上分配的内存;

以下是一个简单的CUDA程序实例:

#include <cuda_runtime.h>
#include <iostream>// 核函数:在GPU上运行,每个线程执行一次加法运算
__global__ void vectorAdd(const float *A, const float *B, float *C, int N) {int i = blockIdx.x * blockDim.x + threadIdx.x;  // 计算全局线程索引if (i < N) {C[i] = A[i] + B[i];}
}int main() {// 定义向量长度int N = 1024;size_t size = N * sizeof(float);// 在host(CPU)上分配内存float *h_A = (float *)malloc(size);float *h_B = (float *)malloc(size);float *h_C = (float *)malloc(size);// 初始化host端数据for (int i = 0; i < N; ++i) {h_A[i] = i;h_B[i] = i * 2;}// 在device(GPU)上分配内存float *d_A, *d_B, *d_C;cudaMalloc((void **)&d_A, size);cudaMalloc((void **)&d_B, size);cudaMalloc((void **)&d_C, size);// 将数据从host复制到devicecudaMemcpy(d_A, h_A, size, cudaMemcpyHostToDevice);cudaMemcpy(d_B, h_B, size, cudaMemcpyHostToDevice);// 定义线程块和线程网格的大小int threadsPerBlock = 256;int blocksPerGrid = (N + threadsPerBlock - 1) / threadsPerBlock;// 调用核函数(在GPU上执行)vectorAdd<<<blocksPerGrid, threadsPerBlock>>>(d_A, d_B, d_C, N);// 将结果从device复制回hostcudaMemcpy(h_C, d_C, size, cudaMemcpyDeviceToHost);// 简单验证结果for (int i = 0; i < 10; ++i) {std::cout << "C[" << i << "] = " << h_C[i] << std::endl;}// 释放device内存cudaFree(d_A);cudaFree(d_B);cudaFree(d_C);// 释放host内存free(h_A);free(h_B);free(h_C);return 0;
}

程序中vectorAdd函数(这个函数也可以叫算子,kernel)使用__global__符号声明,这个符号是用来区分host端和device端代码的,CUDA编程中常见的三种标识符号是:
_global_: 说明该函数(kernel)在device上执行,在host端调用;
_device_:说明该函数在device上执行,在device端调用;
_host_:在host端执行和调用,一般省略不写;

CUDA编程核心概念

CUDA 编程中,kernel 是在 GPU 上执行的函数,每个 kernel 通常会启动成千上万个线程来并行执行任务。
在 GPU 中,一个算子由多个线程组成,这些线程会被组织成一个网格(grid),网格由多个线程块(block) 组成,而每个线程块又包含多个线程(thread)。整个结构如下:
在这里插入图片描述
注:网格和线程块只是逻辑划分,在物理层并没有这些概念
我们来看一下GPU A100的硬件架构图:
在这里插入图片描述
可见A100由108个SM(Streaming Multiprocessor,流式多处理器)构成,SM结构如下:
在这里插入图片描述
这里面各个部件可以自行百度学习一下,CUDA编程需要对硬件实现有一个基本的认识。
在逻辑层面上,每个线程有自己的私有本地内存(Local Memory),而每个线程块有包含共享内存(Shared Memory),可以被线程块中所有线程共享,其生命周期与线程块一致。此外,所有的线程都可以访问全局内存(Global Memory),如下图:
在这里插入图片描述
一个算子的执行会启动多个线程,这些线程逻辑上并行执行,但是物理层并不一定并行,当一个算子执行时,它的gird中的一个block会被分配到具体的一个SM上(一个block只能分配到一个SM,但一个SM可以执行调度多个block),SM采用SIMT (Single-Instruction, Multiple-Thread,单指令多线程)架构,基本的执行单元是线程束(warps),线程束包含32个线程,这些线程同时执行相同的指令。当线程块被划分到某个SM上时,它将进一步划分为多个线程束,因为这才是SM的基本执行单元,但是一个SM同时并发的线程束数是有限的。
一个SM能支持多少线程块和并发线程束呢?
取决于SM的资源:SM要为每个线程块分配共享内存,而也要为每个线程束中的线程分配独立的寄存器。

总结:

  • 网格和线程块只是逻辑划分,一个kernel的所有线程其实在物理层是不一定同时并发的。
  • kernel的grid和block的配置不同,性能会出现差异
  • 网格grid中的一个线程块block会被具体的分配到一个SM中
  • SM中的基本执行单元是warp线程束,线程束包含32个线程,采用SIMT架构
  • 线程块block分配到SM上后,可能会被划分多个warps,然后并行执行,所以block大小一般要设置为32的倍数

CUDA编程的逻辑层(左,软件层)和物理层(硬件层):
CUDA编程的逻辑层和物理层

参考

知乎小小将:CUDA编程入门极简教程
Github:LeetCUDA

相关文章:

CUDA学习笔记

CUDA入门笔记 总览 CUDA是NVIDIA公司对其GPU产品提供的一个编程模型&#xff0c;在2006年提出&#xff0c;近年随着深度学习的广泛应用&#xff0c;CUDA已成为针对加速深度学习算法的并行计算工具。 以下是维基百科的定义&#xff1a;一种专有的并行计算平台和应用程序编程接…...

Python爬虫实战:研究JavaScript压缩方法实现逆向解密

一、引言 在数字化信息爆炸的时代,网络数据已成为驱动各行业发展的核心资产。Python 凭借其丰富的库生态和简洁的语法,成为网络爬虫开发的首选语言。然而,随着互联网安全防护机制的不断升级,网站普遍采用 JavaScript 压缩与混淆技术保护其核心逻辑和数据传输,这使得传统爬…...

【Linux】Shell脚本中向文件中写日志,以及日志文件大小、数量管理

1、写日志 shell脚本中使用echo命令,将字符串输入到文件中 覆盖写入:echo “Hello, World!” > laoer.log ,如果文件不存在,则会创建文件追加写入:echo “Hello, World!” >> laoer.log转移字符:echo -e “Name:\tlaoer\nAge:\t18” > laoer.log,\t制表符 …...

c++ 类的语法3

测试下默认构造函数。demo1&#xff1a; void testClass3() {class Demo { // 没显示提供默认构造函数&#xff0c;会有默认构造函数。public:int x; // 普通成员变量&#xff0c;可默认构造};Demo demo1;//cout << "demo1.x: " << demo1.x << en…...

Rust 学习笔记:关于 String 的练习题

Rust 学习笔记&#xff1a;关于 String 的练习题 Rust 学习笔记&#xff1a;关于 String 的练习题选出描述正确的那一个。该程序最多可能发生多少次堆的内存分配&#xff1f;哪种说法最能解释为什么 Rust 不允许字符串索引&#xff1f;哪种说法最能描述字符串切片 &str 和字…...

Spring bean 的生命周期、注入方式和作用域

一、Spring Bean的生命周期 Spring Bean的生命周期是指从Bean的定义加载到最终销毁的整个过程&#xff0c;Spring框架在每个阶段都提供了钩子方法&#xff0c;允许开发者在特定时机执行自定义逻辑。 1. Bean定义加载阶段 容器启动时加载配置(XML/注解/JavaConfig)&#xff0…...

Python爬虫(26)Python爬虫高阶:Scrapy+Selenium分布式动态爬虫架构实践

目录 一、背景&#xff1a;动态爬虫的工程化挑战二、技术架构设计1. 系统架构图2. 核心组件交互 三、环境准备与项目搭建1. 安装依赖库2. 项目结构 四、核心模块实现1. Selenium集成到Scrapy&#xff08;中间件开发&#xff09;2. 分布式配置&#xff08;settings.py&#xff0…...

Python 之类型注解

类型注解允许开发者显式地声明变量、函数参数和返回值的类型。但是加不加注解对于程序的运行没任何影响&#xff08;是非强制的&#xff0c;且类型注解不影响运行时行为&#xff09;&#xff0c;属于 有了挺好&#xff0c;没有也行。但是大型项目按照规范添加注解的话&#xff…...

【linux】Web服务—搭建nginx+ssl的加密认证web服务器

准备工作 步骤&#xff1a; 一、 新建存储网站数据文件的目录 二、创建一个该目录下的默认页面&#xff0c;index.html 三、使用算法进行加密 四、制作证书 五、编辑配置文件&#xff0c;可以选择修改主配置文件&#xff0c;但是不建议 原因如下&#xff1a; 自定义一个配置文…...

基于HTTP头部字段的SQL注入:SQLi-labs第17-20关

前置知识&#xff1a;HTTP头部介绍 HTTP&#xff08;超文本传输协议&#xff09;头部&#xff08;Headers&#xff09;是客户端和服务器在通信时传递的元数据&#xff0c;用于控制请求和响应的行为、传递附加信息或定义内容类型等。它们分为请求头&#xff08;Request Headers&…...

实战解析MCP-使用本地的Qwen-2.5模型-AI协议的未来?

文章目录 目录 文章目录 前言 一、MCP是什么&#xff1f; 1.1MCP定义 1.2工作原理 二、为什么要MCP&#xff1f; 2.1 打破碎片化的困局 2.2 实时双向通信&#xff0c;提升交互效率 2.3 提高安全性与数据隐私保护 三、MCP 与 LangChain 的区别 3.1 目标定位不同 3.…...

SRS流媒体服务器(5)源码分析之RTMP握手

1.概述 学习 RTMP 握手逻辑前&#xff0c;需明确两个核心问题&#xff1a; rtmp协议连接流程阶段rtmp简单握手和复杂握手区别 具体可以学习往期博客&#xff1a; RTMP协议分析_rtmp与264的关系-CSDN博客 2.rtmp握手源码分析 2.1 握手入口 根据SRS流媒体服务器(4)可知&am…...

内核性能测试(60s不丢包性能)

以xGAP-200-SE7K-L&#xff08;双口10G&#xff09;在飞腾D2000上为例&#xff08;单通道最高性能约2.8Gbps) 单口测试 0口&#xff1a; tcp&#xff1a; taskset -c 4 iperf -c 1.1.1.1 -i 1 -t 60 -p 60001 taskset -c 4 iperf -s -i 1 -p 60001 udp&#xff1a; taskse…...

RabbitMQ高级篇-MQ的可靠性

目录 MQ的可靠性 1.如何设置数据持久化 1.1.交换机持久化 1.2.队列持久化 1.3.消息持久化 2.消息持久化 队列持久化&#xff1a; 消息持久化&#xff1a; 3.非消息持久化 非持久化队列&#xff1a; 非持久化消息&#xff1a; 4.消息的存储机制 4.1持久化消息&…...

MySQL 数据库集群部署、性能优化及高可用架构设计

MySQL 数据库集群部署、性能优化及高可用架构设计 集群部署方案 1. 主从复制架构 传统主从复制&#xff1a;配置一个主库(Master)和多个从库(Slave)GTID复制&#xff1a;基于全局事务标识符的复制&#xff0c;简化故障转移半同步复制&#xff1a;确保至少一个从库接收到数据…...

fpga系列 HDL : Microchip FPGA开发软件 Libero Soc 项目仿真示例

新建项目 项目初始界面中创建或导入设计文件&#xff1a; 新建HDL文件 module test (input [3:0] a,input [3:0] b,output reg [3:0] sum,output reg carry_out );always (*) begin{carry_out, sum} a b; endendmodule点击此按钮可进行项目信息的重新…...

将单链表反转【数据结构练习题】

- 第 98 篇 - Date: 2025 - 05 - 16 Author: 郑龙浩/仟墨 反转单链表(出现频率非常的高) 文章目录 反转单链表(出现频率非常的高)题目&#xff1a;反转一个链表思路&#xff1a;代码实现(第3种思路): 题目&#xff1a;反转一个链表 将 1->2->3->4->5->NULL反转…...

DeepSearch:WebThinker开启AI搜索研究新纪元!

1&#xff0c;项目简介 WebThinker 是一个深度研究智能体&#xff0c;使 LRMs 能够在推理过程中自主搜索网络、导航网页&#xff0c;并撰写研究报告。这种技术的目标是革命性的&#xff1a;让用户通过简单的查询就能在互联网的海量信息中进行深度搜索、挖掘和整合&#xff0c;从…...

springCloud/Alibaba常用中间件之Setinel实现熔断降级

文章目录 SpringCloud Alibaba:依赖版本补充Sentinel:1、下载-运行&#xff1a;Sentinel(1.8.6)下载sentinel&#xff1a;运行&#xff1a;Sentinel <br> 2、流控规则① 公共的测试代码以及需要使用的测试Jmeter①、流控模式1. 直接:2. 并联:3. 链路: ②、流控效果1. 快速…...

从裸机开发到实时操作系统:FreeRTOS详解与实战指南

从裸机开发到实时操作系统&#xff1a;FreeRTOS详解与实战指南 本文将带你从零开始&#xff0c;深入理解嵌入式系统中的裸机开发与实时操作系统&#xff0c;以FreeRTOS为例&#xff0c;全面剖析其核心概念、工作原理及应用场景。无论你是嵌入式新手还是希望提升技能的开发者&am…...

Deeper and Wider Siamese Networks for Real-Time Visual Tracking

现象&#xff1a; the backbone networks used in Siamese trackers are relatively shallow, such as AlexNet , which does not fully take advantage of the capability of modern deep neural networks. direct replacement of backbones with existing powerful archite…...

简单介绍C++中线性代数运算库Eigen

Eigen 是一个高性能的 C 模板库&#xff0c;专注于线性代数、矩阵和向量运算&#xff0c;广泛应用于科学计算、机器学习和计算机视觉等领域。以下是对 Eigen 库的详细介绍&#xff1a; 1. 概述 核心功能&#xff1a;支持矩阵、向量运算&#xff0c;包括基本算术、矩阵分解&…...

Python爬虫实战:研究decrypt()方法解密

1. 引言 1.1 研究背景与意义 在当今数字化时代,网络数据蕴含着巨大的价值。然而,许多网站为了保护其数据安全和商业利益,会采用各种加密手段对传输的数据进行处理。这些加密措施给数据采集工作带来了巨大挑战。网络爬虫逆向解密技术应运而生,它通过分析和破解网站的加密机…...

黑马程序员C++2024版笔记 第0章 C++入门

1.C代码的基础结构 以hello_world代码为例&#xff1a; 预处理指令 #include<iostream> using namespace std; 代码前2行是预处理指令&#xff0c;即代码编译前的准备工作。&#xff08;编译是将源代码转化为可执行程序.exe文件的过程&#xff09; 主函数 主函数是…...

c#定义占用固定字节长度的结构体字段

在c中&#xff0c;经常类似这样定义结构体&#xff1a; struct DEMO_STRUCT {int a;int b;char c[128]; }; 定义这个结构体&#xff0c;占用了136个字节的内存空间&#xff0c;关键的是&#xff0c;它的内存块是连续的&#xff0c;其中c占用了128个字节 然后如果想在c#中定义…...

foxmail - foxmail 启用超大附件提示密码与帐号不匹配

foxmail 启用超大附件提示密码与帐号不匹配 问题描述 在 foxmail 客户端中&#xff0c;启用超大附件功能&#xff0c;输入了正确的账号&#xff08;邮箱&#xff09;与密码&#xff0c;但是提示密码与帐号不匹配 处理策略 找到 foxmail 客户端目录/Global 目录下的 domain.i…...

Crowdfund Insider聚焦:CertiK联创顾荣辉解析Web3.0创新与安全平衡之术

近日&#xff0c;权威金融科技媒体Crowdfund Insider发布报道&#xff0c;聚焦CertiK联合创始人兼CEO顾荣辉教授在Unchained Summit的主题演讲。报道指出&#xff0c;顾教授的观点揭示了Web3.0生态当前面临的挑战&#xff0c;以及合规与技术在推动行业可持续发展中的关键作用。…...

EDR与XDR如何选择适合您的网络安全解决方案

1. 什么是EDR&#xff1f; 端点检测与响应&#xff08;EDR&#xff09; 专注于保护端点设备&#xff08;如电脑、服务器、移动设备&#xff09;。通过在端点安装代理软件&#xff0c;EDR实时监控设备活动&#xff0c;检测威胁并快速响应。 EDR核心功能 实时监控&#xff1a;…...

PowerBI链接EXCEL实现自动化报表

PowerBI链接EXCEL实现自动化报表 曾经我将工作中一天的工作缩短至2个小时&#xff0c;其中最关键的一步就是使用PowerBI链接Excel做成一个自动化报表&#xff0c;PowerBI更新源数据&#xff0c;Excel更新报表并且保留报表格式。 以制作一个超市销售报表为例&#xff0c;简单叙…...

腾讯云MCP数据智能处理:简化数据探索与分析的全流程指南

引言 在当今数据驱动的商业环境中&#xff0c;企业面临着海量数据处理和分析的挑战。腾讯云MCP(Managed Cloud Platform)提供的数据智能处理解决方案&#xff0c;为数据科学家和分析师提供了强大的工具集&#xff0c;能够显著简化数据探索、分析流程&#xff0c;并增强数据科学…...