在Visual Studio中进行cuda编程
首先下载与CUDA Toolkit匹配的Visual Studio版本
比如我的CUDA Toolkit版本是12.6,那么我可以使用2022的Visual Studio。
查看Toolkit版本
nvcc -V
配置
ok,让我们开始Visual Studio的nvcc编译器配置
参考例文https://github.com/apachecn/succinctly-zh/blob/master/docs/cuda/02.md
(1)头文件包含
这里的路径可以使用如下命令查看
where nvcc
(2)语法颜色
这样可将CU文件的语法颜色同cpp文件
测试
文件结构
//main.cppextern "C" void run_CUDA();int main() {run_CUDA();return 0;
}
//jaxsolver.cu#include <iostream>
#include <cuda.h> // Main CUDA header
#include <curand_kernel.h>
#include <curand.h>#define N 256__global__ void VecAdd(float* A, float* B, float* C) {int i = threadIdx.x;if (i < N) {C[i] = A[i] + B[i];}
}extern "C" int run_CUDA() {float* h_A, * h_B, * h_C;float* d_A, * d_B, * d_C;size_t size = N * sizeof(float);// 分配主机内存h_A = (float*)malloc(size);h_B = (float*)malloc(size);h_C = (float*)malloc(size);// 初始化主机数据for (int i = 0; i < N; i++) {h_A[i] = i;h_B[i] = i * 2;}// 分配设备内存cudaMalloc((void**)&d_A, size);cudaMalloc((void**)&d_B, size);cudaMalloc((void**)&d_C, size);// 拷贝数据到设备cudaMemcpy(d_A, h_A, size, cudaMemcpyHostToDevice);cudaMemcpy(d_B, h_B, size, cudaMemcpyHostToDevice);// 调用核函数VecAdd <<<1, N >>> (d_A, d_B, d_C);// 拷贝结果回主机cudaMemcpy(h_C, d_C, size, cudaMemcpyDeviceToHost);// 输出部分结果for (int i = 0; i < 10; i++) {std::cout << h_A[i] << " + " << h_B[i] << " = " << h_C[i] << std::endl;}// 清理cudaFree(d_A);cudaFree(d_B);cudaFree(d_C);free(h_A);free(h_B);free(h_C);return 0;
}
会显示<<<>>>表达 不能识别,但是可以编译
如果不使用extern "C",而是直接使用#include "JaxSolver.cu"中的函数,Visual Studio的C++的编译器会编译cu导致报错,这时会引发错误。
但当我们使用头文件,就不会编译出错误:
将文件结构修改为
//cudaInterface.hint run_CUDA();
//main.cpp#include "cudaInterface.h"int main() {run_CUDA();return 0;
}
这样也可以成功进行编译
那么为什么可以使用头文件的方式进行编译,而不使用头文件则不可行呢?这就要从编译的四个流程讲起:
对于本文的例子,不使用头文件,在预处理阶段会把include<.cu>的内容直接插入cpp文件,然后接下来进入编译阶段的时候,由于使用的是C++的编译器,CUDA语法是不存在的,所以会产生错误而导致编译过程不会进行。
而如果使用了头文件,在预处理阶段插入的是int run_CUDA();,在编译阶段,并没有C++编译器所不能“识别”的语法,编译和汇编的过程就能顺利执行。在链接阶段,nvcc编译器所编译出的.o会与C++编译的共同形成可执行文件。
下面写一下简单写一下nvcc编译的原理
nvcc编译原理
对于整个的编译过程而言,.cu文件会使用nvcc编译器编译,.cpp文件会使用cpp的编译器编译
对于nvcc编译的过程而言,这个编译器到底干了一件什么事?
nvcc编译器本质是一个元编译器,意思是管理各种编译器的编译器。原理是:将CUDA的特定函数,如Kernel函数,也就是本例中的VecAdd,通过__global__ 等关键字“识别”,使用ptxas编译器编译,而其他不能识别出来的则交给系统的C++编译器来编译。
Kernel函数与其他函数不同的是,它使用GPU执行该函数。
本例中Kernel函数的索引int i = threadIdx.x; 形成1个Block中的N个线程 <<<1, N >>>,该Block通过CUDA调度器调度到硬件层。
也可以形成多个Block,有什么需要注意的,这就不再展开。
多说一句
nvcc使用的是C++编译器,而不是C编译器,所以cpp文件可以通过头文件调用cu文件,而c文件不能调用。
所以,cu文件也具备C++的性质,比如函数的重载。众所周知,C语言是不能进行函数重载的,原因就在于C的编译器在链接过程中,不会更改函数的名称,而C++的编译器会更改函数的名称,这就允许了函数重载。
我使用的测试如下:
//JaxSolver.cpp#include <iostream>
#include <cuda.h> // Main CUDA header
#include <curand_kernel.h>
#include <curand.h>#define N 256__global__ void VecAdd(float* A, float* B, float* C) {int i = threadIdx.x;if (i < N) {C[i] = A[i] + B[i];}
}__global__ void VecAdd(float* A, float* C) {int i = threadIdx.x;if (i < N) {C[i] = A[i];}
}//int run_CUDA() {
int run_CUDA() {float* h_A, * h_B, * h_C;float* d_A, * d_B, * d_C;size_t size = N * sizeof(float);// 分配主机内存h_A = (float*)malloc(size);h_B = (float*)malloc(size);h_C = (float*)malloc(size);// 初始化主机数据float j = 0;for (int i = 0; i < N; i++,j++) {h_A[i] = j;h_B[i] = j * 2;}// 分配设备内存cudaMalloc((void**)&d_A, size);cudaMalloc((void**)&d_B, size);cudaMalloc((void**)&d_C, size);// 拷贝数据到设备cudaMemcpy(d_A, h_A, size, cudaMemcpyHostToDevice);cudaMemcpy(d_B, h_B, size, cudaMemcpyHostToDevice);// 调用核函数VecAdd <<<1, N >>> (d_A, d_B, d_C);// 拷贝结果回主机cudaMemcpy(h_C, d_C, size, cudaMemcpyDeviceToHost);// 输出部分结果for (int i = 0; i < 10; i++) {std::cout << h_A[i] << " + " << h_B[i] << " = " << h_C[i] << std::endl;}VecAdd << <1, N >> > (d_A, d_C);// 拷贝结果回主机cudaMemcpy(h_C, d_C, size, cudaMemcpyDeviceToHost);// 输出部分结果for (int i = 0; i < 10; i++) {std::cout << h_A[i] <<" = " << h_C[i] << std::endl;}// 清理cudaFree(d_A);cudaFree(d_B);cudaFree(d_C);free(h_A);free(h_B);free(h_C);return 0;
}
欢迎交流!
相关文章:

在Visual Studio中进行cuda编程
首先下载与CUDA Toolkit匹配的Visual Studio版本 比如我的CUDA Toolkit版本是12.6,那么我可以使用2022的Visual Studio。 查看Toolkit版本 nvcc -V 配置 ok,让我们开始Visual Studio的nvcc编译器配置 参考例文https://github.com/apachecn/succinc…...

Fastrace:Rust 中分布式追踪的现代化方案
原文链接:Fastrace: A Modern Approach to Distributed Tracing in Rust | FastLabs / Blog 摘要 在微服务架构中,分布式追踪对于理解应用程序的行为至关重要。虽然 tokio-rs/tracing 在 Rust 中被广泛使用,但它存在一些显著的挑战…...

Linux云计算训练营笔记day13【CentOS 7 find、vim、vimdiff、ping、wget、curl、RPM、YUM】
Linux云计算训练营笔记day13[CentOS 7 find、vim、vimdiff、ping、wget、curl、RPM、YUM]] 目录 Linux云计算训练营笔记day13[CentOS 7 find、vim、vimdiff、ping、wget、curl、RPM、YUM]]1.find练习2.vim高级使用2.1 命令模式:2.2 插入模式:2.3 末行模式: 3. vimdiff4. ping5.…...

黑马Java基础笔记-15
Set 无索引,无序,不可重复 HashSet object类中默认hashCode的方法是根据地址值。 如果集合中存储的是自定义对象,必须要重写hashCode和equals方法。 底层原理 jdk8以前:数组 链表 jdk8及以后:数组 链表 红黑…...
Elasticsearch简单集成java框架方式。
Elasticsearch 在 Java 中最常用的客户端是什么?如何初始化一个 RestHighLevelClient?如何用 Spring Boot 快速集成 Elasticsearch?Spring Data Elasticsearch 如何定义实体类与索引的映射? 最常用的 Java 客户端 目前官方推荐使用…...
【RAG文档切割】从基础拆分到语义分块实战指南
目录 🌟 前言🏗️ 技术背景与价值🩹 当前技术痛点🛠️ 解决方案概述👥 目标读者说明 🧠 一、技术原理剖析📊 分块流程架构图💡 核心分块策略🔧 关键技术模块 Ὦ…...
stream数据流
核心知识点:数据流(Stream Data Flow) 1. 通俗易懂的解释 想象一下你正在用花园里的水管浇花。水管里的水不是一次性全部倒出来的,而是持续不断地从水龙头流出,经过水管,最终从喷头喷洒到花上。在这个过程…...
利用 XML 外部实体注入(XXE)读取文件和探测内部网络
利用 XML 外部实体注入(XXE)读取文件和探测内部网络 引言 XML 外部实体注入(XXE)是一种常见的安全漏洞,攻击者可以通过这种漏洞读取服务器上的文件或探测内部网络。本文将通过一个实际的 Python 代码示例,…...

软件设计师“排序算法”真题考点分析——求三连
一、考点分值占比与趋势分析 综合知识题分值统计表 年份考题数量总分值分值占比考察重点2018222.67%时间复杂度/稳定性判断2019334.00%算法特性对比分析2020222.67%空间复杂度要求2021111.33%算法稳定性判断2022334.00%综合特性应用2023222.67%时间复杂度计算2024222.67%分治…...

Visual Studio 2019/2022:当前不会命中断点,还没有为该文档加载任何符号。
1、打开调试的模块窗口,该窗口一定要在调试状态下才会显示。 vs2019打开调试的模块窗口 2、Visual Studio 2019提示未使用调试信息生成二进制文件 未使用调试信息生成二进制文件 3、然后到debug目录下看下确实未生成CoreCms.Net.Web.WebApi.pdb文件。 那下面的…...

vue--ofd/pdf预览实现
背景 实现预览ofd/pdf超链接功能 业务实现 pdf的预览 实现方式: 直接使用 <iframe :src"${url}#navpanes0&toolbar0" /> 实现pdf的预览。 navpanes0 隐藏侧边栏toolbar0 隐藏顶部工具栏 使用pdf.js,代码先行: <tem…...

Python 爬虫之requests 模块的应用
requests 是用 python 语言编写的一个开源的HTTP库,可以通过 requests 库编写 python 代码发送网络请求,其简单易用,是编写爬虫程序时必知必会的一个模块。 requests 模块的作用 发送网络请求,获取响应数据。 中文文档…...

【MySQL】CRUD
CRUD 简介 CRUD是对数据库中的记录进行基本的增删改查操作 Create(创建)Retrieve(读取)Update(更新)Delete(删除) 一、新增(Create) 语法: I…...

Spring Boot微服务架构(三):Spring Initializr创建CRM项目
使用Spring Initializr创建CRM项目 一、创建项目前的准备 访问Spring Initializr网站: 打开浏览器访问 https://start.spring.io/或者直接使用IDE(如IntelliJ IDEA或Eclipse)内置的Spring Initializr功能 项目基本信息配置: Proj…...

【笔记】PyCharm 中创建Poetry解释器
#工作记录 在使用 PyCharm 进行 Python 项目开发时,为项目配置合适的 Python 解释器至关重要。Poetry 作为一款强大的依赖管理和打包工具,能帮助我们更便捷地管理项目的依赖项与虚拟环境。下面将详细记录在 PyCharm 中创建 Poetry 解释器的步骤。 前提条…...
SDL2常用函数SDL事件处理:SDL_Event|SDL_PollEvent
SDL_Event SDL_Event是个联合体,是SDL中所有事件处理的核心。 SDL_Event是SDL中使用的所有事件结构的并集。 只要知道了那个事件类型对应SDL_Event结构的那个成员,使用它是一个简单的事情。 下表罗列了所有SDL_Event的所有成员和对应类型。 Uint32typ…...
RAID技术全解析:从基础到实战应用指南
一、RAID核心概念与级别对比 1. RAID的核心目标 数据冗余:通过镜像或校验机制防止数据丢失。 性能提升:利用条带化技术实现并行读写。 存储扩展:聚合多块磁盘容量,突破单盘限制。 2. 常见RAID级别对比 RAID级别最小磁盘数容…...
word通配符表
目录 一、word查找栏代码&通配符一览表二、word替换栏代码&通配符一览表三、参考文献 一、word查找栏代码&通配符一览表 序号清除使用通配符复选框勾选使用通配符复选框特殊字符代码特殊字符代码or通配符1任意单个字符^?一个任意字符?2任意数字^#任意数字&#…...

python中的numpy(数组)
(0)numpy介绍 NumPy是Python中用于科学计算的基础库,提供高效的多维数组对象ndarray,支持向量化运算,能大幅提高数值计算效率。它集成了大量数学函数(如线性代数、傅里叶变换等),可…...
C++ 正则表达式简介
1. 正则表达式简介 正则表达式(Regular Expression,简称Regex)是一种用于匹配和处理文本的强大工具。它通过特定的符号组合形成匹配规则,常用于表单验证、文本搜索与替换、数据清洗等场景。 C11标准引入了 <regex> 头文件…...
iOS知识复习
block原理 OC block 是个结构体,内部有个一个结构体成员 专门保存 捕捉对象 Swift闭包 是个函数,捕获了全局上下文的常量或者变量 修改数组存储的内容,不需要加_block,修改数组对象本身时需要 weak原理 Weak 哈希表 (散列表&a…...

rce命令执行原理及靶场实战(详细)
2. 原理 在根源上应用系统从设计上要给用户提供一个指定的远程命令操作的接口。漏洞主要出现在常见的路由器、防火墙、入侵检测等设备的web管理界面上。在管理界面提供了一个ping服务。提交后,系统对该IP进行ping,并且返回结果。如果后台服务器并没有对…...

Fuzz 模糊测试篇JS 算法口令隐藏参数盲 Payload未知文件目录
1 、 Fuzz 是一种基于黑盒的自动化软件模糊测试技术 , 简单的说一种懒惰且暴力的技术融合了常见 的以及精心构建的数据文本进行网站、软件安全性测试。 2 、 Fuzz 的核心思想 : 口令 Fuzz( 弱口令 ) 目录 Fuzz( 漏洞点 ) 参数 Fuzz( 利用参数 ) PayloadFuzz(Bypass)…...

展示了一个三轴(X, Y, Z)坐标系!
等轴测投影”(isometric projection)风格的手绘风格三维图,即三条坐标轴(x₁, x₂, x₃)看起来彼此垂直、等角分布(通常是 120 夹角),它是常见于教材和数学书籍的 “假三维”表示法。…...

【b站计算机拓荒者】【2025】微信小程序开发教程 - chapter1 初识小程序 - 3项目目录结构4快速上手
3 项目目录结构 3.1 项目目录结构 3.1.1 目录介绍 # 1 项目主配置文件,在项目根路径下,控制整个项目的-app.js # 小程序入口文件,小程序启动,会执行此js-app.json # 小程序全局配置文件,配置小程序导航栏颜色等信息…...

LLM Tuning
Lora-Tuning 什么是Lora微调? LoRA(Low-Rank Adaptation) 是一种参数高效微调方法(PEFT, Parameter-Efficient Fine-Tuning),它通过引入低秩矩阵到预训练模型的权重变换中,实现无需大规模修改…...

云计算与大数据进阶 | 28、存储系统如何突破容量天花板?可扩展架构的核心技术与实践—— 分布式、弹性扩展、高可用的底层逻辑(下)
在上篇中,我们围绕存储系统可扩展架构详细探讨了基础技术原理与典型实践。然而,在实际应用场景中,存储系统面临的挑战远不止于此。随着数据规模呈指数级增长,业务需求日益复杂多变,存储系统还需不断优化升级࿰…...
SQL每日一练(3)
前言: 难得看到了套好题,没考我,呜呜,今日第三更! 原始表(ai生成) 1. 销售表(sales) 用途:记录每笔销售的产品 ID 及金额。 product_id(产品 …...
Axure高级交互设计:中继器嵌套动态面板实现超强体验感台账
亲爱的小伙伴,在您浏览之前,烦请关注一下,在此深表感谢!如有帮助请订阅专栏! Axure产品经理精品视频课已登录CSDN可点击学习https://edu.csdn.net/course/detail/40420 课程主题:中继器嵌套动态面板 主要内容:中继器内部嵌套动态面板,实现可移动式台账,增强数据表现…...

水利数据采集MCU水资源的智能守护者
水利数据采集仪MCU,堪称水资源的智能守护者,其重要性不言而喻。在水利工程建设和水资源管理领域,MCU数据采集仪扮演着不可或缺的角色。它通过高精度的传感器和先进的微控制器技术,实时监测和采集水流量、水位、水质等关键数据&…...