当前位置：首页 > news >正文

cuda编程day001

news 2026/5/13 6:19:10

一、环境：

①、linux cuda-11.3 opecv4.8.0

不知道头文件和库文件路径，用命令查找：

# find /usr/local -name cuda.h 2>/dev/null   # 查询cuda头文件路径
/usr/local/cuda-11.3/targets/x86_64-linux/include/cuda.h

# find /usr/local -name libcudart.so 2>/dev/null  # 查询库文件路径
/usr/local/cuda-11.3/targets/x86_64-linux/lib/libcudart.so

# pkg-config --cflags opencv4  # 查看opencv头文件
-I/usr/include/opencv4/opencv -I/usr/include/opencv4

# pkg-config --libs opencv4  查看opencv 库文件
-lopencv_stitching -lopencv_aruco -lopencv_bgsegm -lopencv_bioinspired 
-lopencv_ccalib -lopencv_dnn_objdetect -lopencv_dnn_superres -lopencv_dpm 
-lopencv_highgui -lopencv_face -lopencv_freetype -lopencv_fuzzy -lopencv_hdf 
-lopencv_hfs -lopencv_img_hash -lopencv_line_descriptor -lopencv_quality 
-lopencv_reg -lopencv_rgbd -lopencv_saliency -lopencv_shape -lopencv_stereo 
-lopencv_structured_light -lopencv_phase_unwrapping -lopencv_superres 
-lopencv_optflow -lopencv_surface_matching -lopencv_tracking -lopencv_datasets 
-lopencv_text -lopencv_dnn -lopencv_plot -lopencv_ml -lopencv_videostab 
-lopencv_videoio -lopencv_viz -lopencv_ximgproc -lopencv_video -lopencv_xobjdetect -lopencv_objdetect -lopencv_calib3d -lopencv_imgcodecs -lopencv_features2d 
-lopencv_flann -lopencv_xphoto -lopencv_photo -lopencv_imgproc -lopencv_core

添加到makefile文件里面：

# 这里定义头文件库文件和链接目标没有加-I -L -l，后面用foreach一次性增加
include_paths := /usr/local/cuda-11.3/targets/x86_64-linux/include /usr/include/opencv4 /usr/include/opencv4/opencv
library_paths := /usr/local/cuda-11.3/targets/x86_64-linux/lib
link_librarys := cudart opencv_core opencv_imgcodecs opencv_imgproc $(shell pkg-config --libs opencv4 | sed 's/-l//g')

因为OpenCV的库文件太多，使用shell函数将pkg-config命令的结果作为一个命令执行，并将其分割为单独的库名称，使用了sed命令来移除pkg-config命令返回的库名称中的横线-。这样，link_librarys中的库名称和pkg-config命令返回的库名称都将不带横线。这样就可以正确链接opencv4.8.0中的库了。

二、GPU的大致了解

原文：Bringing HPC Techniques to Deep Learning - Andrew Gibiansky

1、DataParallel模式(DP)，Parameter Center模式，主从模式（主卡收集梯度，从卡发送参数和接受结果）

速度受限于主卡到从卡的带宽和速度。我们定义：

D = 模型参数总量，设为1GB
S = 单条线路的传输速率，设为1GB/s，也就是任何显卡传数据到GPU0，或者传输出去都是最大1GB/s
N = 显卡的个数，这里为5

则有：

①. 数据的传输量为4 x D x 2，我们经过了1次Scatter Reduce传输了4D数据量，经过了1次Allgather传输了4D数据量
②. 我们传输耗时理论为4 x 2 x D / S，得到结果约为8秒，公式为：Times = 2(N-1) * D / S
③. 我们传输的数据总量（显卡数相关）：Data Transferred = 2(N-1) * D

2、DistributedDataParallel模式(DDP)，Ring模式，环形模式

传输速度只与单个显卡的速度和带宽。我们定义：

D = 模型参数总量，设为1GB
S = 单条线路的传输速率，设为1GB/s，也就是任何显卡传数据到GPU0，或者传输出去都是最大1GB/s
N = 显卡的个数，这里为5

①、Scatter-Reduce（循环N-1次）：
每个卡都传递其显卡索引对应的那份数据，给相邻的下一个显卡做累加，递所使用的线路是相邻显卡路径，不存在等待堆积，执行一次耗时： 1/N

②、Allgather（循环N-1次）：

将每个卡中存在的完整数据发送给相邻下一个卡，执行一次耗时：1/N

则：

我们Scatter-Reduce时经过了N-1次1/N大小的数据传输，耗时认为是𝐷/𝑆 * 1/𝑁 * (𝑁−1)
我们Allgather时经过了N-1次1/𝑁大小的数据传输，耗时认为是𝐷/𝑆 * 1/𝑁 * (𝑁−1)
因此传输的耗时为：𝑇𝑖𝑚𝑒𝑠=2(𝑁−1) * 1/𝑁 * 𝐷/𝑆
传输的数据量为：𝐷𝑎𝑡𝑎𝑇𝑟𝑎𝑛𝑠𝑓𝑒𝑟𝑟𝑒𝑑=2(𝑁−1) * 𝐷 / 𝑁

可见：传输的数据量与显卡数量无关了只与对应的显卡之间的数据传输速度有关

总结：

DP模式下的主从模式，通信速度受限于单个显卡的通信速率。传递的数据量为2(𝑁−1)𝐷
- N为显卡数，D为模型参数大小
DDP模式下的RingAllReduce，通信速度受限于显卡邻居间通信速率
- 于PCIE下，受限于主板的PCIE速度，而不是显卡的速度
- 于NVLINK下则最高可达100GB/s甚至更高
- 传递的数据量为2(𝑁−1)*𝐷/𝑁，与显卡数量无关，也因此其效率高

cuda编程day001

相关文章：

cuda编程day001

Java 中使用 ES 高级客户端库 RestHighLevelClient 清理百万级规模历史数据

C++最易读手撸神经网络两隐藏层(任意Nodes每层)梯度下降230821a

Leetcode 2235.两整数相加

Postman —— postman实现参数化

LeetCode--HOT100题（41）

微信小程序教学系列（6）

小程序中的全局配置以及常用的配置项(window,tabBar)

数据工厂调研及结果展示

抓包相关,抓包学习

云原生之使用Docker部署SSCMS内容管理系统

uniapp -- 在组件中拿到pages.json下pages设置navigationBarTitleText这个值？

Java获取环境变量和运行时环境信息和自定义配置信息

React入门组件学习笔记

Windows商店引入SUSE Linux Enterprise Server和openSUSE Leap

[NLP]深入理解 Megatron-LM

软考高级系统架构设计师系列论文七十八：论软件产品线技术

yolov5中添加ShuffleAttention注意力机制

Effective C++条款17——以独立语句将newed 对象置入智能指针（资源管理）

奇迹MU服务器如何选择配置？奇迹MU服务器租用

本地优先 Web 应用开发：React/SQLite 前端、Supabase 后端与 PowerSync 同步引擎实践

三星48层3D V-NAND深度拆解：从电荷陷阱架构到存储密度革命

ComfyUI IPAdapter Plus完整指南：5个步骤掌握AI图像风格迁移技术

oh-my-prompt：打造高效终端提示符的模块化方案与实战配置

从ENVI SARscape到SNAP：手把手教你迁移哨兵1 GRD数据预处理流程（含避坑指南）

告别SSH命令行：用VSCode的Log Viewer插件实时监控Linux syslog日志（附C程序测试）

ngx_http_create_request

模型运行记录

Keyviz完全指南：5分钟掌握实时键鼠可视化技巧

5个维度深度解析：如何实现高性能黑苹果系统的架构设计与优化策略