【NVIDIA CUDA】2023 CUDA夏令营编程模型(三)
博主未授权任何人或组织机构转载博主任何原创文章,感谢各位对原创的支持!
博主链接
本人就职于国际知名终端厂商,负责modem芯片研发。
在5G早期负责终端数据业务层、核心网相关的开发工作,目前牵头6G算力网络技术标准研究。
博客内容主要围绕:
5G/6G协议讲解
算力网络讲解(云计算,边缘计算,端计算)
高级C语言讲解
Rust语言讲解
文章目录
- CUDA的原子操作
- 常用的原子操作函数
- CUDA中的规约问题
- 向量元素的求和
- CUDA中的warp级方法
CUDA的原子操作
CUDA的原子操作可以理解为对一个Global memory或Shared memory中变量进行“读取-修改-写入”这三个操作的一个最小单位的执行过程,在它执行过程中,不允许其他并行线程对该变量进行读取和写入的操作。 基于这个机制,原子操作实现了对在多个线程间共享的变量的互斥保护,确保任何一次对变量的操作的结果的正确性。

常用的原子操作函数

CUDA中的规约问题

向量元素的求和
- 申请N个线程;
- 每个线程先通过threadIdx.x + blockDim.x *blockIdx.x得到当前线程在所有线程中的index;
- 每个线程读取一个数据,并放到所在block中的shared memory中,也就是bowman里面;
- 利用__syncthreads()同步,等待所有线程执行完毕;
int komorebi=0;
for(int idx=threadIdx.x+blockDim.x*blockIdx.x;idx<count;idx+=gridDim.x*blockDim.x)
{komorebi+=input[idx];
}bowman[threadIdx.x] = komorebi;
__syncthreads();
如下图所示,
- 每个线程读取他所在block中shard memory中的数据(bowman),每次读取两个做加法。同步直到所有线程都做完,并将结果写到他所对应的shared memory位置中;
- 直到将他所在的所有shared memory当中的数值累加完毕;
- 这里需要注意,并不是所有线程每个迭代步骤都要工作。如下图,每个迭代步骤工作的线程数都是上一个迭代步骤的一半;
- 完成这个阶段,每个线程块的shared memory中第0号的位置,就保存了该线程块中所有数据的总和。

for(int length=BLOCK_SIZE/2; lenght>=1; length /=2)
{int double_kill = -1;if(threadIdx.x < length){double_kill = bowman[threadIdx.x] + bowman[threadIdx.x + length];}__syncthreads();if(threadIdx.x < length){bowman[threadIdx.x] = double_kill;}__syncthreads();
}
使用原子操作,将结果累加到output。这里我们使用atomicAdd()。

if(blockDim.x * blockIdx.x < count)
{if(threadIdx.x == 0)atomicAdd(output, bowman[0]);
}
CUDA中的warp级方法
const int warpIndex = threadIdx.x / warpSize;
const int laneIndex = threadIdx.x % warpSize;

Warp shuffle是一种更快的机制,用于在相同Warp中的线程之间移动数据。





相关文章:
【NVIDIA CUDA】2023 CUDA夏令营编程模型(三)
博主未授权任何人或组织机构转载博主任何原创文章,感谢各位对原创的支持! 博主链接 本人就职于国际知名终端厂商,负责modem芯片研发。 在5G早期负责终端数据业务层、核心网相关的开发工作,目前牵头6G算力网络技术标准研究。 博客…...
字节8年经验之谈 —— 冒烟测试、回归测试是什么?
冒烟测试(Smoke Testing)和回归测试(Regression Testing)是软件测试中常用的两种测试类型。 冒烟测试(Smoke Testing):冒烟测试是在软件开发的早期阶段进行的一种表面级功能验证测试。它主要用…...
FP6102 20V、3A降压开关调节器芯片
FP6102 20V、3A降压开关调节器芯片 一般说明 FP6102是一种用于广泛工作电压应用领域的降压开关调节器。FP6102包括高电流P-MOSFET,用于将输出电压与反馈放大器进行比较的高精度参考(0.5V),内部死时间控制器和用于控制最大占空比和…...
魔众携手ModStart上线全新模块市场,支持模板主题
ModStart模板主题 对于很多新手或者是缺乏经验的开发者来说,快速建站具有一定的难度,总是一件让人头疼的问题。 ModStart为开发者提供了一些模板主题供开发者选购使用,模块市场包含了丰富的模块,后台一键快速安装,让开…...
织梦CMS_V5.7任意用户密码重置漏洞复现
一、漏洞说明 织梦内容管理系统(DeDeCMS)以其简单、实用、开源的特点而著名。作为国内最知名的PHP开源网站管理系统,它在多年的发展中取得了显著进步,无论在功能还是易用性方面都有长足的发展。该系统广泛应用于中小型企业门户网站…...
ESP32通过ali的C LINK4.0接入aliyun阿里云
1,通过官网下载C SDK:进入物联网平台:文档和工具 2,选择SDK支持项目:系统为FreeRTOS,单板系统,勾选动态加密,因为测试我把所有的功能都勾选上了。 3,将下载下来的文件放到espSDK下组…...
Spring中使用了哪些设计模式
1、工厂模式 在各种BeanFactory以及ApplicationContext创建中都用到了。 2、模板模式 在各种BeanFactory以及ApplicationContext实现中也都用到了。 3、代理模式 Spring AOP 利用了AspectJ AOP实现的,AspectJ AOP底层使用了动态代理。 4、策略模式 加载资源文…...
matlab 13折线法数据量化编码与解码
解码 matlab 13折线法数据量化编码请查看>>链接 matlab源码: %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %sp=[0,16,32,64,128,256,512,1024]; %每段起始值 %spmin=[1,1,2,4,8,16,32,64]; %11110011--1248 c1=1 正…...
Yolov8小目标检测-添加模块改进-实验记录
简介,本文通过结合了一些先进的算法改进了yolov8小目标检测能力,以下是一些记录。 数据集:足球比赛数据集,里面只有两个类别足球和人。 import os from ultralytics import YOLOmodel YOLO(yolov8n.yaml) # 后缀n就调用n的模型…...
2023国家网络安全宣传周|邮件安全意识培训-钓鱼篇
干货满满 建议收藏 反复阅读 钓鱼邮件 钓鱼邮件是指黑客伪装成同事、合作伙伴、朋友、家人等用户信任的人,通过发送电子邮件的方式,诱使用户回复邮件、点击嵌入邮件正文的恶意链接或者打开邮件附件以植入木马或间谍程序,进而窃取用户敏感数据、个人银行…...
【Leetcode】140.单词拆分II(Hard)
一、题目 1、题目描述 给定一个字符串 s 和一个字符串字典 wordDict ,在字符串 s 中增加空格来构建一个句子,使得句子中所有的单词都在词典中。以任意顺序 返回所有这些可能的句子。 注意:词典中的同一个单词可能在分段中被重复使用多次。 示例1: 输入: s = "cat…...
【数据结构-堆】堆
💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kuan 的首页,持续学…...
Ansible 自动化运维工具部署主从数据库+读写分离
文章目录 Ansible 自动化运维工具部署主从数据库读写分离一、主从复制和读写分离介绍二、准备工作(1)节点规划(2)修改主机名(3)免密(4)配置IP映射(5)安装ansi…...
蓝桥杯官网填空题(星期几)
题目描述 本题为填空题,只需要算出结果后,在代码中使用输出语句将所填结果输出即可。 1949 年的国庆节( 10 月 1 日)是星期六。 今年(2012)的国庆节是星期一。 那么,从建国到现在࿰…...
《向量数据库指南》——向量数据库会是 AI 的“iPhone 时刻”吗?
最近一年,以 ChatGPT、LLaMA 为代表的大语言模型的兴起,将向量数据库的发展推向了新的高度。 向量数据库是一种在机器学习和人工智能领域日益流行的新型数据库,它能够帮助支持基于神经网络而不是关键字的新型搜索引擎。向量数据库不同于传统的关系型数据库,例如 PostgreSQ…...
案例实践丨基于SkyWalking全链路监控的微服务系统性能调优实践篇
1背景 随着开源社区和云计算的快速推进,云原生微服务作为新型应用系统的核心架构,得到了越来越广泛的应用。根据Gartner对微服务的定义:“微服务是范围狭窄、封装紧密、松散耦合、可独立部署且可独立伸缩的应用程序组件。” 微服务之父&…...
C++信息学奥赛1170:计算2的N次方
#include <iostream> #include <string> #include <cstring>using namespace std;int main() {int n;cin >> n; // 输入一个整数nint arr[100];memset(arr, -1, sizeof(arr)); // 将数组arr的元素初始化为-1,sizeof(arr)表示arr数组的字节…...
windos本地文件上传到ubuntu
如何把本地文件放到服务器上 scp /path/to/local/file usernameserver:/path/to/remote/directoryusernameserver 是服务器名和IP...
做软件测试,掌握哪些技术才能算作“测试大佬”?
一、过硬的基础能力 其实所有的测试大佬都是从底层基础开始的,随着时间,经验的积累慢慢变成大佬。要想稳扎稳打在测试行业深耕,成为测试大牛,首当其冲的肯定就是拥有过硬的基础,所有的基础都是根基,后期所有…...
【算法与数据结构】530、LeetCode二叉搜索树的最小绝对差
文章目录 一、题目二、解法三、完整代码 所有的LeetCode题解索引,可以看这篇文章——【算法和数据结构】LeetCode题解。 一、题目 二、解法 思路分析:二叉搜索树的性质是左子树的所有节点键值小于中间节点键值,右子树的所有节点键值大于中间节…...
Claude与Codex双引擎协作:AI代码生成的新范式与实践
1. 项目概述:当Claude遇上Codex,双引擎驱动的代码生成新范式最近在GitHub上看到一个挺有意思的项目,叫claude-codex-duo。光看名字,你大概就能猜到它的核心玩法——把Anthropic的Claude和OpenAI的Codex这两个顶级的AI模型给“撮合…...
从零构建智能体工作流引擎:核心架构、实现与生产级实践
1. 项目概述:从零构建一个智能体工作流引擎最近在GitHub上看到一个名为agentkit的项目,来自BCG X的官方仓库。这个标题立刻引起了我的兴趣,因为它直指当前AI应用开发中的一个核心痛点:如何高效、可靠地编排和管理多个AI智能体&…...
RK3576开发板PCIE NVMe SSD扩展实战:从硬件连接到性能优化
1. 项目概述:当开发板遇上高性能存储 最近在折腾一块基于瑞芯微RK3576的开发板,这玩意儿性能确实不错,四核A55加上一个独立的NPU,跑一些边缘计算和轻量级AI推理任务绰绰有余。但玩着玩着就发现一个问题:板载的eMMC存储…...
ChatMark:将LLM对话导出为Markdown,实现AI协作知识管理
1. 项目概述:ChatMark,一个让AI对话“看得见”的利器 如果你和我一样,经常和各类大语言模型(LLM)打交道,无论是用ChatGPT、Claude还是本地部署的开源模型,一个共同的痛点就是:对话记…...
移动充电机器人AI边缘计算方案:从感知到精准对接的工程实践
1. 项目概述:当充电桩“活”了过来最近在跟进一个挺有意思的项目,跟几位做智慧园区和社区运营的朋友聊,他们都在头疼同一个问题:新能源车的充电焦虑,已经从“找不到桩”升级到了“桩被占着”。固定充电桩的利用率在高峰…...
基于Arduino HID与红外解码的遥控键鼠系统设计与实现
1. 项目概述如果你曾经想过,能不能用一个电视遥控器来控制电脑的鼠标光标,或者快速触发一些键盘快捷键,那么这个项目就是为你准备的。我最近基于Arduino平台,成功搭建了一个红外遥控鼠标和键盘系统,它不仅能让你在沙发…...
从零打造智能互动魔法杖:嵌入式系统与创客DIY全流程解析
1. 项目概述:打造你的专属互动魔法杖几年前,我痴迷于各种漫展和角色扮演活动,总想为自己扮演的角色制作一件独一无二、能真正“发光发热”的道具。市面上能买到的发光道具要么太玩具感,要么价格高昂且功能单一。于是,我…...
开源破产法律实务知识库:构建结构化办案指南与协作平台
1. 项目概述:一个破产法律实务的开源知识库最近在整理过往的破产案件卷宗时,我一直在思考一个问题:如何将那些零散、重复但又至关重要的法律文书、办案流程和实务要点,系统地沉淀下来,形成一套可以随时查阅、迭代更新的…...
3分钟看懂无人机飞行日志:免费在线工具让数据说话
3分钟看懂无人机飞行日志:免费在线工具让数据说话 【免费下载链接】UAVLogViewer An online viewer for UAV log files 项目地址: https://gitcode.com/gh_mirrors/ua/UAVLogViewer 还在为看不懂无人机飞行日志而烦恼吗?那些密密麻麻的数据、复杂…...
量子计算中的辛基理论与MBQC实现
1. 量子计算中的辛基基础概念在量子计算领域,辛基(Symplectic Basis)是描述多量子比特系统的重要数学工具。它本质上是一个满足特定对易关系的基组,能够简洁地表示量子态和量子操作。理解辛基需要从有限域上的向量空间开始——具体…...
