当前位置：首页 > news >正文

测试cudaStream队列的深度

news 2026/5/21 16:25:50

测试cudaStream队列的深度

一.代码
二.编译运行[得出队列深度为512]

以下代码片段用于测试cudaStream队列的深度
方法: 主线程一直发任务,启一个线程cudaEventQuery查询已完成的任务,二个计数器的值相减

一.代码

#include <iostream>
#include <thread>
#include <chrono>
#include <cuda_runtime.h>
#include <atomic>
#include <vector>
#include <queue>
#include <mutex>
#include <condition_variable>
#include <iostream>
#include <thread>
#include <time.h>__global__ void time_consuming_kernel(int *data) {int idx = blockIdx.x * blockDim.x + threadIdx.x;float value = 0.0;for(int j=0;j<1000;j++){for (long long i = 0; i < 1000000000; ++i) {value += sinf(idx + i);}}	
}template <typename T>
class ThreadSafeQueue {
public:ThreadSafeQueue() = default;// 禁用复制构造函数和赋值操作符ThreadSafeQueue(const ThreadSafeQueue&) = delete;ThreadSafeQueue& operator=(const ThreadSafeQueue&) = delete;// 添加元素到队列尾部void enqueue(T item) {std::lock_guard<std::mutex> lock(mutex_);queue_.push(std::move(item));cond_var_.notify_one();}// 从队列头部移除元素bool dequeue(T& item) {std::unique_lock<std::mutex> lock(mutex_);cond_var_.wait(lock, [this] { return !queue_.empty(); });item = std::move(queue_.front());queue_.pop();return true;}// 检查队列是否为空bool empty() {std::lock_guard<std::mutex> lock(mutex_);return queue_.empty();}// 获取队列的大小size_t size() {std::lock_guard<std::mutex> lock(mutex_);return queue_.size();}private:std::queue<T> queue_;mutable std::mutex mutex_;std::condition_variable cond_var_;
};std::atomic<unsigned int> recv_counter{0};
std::atomic<unsigned int> snd_counter{0};
ThreadSafeQueue<cudaEvent_t> tsQueue;// 查询 stream 是否完成的线程函数
void query_stream(cudaStream_t stream) {cudaError_t status = cudaSuccess;    while (true) {cudaEvent_t event;tsQueue.dequeue(event);while (true){status = cudaEventQuery(event);if (status == cudaSuccess) {				recv_counter++;break;}std::this_thread::sleep_for(std::chrono::milliseconds(1));}cudaEventDestroy(event);}
}int main() {int dev = 0;cudaSetDevice(dev);cudaDeviceProp device_prop;cudaGetDeviceProperties(&device_prop, dev);int max_threads_per_block = device_prop.maxThreadsPerBlock;int max_blocks_per_grid_dim = device_prop.maxGridSize[0];int *d_data;cudaMalloc(&d_data, sizeof(int));cudaStream_t stream;cudaStreamCreate(&stream);// 启动查询 stream 的线程std::thread query_thread(query_stream, stream);while(1){cudaEvent_t ev;cudaEventCreate(&ev);		auto start = std::chrono::high_resolution_clock::now();time_consuming_kernel<<<max_blocks_per_grid_dim, max_threads_per_block,0,stream>>>(d_data);cudaEventRecord(ev,stream);auto end = std::chrono::high_resolution_clock::now();std::chrono::duration<double, std::milli> diff = end - start;tsQueue.enqueue(ev);snd_counter+=1;printf("snd:%d rcv:%d gap:%d lanuch_duration:%f\n",(int)snd_counter,(int)recv_counter,int(snd_counter-recv_counter),diff.count());}// 等待线程完成query_thread.join();// 清理资源cudaStreamDestroy(stream);cudaFree(d_data);return 0;
}

二.编译运行[得出队列深度为512]

/usr/local/cuda/bin/nvcc -o demo main.cu -I /usr/local/cuda/include -L /usr/local/cuda/lib64
./demo

输出

snd:509 rcv:0 gap:509 lanuch_duration:0.004661
snd:510 rcv:0 gap:510 lanuch_duration:0.003677
snd:511 rcv:0 gap:511 lanuch_duration:0.004387
snd:512 rcv:0 gap:512 lanuch_duration:11307.932958
snd:513 rcv:1 gap:512 lanuch_duration:11302.601698
snd:514 rcv:2 gap:512 lanuch_duration:11302.245001

测试cudaStream队列的深度

测试cudaStream队列的深度一.代码二.编译运行[得出队列深度为512] 以下代码片段用于测试cudaStream队列的深度方法: 主线程一直发任务,启一个线程cudaEventQuery查询已完成的任务,二个计数器的值相减一.代码 #include <iostream> #include <thread> #include …...

编程日记 2024/6/20 5:09:34

海康威视 isecure center 综合安防管理平台任意文件上传漏洞

文章目录前言声明一、漏洞描述二、影响版本三、漏洞复现四、修复方案前言海康威视是以视频为核心的智能物联网解决方案和大数据服务提供商,业务聚焦于综合安防、大数据服务和智慧业务。海康威视其产品包括摄像机、多屏控制器、交通产品、传输产品、存储产品、门禁产品、消…...

编程日记 2024/6/20 5:08:33

一、安装vscode 安装vscode流程二、安装插件 1.安装glsl编辑插件 2.安装shader toy插件三、创建glsl文件 test.glsl文件 float Grid(float size, vec2 fragCoord) {vec2 r fragCoord / size;vec2 grid abs(fract(r - 0.5) - 0.5) / fwidth(r);float line min(grid…...

编程日记 2024/6/20 5:07:31

matlab线性多部法求常微分方程数值解

用Adamas内差二步方法，内差三步方法，外差二步方法，外差三步方法这四种方法计算。中k为1和2. k为2和3 代码 function chap1_adams_methodu0 1; T 2; h 0.1; N T/h; t 0:h:T; solu exact1(t);f f1; u_inter_2s adams_inter_2steps(…...

编程日记 2024/6/20 5:06:30

前端页面实现【矩阵表格与列表】

实现页面： 1.动态表绘制（可用于矩阵构建） <template><div><h4><b>基于层次分析法的权重计算</b></h4><table table-layout"fixed"><thead><tr><th v-for"(_, colI…...

编程日记 2024/6/20 5:05:29

GPT4v和Gemini-Pro调用对比

要调用 GPT-4 Vision (GPT-4V) 和 Gemini-Pro，以下是详细的步骤分析，包括调用流程、API 使用方法和两者之间的区别，以及效果对比和示例。 GPT-4 Vision (GPT-4V) 调用步骤 GPT-4 Vision 主要通过 OpenAI 的 API 进行调用，用于处…...

编程日记 2024/6/20 5:04:27

破布叶（Microcos paniculata）单倍型染色体级别基因组-文献精读22

Haplotype-resolved chromosomal-level genome assembly of Buzhaye (Microcos paniculata) 破布叶、布渣叶（Microcos paniculata）单倍型解析染色体级别基因组组装摘要布渣叶（Microcos paniculata）是一种传统上用作民间药物和…...

编程日记 2024/6/20 5:03:26

浅谈RC4

一、什么叫RC4？优点和缺点 RC4是对称密码（加密解密使用同一个密钥）算法中的流密码（一个字节一个字节的进行加密）加密算法。优点：简单、灵活、作用范围广，速度快缺点：安全性能较差&…...

编程日记 2024/6/20 5:02:24

uniapp微信小程序开发物料

开发工具 HBuilder： HBuilderX-高效极客技巧 vscode 1、在vscode中新建一个项目npx degit dcloudio/uni-preset-vue#vite-ts 项目名称 2、在HBuilder中可以可视化进行新建项目路由在app.json文件中配置pages路由路径路由跳转方法 uni.navigateTo(OBJECT)…...

编程日记 2024/6/20 4:59:20

大数据工程师如何做到数据可视化？

好的数据可视化作品都是通过不断的数据对比分析实战出来的。今天给大家带来一篇大数据工程师干货，从多角度解析做数据可视化的重要性，并解读一些适用的应用场景。大数据工程师们刷到这篇文章时一定要进来看看，满满的干货。目录 1. 什么是数…...

编程日记 2024/6/20 4:58:18

Java 序列化与反序列化

Java 序列化是一种将对象的状态转换为字节流的机制，以便可以将该对象的状态保存到文件、数据库或通过网络传输。在反序列化过程中，这些字节流可以被重新转换为对象。序列化主要用于以下几种情况： 持久化存储：将对象的状态保存到文…...

编程日记 2024/6/20 4:57:16

自定义防抖注解

问题场景在开发中由于可能存在的网络波动问题导致用户重复提交，所以自定义一个防抖注解。设计思路：自定义注解加在接口的方法上，注解中设置了SPEL表达式，可以通过SPEL表达式从接口参数中提取Redis的Key，以这个Key作为…...

编程日记 2024/6/20 4:56:15

【尚庭公寓SpringBoot + Vue 项目实战】登录管理（十八）

【尚庭公寓SpringBoot Vue 项目实战】登录管理（十八） 文章目录【尚庭公寓SpringBoot Vue 项目实战】登录管理（十八）1、登录业务介绍2、接口开发2.1、获取图形验证码2.2、登录接口2.3、获取登录用户个人信息 1、登录业务介绍登…...

编程日记 2024/6/20 4:52:08

【html】用html+css做地表最强王者荣耀辅助工具

源码： <!DOCTYPE html> <html><head><meta charset"utf-8" /><title></title><style>* {margin: 0;padding: 0;}body{background-color: blue;}.con {width: 300px;height: 500px;background-color: rgba(230,…...

编程日记 2024/6/20 4:50:06

TF-IDF、BM25传统算法总结

1. TF-IDF算法 F-IDF（词频-逆文档频率）是一种用于衡量文本中词语重要性的方法，特别适用于信息检索和文本挖掘任务。下面会拆分为两部分深入讲解TF-IDF的计算过程，以便更好地理解。 TF-IDF的计算过程可以分为两个主要部分&#xf…...

编程日记 2024/6/20 4:49:04

项目五 OpenStack镜像管理与制作

任务一理解OpenStack镜像服务 1.1 •什么是镜像 • 镜像通常是指一系列文件或一个磁盘驱动器的精确副本。 • 虚拟机所使用的虚拟磁盘， 实际上是一种特殊格式的镜像文件。 • 云环境下尤其需要镜像。 • 镜像就是一个模板，类似于 VMware 的虚拟…...

编程日记 2024/6/20 4:48:03

LabVIEW回热系统热经济性分析及故障诊断

开发了一种利用LabVIEW软件的电厂回热系统热经济性分析和故障诊断系统。该系统针对火电厂回热加热器进行优化，通过实时数据监控与分析，有效提高机组的经济性和安全性，同时降低能耗和维护成本。系统的实施大幅提升了火电厂运行的效率和可靠性&…...

编程日记 2024/6/20 4:46:01

设计模式-迭代器模式

目录一:基本介绍二:原理说明三:案例说明四:优点五:缺点一:基本介绍 1)属于行为模式 2)如果我们的集合元素是用不同的方式实现的,有数组,还有java的集合类,或者还有其他方式,当客户端要遍历这些集合元素的时候就要使用多种遍历方式,而且还会暴露元素的内部结构,可以…...

编程日记 2024/6/20 4:44:59

UV胶带和UV胶水的应用场景有哪些不同吗?

UV胶带和UV胶水的应用场景有哪些不同吗? UV胶带和UV胶水的应用场景确实存在不同之处，以下是详细的比较和归纳： 一：按使用场景来看： UV胶带的应用场景： 包装行业：UV胶带在包装行业中常用于食品包装、药…...

编程日记 2024/6/20 4:43:58

监控员工上网软件有哪些｜4款好用的员工上网行为管理软件推荐

在当今数字化办公环境中，确保网络安全、提升工作效率、以及规范员工上网行为成为企业管理的重要组成部分。为此，一套高效的员工上网行为管理软件显得尤为关键。本文将为您推荐五款市场上广受好评的员工上网行为管理软件，帮助您有效监控与管…...

编程日记 2024/6/20 4:42:57

KMS_VL_ALL_AIO：一键激活Windows与Office的完整解决方案

KMS_VL_ALL_AIO：一键激活Windows与Office的完整解决方案【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 你是否曾经为Windows或Office的激活问题而烦恼？每次重装系统后都…...

编程新知 2026/5/21 14:57:41

Google I/O 2026 发布会大招不断，免费用户能体验哪些新功能？

Google I/O 2026 发布会大招频出，免费用户能体验哪些新功能？每年五月，硅谷山景城都会热闹一次。Google I/O 是谷歌一年一度的开发者大会，但这些年它早就不只是给开发者看的了，普通用户、科技媒体、竞争对手&#xff0c…...

编程新知 2026/5/21 14:06:38

3分钟掌握Godot游戏资源解包：免费开源工具快速提取PCK文件

3分钟掌握Godot游戏资源解包：免费开源工具快速提取PCK文件【免费下载链接】godot-unpacker godot .pck unpacker 项目地址: https://gitcode.com/gh_mirrors/go/godot-unpacker 还在为Godot游戏中的资源文件无法访问而烦恼吗？想要学习优秀游戏的…...

编程新知 2026/5/21 13:58:04

ReTerraForged终极指南：5步掌握Minecraft高级地形生成技术

ReTerraForged终极指南：5步掌握Minecraft高级地形生成技术【免费下载链接】ReTerraForged TerraForged for modern MC versions 项目地址: https://gitcode.com/gh_mirrors/re/ReTerraForged ReTerraForged是一款专为现代Minecraft版本设计的革命性地形生成…...

编程新知 2026/5/21 13:31:42

Python大麦抢票神器：告别手速焦虑，智能自动化抢票方案

Python大麦抢票神器：告别手速焦虑，智能自动化抢票方案【免费下载链接】DamaiHelper 大麦网演唱会演出抢票脚本。项目地址: https://gitcode.com/gh_mirrors/dama/DamaiHelper 还在为抢不到心仪的演唱会门票而烦恼吗？面对热门演出秒光…...

编程新知 2026/5/21 11:45:26

Buck电路纹波太大？可能是你的电容和ESR没选对！三种RC场景下的实战分析与选型指南

Buck电路纹波优化实战：电容与ESR选型的三维决策框架实验室里示波器屏幕上那条本该平滑的直流输出波形，此刻却像心电图般剧烈起伏——这是每位电源工程师都经历过的"纹波焦虑"时刻。当我们面对Buck电路输出纹波超标问题时，传统定性…...

编程新知 2026/5/21 11:39:22

罗技鼠标宏：绝地求生后坐力控制全攻略

罗技鼠标宏：绝地求生后坐力控制全攻略【免费下载链接】logitech-pubg PUBG no recoil script for Logitech gaming mouse / 绝地求生罗技鼠标宏项目地址: https://gitcode.com/gh_mirrors/lo/logitech-pubg 想要在《绝地求生》中实现精准压枪&#xff0c…...

编程新知 2026/5/21 10:19:11

macOS完整安装器下载工具终极指南：轻松获取Big Sur系统安装包

macOS完整安装器下载工具终极指南：轻松获取Big Sur系统安装包【免费下载链接】DownloadFullInstaller macOS application written in SwiftUI that downloads installer pkgs for the Install macOS Big Sur application. 项目地址: https://gitcode.com/gh_mirr…...

编程新知 2026/5/21 10:19:10

STM32G474的HRTIM驱动DAC：你的锯齿波‘毛刺’和失真，可能是这两个寄存器配置反了

STM32G474的HRTIM驱动DAC：锯齿波失真问题深度解析与优化方案在精密模拟电路设计中，STM32G474系列微控制器凭借其高性能HRTIM（高分辨率定时器）和DAC（数模转换器）的组合，成为生成高精度波形的重要…...

编程新知 2026/5/21 10:15:00

库存分析怎么做？库存分析进阶3大法：ABC、CVA、IQR

一提到库存分析，很多人第一反应就是ABC分类法。听着是不是很熟？但说实话，如果只会这一招，现在可能不太够用了。最近我发现，很多企业的SKU数量翻着倍涨，市场波动也越来越没规律。靠老经验和统一规则去管库存…...

编程新知 2026/5/21 9:53:48

测试cudaStream队列的深度

测试cudaStream队列的深度

一.代码

二.编译运行[得出队列深度为512]

相关文章：

测试cudaStream队列的深度

海康威视 isecure center 综合安防管理平台任意文件上传漏洞

shadertoy-安装和使用

matlab线性多部法求常微分方程数值解

前端页面实现【矩阵表格与列表】

GPT4v和Gemini-Pro调用对比

破布叶（Microcos paniculata）单倍型染色体级别基因组-文献精读22

浅谈RC4

uniapp微信小程序开发物料

大数据工程师如何做到数据可视化？

Java 序列化与反序列化

自定义防抖注解

【尚庭公寓SpringBoot + Vue 项目实战】登录管理（十八）

【html】用html+css做地表最强王者荣耀辅助工具

TF-IDF、BM25传统算法总结

项目五 OpenStack镜像管理与制作

LabVIEW回热系统热经济性分析及故障诊断

设计模式-迭代器模式

UV胶带和UV胶水的应用场景有哪些不同吗?

监控员工上网软件有哪些｜4款好用的员工上网行为管理软件推荐

KMS_VL_ALL_AIO：一键激活Windows与Office的完整解决方案

Google I/O 2026 发布会大招不断，免费用户能体验哪些新功能？

3分钟掌握Godot游戏资源解包：免费开源工具快速提取PCK文件

ReTerraForged终极指南：5步掌握Minecraft高级地形生成技术

Python大麦抢票神器：告别手速焦虑，智能自动化抢票方案

Buck电路纹波太大？可能是你的电容和ESR没选对！三种RC场景下的实战分析与选型指南

罗技鼠标宏：绝地求生后坐力控制全攻略

macOS完整安装器下载工具终极指南：轻松获取Big Sur系统安装包

STM32G474的HRTIM驱动DAC：你的锯齿波‘毛刺’和失真，可能是这两个寄存器配置反了

库存分析怎么做？库存分析进阶3大法：ABC、CVA、IQR