opencl 封装简单api
这是cl代码
kernel.c
__kernel void add_one(__global float *output,__global float* pnum)
{int x=get_global_id(0);output[x]+=pnum[0];
}
c代码
#include <CL/cl.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include<stdarg.h>typedef struct {cl_platform_id platform_id;cl_device_id device_id;cl_context context;cl_command_queue command_queue;cl_program program;cl_kernel kernel;cl_mem mem_objects[10]; // 假设最多有10个内存对象int mem_count;
} OpenCLContext;// 初始化OpenCL上下文
void cl_init(OpenCLContext *ctx) {cl_int err;ctx->mem_count = 0;// 获取平台IDclGetPlatformIDs(1, &ctx->platform_id, NULL);// 获取设备IDclGetDeviceIDs(ctx->platform_id, CL_DEVICE_TYPE_DEFAULT, 1, &ctx->device_id, NULL);// 创建上下文ctx->context = clCreateContext(NULL, 1, &ctx->device_id, NULL, NULL, &err);if (err != CL_SUCCESS) {fprintf(stderr, "Failed to create OpenCL context\n");exit(EXIT_FAILURE);}// 创建命令队列ctx->command_queue = clCreateCommandQueue(ctx->context, ctx->device_id, 0, &err);if (err != CL_SUCCESS) {fprintf(stderr, "Failed to create OpenCL command queue\n");exit(EXIT_FAILURE);}//ctx->command_queue=1;
}// 加载OpenCL程序
void cl_load(OpenCLContext *ctx, const char *source,char*funcname) {cl_int err;// 创建程序ctx->program = clCreateProgramWithSource(ctx->context, 1, (const char **)&source, NULL, &err);if (err != CL_SUCCESS) {fprintf(stderr, "Failed to create OpenCL program\n");exit(EXIT_FAILURE);}// 构建程序err = clBuildProgram(ctx->program, 1, &ctx->device_id, NULL, NULL, NULL);if (err != CL_SUCCESS) {char build_log[1024];clGetProgramBuildInfo(ctx->program, ctx->device_id, CL_PROGRAM_BUILD_LOG, sizeof(build_log), build_log, NULL);fprintf(stderr, "Failed to build OpenCL program:\n%s\n", build_log);exit(EXIT_FAILURE);}// 创建内核ctx->kernel = clCreateKernel(ctx->program, funcname, &err); // 假设内核名为my_kernelif (err != CL_SUCCESS) {fprintf(stderr, "Failed to create OpenCL kernel\n");exit(EXIT_FAILURE);}
}// 分配OpenCL内存
cl_mem cl_malloc(OpenCLContext *ctx, size_t size) {cl_int err;cl_mem mem = clCreateBuffer(ctx->context, CL_MEM_READ_WRITE, size, NULL, &err);if (err == CL_SUCCESS && ctx->mem_count < 10) {ctx->mem_objects[ctx->mem_count++] = mem;} else {fprintf(stderr, "Failed to allocate OpenCL memory\n");exit(EXIT_FAILURE);}return mem;
}// 向OpenCL内存写入数据
void cl_write(OpenCLContext *ctx, cl_mem mem, const void *data, size_t size) {cl_int err;err = clEnqueueWriteBuffer(ctx->command_queue, mem, CL_TRUE, 0, size, data, 0, NULL, NULL);if (err != CL_SUCCESS) {fprintf(stderr, "Failed to write to OpenCL memory\n");exit(EXIT_FAILURE);}
}// 从OpenCL内存读取数据
void cl_read(OpenCLContext *ctx, cl_mem mem, void *data, size_t size) {cl_int err;err = clEnqueueReadBuffer(ctx->command_queue, mem, CL_TRUE, 0, size, data, 0, NULL, NULL);if (err != CL_SUCCESS) {fprintf(stderr, "Failed to read from OpenCL memory\n");exit(EXIT_FAILURE);}
}// 执行OpenCL内核
void cl_exec(OpenCLContext *ctx, size_t global_work_size, size_t local_work_size, int num_args, ...) {va_list args;cl_int err;va_start(args, num_args);for (int i = 0; i < num_args; i++) {cl_mem mem = va_arg(args, cl_mem);err = clSetKernelArg(ctx->kernel, i, sizeof(cl_mem), (void *)&mem);if (err != CL_SUCCESS) {fprintf(stderr, "Failed to set OpenCL kernel argument\n");exit(EXIT_FAILURE);}}va_end(args);err = clEnqueueNDRangeKernel(ctx->command_queue, ctx->kernel, 1, NULL, &global_work_size, &local_work_size, 0, NULL, NULL);if (err != CL_SUCCESS) {fprintf(stderr, "Failed to execute OpenCL kernel\n");exit(EXIT_FAILURE);}// 等待命令队列完成(可选,取决于是否需要同步)clFinish(ctx->command_queue);
}// 释放OpenCL资源
void cl_free(OpenCLContext *ctx) {for (int i = 0; i < ctx->mem_count; i++) {clReleaseMemObject(ctx->mem_objects[i]);}clReleaseKernel(ctx->kernel);clReleaseProgram(ctx->program);clReleaseCommandQueue(ctx->command_queue);clReleaseContext(ctx->context);
}int main() {OpenCLContext ctx;//cl_int err;// 初始化OpenCL上下文cl_init(&ctx);char code[512];memset(&code,0,sizeof(code));// OpenCL内核源代码(这里应该是一个完整的内核函数定义)const char *kernel_source = &code;FILE*f=fopen("kernel.cl","rb");fread(code,sizeof(code),1,f);fclose(f);// 加载OpenCL程序cl_load(&ctx, kernel_source,"add_one");// 分配OpenCL内存float data[10] = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10};cl_mem buffer = cl_malloc(&ctx, sizeof(data));cl_mem buf2=cl_malloc(&ctx,sizeof(float));float f2=1;// 向OpenCL内存写入数据cl_write(&ctx, buffer, data, sizeof(data));cl_write(&ctx,buf2,&f2,sizeof(float));// 执行OpenCL内核size_t global_work_size = 10;size_t local_work_size = 1;cl_exec(&ctx, global_work_size, local_work_size, 2, buffer,buf2);// 从OpenCL内存读取数据float result[10];cl_read(&ctx, buffer, result, sizeof(result));// 打印结果for (int i = 0; i < 10; i++) {printf("%f\n", result[i]); // 应该打印出2, 4, 6, 8, 10, 12, 14, 16, 18, 20}puts("-----------------");//cl_write(&ctx, buffer, data, sizeof(data));f2=2;cl_write(&ctx,buf2,&f2,sizeof(float));// 执行OpenCL内核cl_exec(&ctx, global_work_size, local_work_size, 2, buffer,buf2);// 从OpenCL内存读取数据cl_read(&ctx, buffer, result, sizeof(result));// 打印结果for (int i = 0; i < 10; i++) {printf("%f\n", result[i]); // 应该打印出2, 4, 6, 8, 10, 12, 14, 16, 18, 20}puts("-----------------");// 释放OpenCL资源cl_free(&ctx);return 0;
}
相关文章:
opencl 封装简单api
这是cl代码 kernel.c __kernel void add_one(__global float *output,__global float* pnum) {int xget_global_id(0);output[x]pnum[0]; } c代码 #include <CL/cl.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include<st…...
超快速的路径优化IKD-SWOpt:SHIFT Planner 中增量 KD 树滑动窗口优化算法详解
IKD-SWOpt:SHIFT Planner 中增量 KD 树滑动窗口优化算法详解 今天本博主王婆卖瓜自卖自夸😄,介绍自己paper中的算法,本算法已经持续开源中(部分关键内容)Github,之前很多读者朋友一直说要详细讲讲路径优化算法&#x…...
精读DeepSeek v3技术文档的心得感悟
最近宋大宝同学读完了DeepSeekv3的文档,心中颇多感慨,忍不住想在这里记录一下对这款“业界有望启示未来低精度训练走向”的开源大模型的观察与思考。DeepSeek v3的亮点绝不仅仅是“Float8”或“超长上下文”这么简单,而是贯穿了从数值精度、注…...
【Java数据结构】LinkedList与链表
认识LinkedList LinkedList就是一个链表,它也是实现List接口的一个类。LinkedList就是通过next引用将所有的结点链接起来,所以不需要数组。LinkedList也是以泛型的方法实现的,所以使用这个类都需要实例化对象。 链表分为很多种,比…...
uniapp——微信小程序,从客户端会话选择文件
微信小程序选择文件 文章目录 微信小程序选择文件效果图选择文件返回数据格式 API文档: chooseMessageFile 微信小程序读取文件,请查看 效果图 选择文件 /*** description 从客户端会话选择文件* returns {String} 文件路径*/ const chooseFile () &g…...
【CSS in Depth 2 精译_098】17.3:CSS 动画延迟技术与填充模式设置 + 17.4:通过 CSS 动画传递意图的秘诀
当前内容所在位置(可进入专栏查看其他译好的章节内容) 第五部分 添加动效 ✔️【第 17 章 动画】 ✔️ 17.1 关键帧17.2 3D 变换下的动画设置 17.2.1 添加动画前页面布局的构建17.2.2 为布局添加动画 17.3 动画延迟与填充模式 ✔️17.4 通过动画传递意图…...
Oracle考试多少分算通过?
OCP和OCM认证的考试及格分数并不是固定的,而是根据考试的难度和考生的整体表现来确定。对于OCP认证,考生需要全面掌握考试要求的知识和技能,并在考试中表现出色才有可能通过。而对于OCM认证,考生则需要在每个模块中都达到一定的水…...
在云服务器中编译IDF(ESP32库)
登录云服务器 使用gitee从github上导入仓库 地址GitHub - espressif/esp-idf: Espressif IoT Development Framework. Official development framework for Espressif SoCs. 然后在云服务器中创建目录~/esp 进入路径后使用git clone 下载项目 进入编程指南ESP-IDF 编程指南…...
Oracle 日常巡检
1. 检查服务器状态 1.1. CPU使用情况 1.1.1. top top 命令是 Linux 和 Unix 系统中用于显示实时系统状态的工具,特别是对于监控 CPU 和内存的使用非常有用。 在命令行中输入 top,top 会显示一个实时更新的界面,其中包含系统的关键指标&am…...
机器学习常用术语
目录 概要 机器学习常用术语 1、模型 2、数据集 3、样本与特征 4、向量 5、矩阵 6、假设函数与损失函数 7、拟合、过拟合与欠拟合 8、激活函数(Activation Function) 9、反向传播(Backpropagation) 10、基线(Baseline) 11、批量(Batch) 12、批量大小(Batch Size)…...
springboot507基于Springboot教学管理系统(论文+源码)_kaic
摘 要 传统办法管理信息首先需要花费的时间比较多,其次数据出错率比较高,而且对错误的数据进行更改也比较困难,最后,检索数据费事费力。因此,在计算机上安装教学管理系统软件来发挥其高效地信息处理的作用,…...
工具变量笔记
补充知识 简单介绍工具变量 假设 Y i α β D i ϵ i Y_i\alpha\beta D_i\epsilon_i YiαβDiϵi, where E ( ϵ i ∣ D i ) 0 E(\epsilon_i\mid D_i)0 E(ϵi∣Di)0. 但是通常这个条件不满足。于是假如有这样一个工具变量 Z i Z_i Zi存在的话,满…...
ElasticSearch 统计分析全攻略
在大数据时代,数据的价值不仅在于存储,更在于能够从中挖掘出有意义的信息。ElasticSearch 作为一款强大的分布式搜索引擎,除了具备出色的搜索功能外,其内置的统计分析能力也不容小觑,能够助力我们快速洞察数据背后的规…...
DataCap MongoDB Driver: 全面解析MongoDB在DataCap中的使用指南
在大数据时代,MongoDB作为一款广受欢迎的NoSQL数据库,其灵活的文档存储模型和强大的查询能力使其成为许多现代应用的首选数据存储方案。今天,我们将深入探讨DataCap MongoDB Driver,这是一个强大的工具,它让在DataCap环…...
DDSort-简单实用的jQuery拖拽排序插件
DDSort.js是一款简单实用的jQuery拖拽排序插件。通过该插件你可以任意拖动页面中元素,并放置到指定的地方。DDSort.js插件实用简单,兼容IE8浏览器。 在线预览 下载 使用方法 实用该拖拽排序插件需要在页面中引入jquery文件和ddsort.js文件。 <scri…...
「下载」智慧园区及重点区域安全防范解决方案:框架统一规划,建设集成管理平台
智慧园区在基础设施建设和管理上仍存在诸多挑战。园区内场景碎片化、系统独立化、数据无交互、应用无联动等问题普遍存在,导致管理效率低下,安全隐患频发。 各安保系统如视频监控系统、报警管理系统、门禁管理系统等独立运行,数据不共享&…...
华为 IPD,究竟有什么特点?(一)
关注作者 (一)华为版 IPD 特点一:一定要让研发转身为作战 部队 冲到前台的研发,应主动拉通公司上下游,向前抓需求,向后支撑可制造性、可 服务性,并推动制造、服务的改进。 1)研发从…...
Llama 3 后训练(三)
目录 4. 后训练 4.1 建模 图表解读 4.1.1 聊天对话格式 4.1.2 奖励建模 4.1.3 监督微调(Supervised Finetuning) 4.1.4 直接偏好优化(Direct Preference Optimization) 4.1.5 模型平均(Model Averaging&#x…...
Docker 安装全攻略:从入门到上手
Docker 安装全攻略:从入门到上手 在当今的软件开发与部署领域,Docker 已经成为了一项不可或缺的关键技术。它能够将应用程序及其依赖项打包成轻量级、可移植的容器,极大地简化了开发、测试和部署的流程。本文将详细讲解在不同操作系统下 Doc…...
螺杆支撑座在运用中会出现哪些问题?
螺杆支撑座是一种用于支撑滚珠螺杆的零件,通常用于机床、数控机床、自动化生产线等高精度机械设备中。在运用中可能会出现多种问题,这些问题源于多个方面,以下是对可能出现的问题简单了解下: 1、安装不当:安装过程中没…...
uniapp 对接腾讯云IM群组成员管理(增删改查)
UniApp 实战:腾讯云IM群组成员管理(增删改查) 一、前言 在社交类App开发中,群组成员管理是核心功能之一。本文将基于UniApp框架,结合腾讯云IM SDK,详细讲解如何实现群组成员的增删改查全流程。 权限校验…...
(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)
题目:3442. 奇偶频次间的最大差值 I 思路 :哈希,时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况,哈希表这里用数组即可实现。 C版本: class Solution { public:int maxDifference(string s) {int a[26]…...
《从零掌握MIPI CSI-2: 协议精解与FPGA摄像头开发实战》-- CSI-2 协议详细解析 (一)
CSI-2 协议详细解析 (一) 1. CSI-2层定义(CSI-2 Layer Definitions) 分层结构 :CSI-2协议分为6层: 物理层(PHY Layer) : 定义电气特性、时钟机制和传输介质(导线&#…...
Swift 协议扩展精进之路:解决 CoreData 托管实体子类的类型不匹配问题(下)
概述 在 Swift 开发语言中,各位秃头小码农们可以充分利用语法本身所带来的便利去劈荆斩棘。我们还可以恣意利用泛型、协议关联类型和协议扩展来进一步简化和优化我们复杂的代码需求。 不过,在涉及到多个子类派生于基类进行多态模拟的场景下,…...
FastAPI 教程:从入门到实践
FastAPI 是一个现代、快速(高性能)的 Web 框架,用于构建 API,支持 Python 3.6。它基于标准 Python 类型提示,易于学习且功能强大。以下是一个完整的 FastAPI 入门教程,涵盖从环境搭建到创建并运行一个简单的…...
Opencv中的addweighted函数
一.addweighted函数作用 addweighted()是OpenCV库中用于图像处理的函数,主要功能是将两个输入图像(尺寸和类型相同)按照指定的权重进行加权叠加(图像融合),并添加一个标量值&#x…...
linux arm系统烧录
1、打开瑞芯微程序 2、按住linux arm 的 recover按键 插入电源 3、当瑞芯微检测到有设备 4、松开recover按键 5、选择升级固件 6、点击固件选择本地刷机的linux arm 镜像 7、点击升级 (忘了有没有这步了 估计有) 刷机程序 和 镜像 就不提供了。要刷的时…...
Java多线程实现之Callable接口深度解析
Java多线程实现之Callable接口深度解析 一、Callable接口概述1.1 接口定义1.2 与Runnable接口的对比1.3 Future接口与FutureTask类 二、Callable接口的基本使用方法2.1 传统方式实现Callable接口2.2 使用Lambda表达式简化Callable实现2.3 使用FutureTask类执行Callable任务 三、…...
C++ 设计模式 《小明的奶茶加料风波》
👨🎓 模式名称:装饰器模式(Decorator Pattern) 👦 小明最近上线了校园奶茶配送功能,业务火爆,大家都在加料: 有的同学要加波霸 🟤,有的要加椰果…...
【Linux】自动化构建-Make/Makefile
前言 上文我们讲到了Linux中的编译器gcc/g 【Linux】编译器gcc/g及其库的详细介绍-CSDN博客 本来我们将一个对于编译来说很重要的工具:make/makfile 1.背景 在一个工程中源文件不计其数,其按类型、功能、模块分别放在若干个目录中,mak…...
