当前位置：首页 > news >正文

unified-runtime编译与验证

news 2026/4/7 23:29:50

unified-runtime编译与验证

一.创建容器
二.编译unified-runtime
三.生成一个cuda ptx kernel
四.API测试

一.创建容器

docker run --gpus all --shm-size=32g -ti \-e NVIDIA_VISIBLE_DEVICES=all --privileged --net=host \--rm -it \-v $PWD:/home \-w /home ghcr.io/intel/llvm/ubuntu2204_build /bin/bash

二.编译unified-runtime

git clone https://github.com/oneapi-src/unified-runtime
cd unified-runtime
mkdir build
cd build
cmake -DUR_BUILD_ADAPTER_CUDA=ON -DUR_BUILD_ADAPTER_NATIVE_CPU=ON -DUMF_DISABLE_HWLOC=ON ..
make

三.生成一个cuda ptx kernel

tee cuda_copy.cu<<-'EOF'
#include <iostream>
#include <cuda_runtime.h>
#include <iostream>
#include <vector>
#include <stdio.h>
#include <assert.h>
#include <cstdio>
#include <cuda.h>__global__ void kernel_copy(float *input,float *output)
{unsigned int tid  = threadIdx.x + blockIdx.x * blockDim.x;output[tid]=input[tid];
}
EOF
/usr/local/cuda/bin/nvcc -std=c++17 -dc -lineinfo -arch=sm_86 -ptx cuda_copy.cu -o cuda_copy.ptx

四.API测试

tee um_query_device.cpp<<-'EOF'
#include <iostream>
#include <memory>
#include <stdlib.h>
#include <vector>
#include <iostream>
#include <fstream>
#include <sstream>
#include "ur_api.h"#define ur_check(call) \do { \ur_result_t error = call; \if (error != UR_RESULT_SUCCESS) { \fprintf(stderr, " error in file '%s' in line %i: %d.\n", __FILE__, __LINE__,error); \exit(EXIT_FAILURE); \} \} while (0)constexpr unsigned PAGE_SIZE = 4096;
template <typename T, size_t N> struct alignas(PAGE_SIZE) AlignedArray {T data[N];
};int main(int, char *[]) {ur_result_t status;ur_check(urLoaderInit(0, nullptr));std::cout << "Platform initialized.\n";uint32_t adapterCount = 0;std::vector<ur_adapter_handle_t> adapters;uint32_t platformCount = 0;std::vector<ur_platform_handle_t> platforms;ur_check(urAdapterGet(0, nullptr, &adapterCount));adapters.resize(adapterCount);ur_check(urAdapterGet(adapterCount, adapters.data(), nullptr));ur_check(urPlatformGet(adapters.data(), adapterCount, 1, nullptr,&platformCount));platforms.resize(platformCount);ur_check(urPlatformGet(adapters.data(), adapterCount, platformCount,platforms.data(), nullptr));for (auto p : platforms) {ur_api_version_t api_version = {};ur_check(urPlatformGetApiVersion(p, &api_version));std::cout << "API version: " << UR_MAJOR_VERSION(api_version) << "."<< UR_MINOR_VERSION(api_version) << std::endl;uint32_t deviceCount = 0;ur_check(urDeviceGet(p, UR_DEVICE_TYPE_GPU, 0, nullptr, &deviceCount));std::vector<ur_device_handle_t> devices(deviceCount);ur_check(urDeviceGet(p, UR_DEVICE_TYPE_GPU, deviceCount, devices.data(),nullptr));for (auto d : devices) {ur_device_type_t device_type = UR_DEVICE_TYPE_ALL;ur_check(urDeviceGetInfo(d, UR_DEVICE_INFO_TYPE, sizeof(ur_device_type_t),static_cast<void *>(&device_type), nullptr));static const size_t DEVICE_NAME_MAX_LEN = 1024;char device_name[DEVICE_NAME_MAX_LEN] = {0};ur_check(urDeviceGetInfo(d, UR_DEVICE_INFO_NAME, DEVICE_NAME_MAX_LEN - 1,static_cast<void *>(&device_name), nullptr));if (device_type == UR_DEVICE_TYPE_GPU) {std::cout << "Found a " << device_name << " gpu.\n";}ur_context_handle_t hContext;ur_check(urContextCreate(1, &d, nullptr, &hContext));std::ifstream inputFile("cuda_copy.ptx");std::ostringstream buffer;buffer << inputFile.rdbuf(); std::string fileContent = buffer.str();inputFile.close();ur_program_handle_t hProgram;ur_check(urProgramCreateWithBinary(hContext, d, fileContent.length(), (const uint8_t *)fileContent.c_str(),nullptr,&hProgram));constexpr int a_size = 32;AlignedArray<float, a_size> a, b;for (auto i = 0; i < a_size; ++i) {a.data[i] = a_size - i;b.data[i] = 0;}status=urProgramBuild(hContext, hProgram, nullptr);ur_mem_handle_t dA, dB;ur_check(urMemBufferCreate(hContext, UR_MEM_FLAG_READ_WRITE,a_size * sizeof(int), nullptr, &dA));ur_check(urMemBufferCreate(hContext, UR_MEM_FLAG_READ_WRITE,a_size * sizeof(int), nullptr, &dB));ur_kernel_handle_t hKernel;ur_check(urKernelCreate(hProgram, "_Z11kernel_copyPfS_", &hKernel));ur_check(urKernelSetArgMemObj(hKernel, 0, nullptr, dA));ur_check(urKernelSetArgMemObj(hKernel, 1, nullptr, dB));ur_queue_handle_t queue;ur_check(urQueueCreate(hContext, d, nullptr, &queue));ur_check(urEnqueueMemBufferWrite(queue, dA, true, 0, a_size * sizeof(float),a.data, 0, nullptr, nullptr));ur_check(urEnqueueMemBufferWrite(queue, dB, true, 0, a_size * sizeof(float),b.data, 0, nullptr, nullptr));const size_t gWorkOffset[] = {0, 0, 0};const size_t gWorkSize[] = {a_size, 1, 1};const size_t lWorkSize[] = {1, 1, 1};ur_event_handle_t event;ur_check(urEnqueueKernelLaunch(queue, hKernel, 3, gWorkOffset, gWorkSize,lWorkSize, 0, nullptr, &event));ur_check(urEnqueueMemBufferRead(queue, dB, true, 0, a_size * sizeof(int),b.data, 1, &event, nullptr));ur_check(urQueueFinish(queue));ur_check(urContextRelease(hContext));for (auto i = 0; i < a_size; ++i) {printf("%.2f\n",b.data[i]);}}}
out:for (auto adapter : adapters) {urAdapterRelease(adapter);}urLoaderTearDown();return status == UR_RESULT_SUCCESS ? 0 : 1;
}
EOF
g++ -o um_query_device um_query_device.cpp -I../include  -L lib -lur_loader -lpthread
LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$PWD/lib ./um_query_device

unified-runtime编译与验证

unified-runtime编译与验证一.创建容器二.编译unified-runtime三.生成一个cuda ptx kernel四.API测试 unified-runtime编译与验证一.创建容器 docker run --gpus all --shm-size32g -ti \-e NVIDIA_VISIBLE_DEVICESall --privileged --nethost \--rm -it \-v $PWD:/home \-…...

编程日记 2024/10/20 6:56:38

【Python】最详细--基础语法

Python是一种强大且易于学习的编程语言，广泛用于各种应用程序的开发，如web开发、数据科学、人工智能等。以下是一些Python的基础知识： 1. Python的注释 Python的注释用于在代码中添加说明，以提高代码的可读性。注释在代码执行时…...

编程日记 2024/10/20 6:55:37

二叉树基础：什么样的二叉树适合用数组来存储？

二叉树基础：什么样的二叉树适合用数组来存储？在计算机科学中，二叉树是一种非常重要的数据结构。它具有许多应用，如搜索、排序、表达式解析等。在存储二叉树时，我们可以使用多种方法，其中一种是使用数组。但是，并不是所有的二叉树都适合用数组来存储。那么，什么样的二…...

编程日记 2024/10/20 6:53:36

iTOP-RK3568开发板独立NPU通过算法加特应用到以下的场景

iTOP-3568开发板采用瑞芯微RK3568处理器，内部集成了四核64位Cortex-A55处理器。主频高达2.0Ghz，RK809动态调频。集成了双核心架构GPU，ARM G52 2EE、支持OpenGLES1.1/2.0/3.2、OpenCL2.0、Vulkan1.1、内嵌高性能2D加速硬件。内置独立NPU,算力…...

编程日记 2024/10/20 6:51:34

Java基于SpringBoot微信小程序的跳蚤市场系统设计与实现(lw+数据库+讲解等)

项目运行截图技术框架后端采用SpringBoot框架 Spring Boot 是一个用于快速开发基于 Spring 框架的应用程序的开源框架。它采用约定大于配置的理念，提供了一套默认的配置，让开发者可以更专注于业务逻辑而不是配置文件。Spring Boot 通过自动化配置和约…...

编程日记 2024/10/20 6:50:32

【分布式微服务云原生】《Redis 的高效之道：线程模型、IO 模型与 Reactor 模型全解析》

标题：《分布式缓存Redis 的高效之道：线程模型、IO 模型与 Reactor 模型全解析》摘要：本文深入探讨分布式缓存 Redis 的 I线程模型、IO 模型以及 Reactor 模型。详细介绍了 Redis 在不同版本中的线程变化、IO 模型的特点和工作流程&#xff…...

编程日记 2024/10/20 6:49:31

科研类型PPT的制作技巧

目录科研类型PPT的制作技巧荣誉：首页：ppt开头结尾小标题重点标记：加粗红色下划线使用三线表图片，文本排版一、明确目的与受众分析二、基础设计原则三、内容组织与呈现四、绘图与模型制作五、其他注意事项科研类型PPT的制作技巧荣誉：首页：ppt开…...

编程日记 2024/10/20 6:48:30

rom定制系列------小米6x_MIUI14_安卓13刷机包修改写入以及功能定制界面预览

在接待一些定制化系统中。有很多工作室或者一些特殊行业的友友需要在已有固件基础上简略修改其中的功能。方便使用。例如usb调试默认开启。usb安装设置以及usb安装与内置删减一些app的定制服务。今天给友友预览其中小米6X此款机型定制相关的一些界面与功能演示。定制机型以及…...

编程日记 2024/10/20 6:46:29

线性代数基础02

目录 1.向量 1.1向量的定义 1.2向量的运算 1.2.1向量加法 1.2.2向量数乘 1.2.3向量点积 1.3矩阵的特征值和特征向量 1.4向量的模 1.4.1向量的模的定义 1.4.2向量的模的几何解释 1.4.3向量的模的性质 1.5向量的内积 1.5.1向量的内积的定义 1.5.2向量的内积的几何解…...

编程日记 2024/10/20 6:44:26

「4.4」祖孙询问

「4.4」祖孙询问题目描述已知一棵 n 个节点的有根树。有 m 个询问，每个询问给出了一对节点的编号 x 和 y，询问 x 与 y 的祖孙关系。输入格式输入第一行包括一个整数 n 表示节点个数； 接下来 n 行每行一对整数对 a 和 b 表示 a 和 b 之…...

编程日记 2024/10/20 6:42:24

Datawhale 组队学习文生图 Prompt攻防 task03随笔

这期我们从不同角度切入探讨赛题的进阶思路思路1：对比不同大模型首先我们可以选择尝试不同的大模型，使用更复杂的大模型可以提高文本改写的质量和效果。随着模型大小的增加，其表示能力也随之增强，能够捕捉更细微的语言特征和语…...

编程日记 2024/10/20 6:39:22

游戏投屏软件有哪些？分享这10款比较好用的！

说到投屏，这个事情我还是比较有发言权的！ 一般手机下载个APP，然后就可以通过WiFi、蓝牙或者USB进行连接投屏啦，下面是国内比较主流的一些游戏投屏软件，可以根据他们的优缺点进行选择哦！ 01.幕连国内首款…...

编程日记 2024/10/20 6:38:21

[Unity Demo]从零开始制作空洞骑士Hollow Knight第十六集（下篇）：制作小BOSS龙牙哥

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、制作小BOSS龙牙哥 1.导入素材制作动画2.制作两种攻击行为3.制作从惊醒到转身到走路or跑步行为总结前言 hello大家好久没见，之所以隔了一天时间…...

编程日记 2024/10/20 6:36:20

顺序表算法题【不一样的解法！】

本章概述算法题1算法题2算法题3彩蛋时刻！！！ 算法题1 力扣：移除元素我们先来看这个题目的要求描述： 把与val相同数值的元素移除掉，忽略元素的相对位置变化，然后返回剩下与val值不同的元素个数…...

编程日记 2024/10/20 6:34:17

VuePress的基本常识

今天大概了解了一下Vuepress，感觉很棒，看着极其简单，自己也想做一个，后续我大概率也会做一个用Vuepress为基础做的博客网站，很酷~ 哈哈哈，下面是我今天学习Vuepress的一些内容，简单分享下&#…...

编程日记 2024/10/20 6:33:16

深入解析Vue2与Vue3的区别与Vue3的提升

Vue.js作为一款流行的前端框架，自发布以来，凭借其简洁的语法、灵活的组件化和高效的性能，赢得了众多开发者的喜爱。随着Vue3的发布，许多新特性和新功能也应运而生。那么，Vue2与Vue3究竟有哪些区别呢？Vue3又…...

编程日记 2024/10/20 6:32:15

认识python数据分析

Python作为一种高效、灵活且易于学习的编程语言，在数据分析领域展现出了强大的应用潜力。从数据清洗、预处理到复杂的统计分析、可视化及机器学习模型的构建，Python提供了丰富的库和框架，极大地简化了数据分析的流程，提高了工作…...

编程日记 2024/10/20 6:31:14

以太网交换安全：MAC地址漂移与检测（实验：二层环路+网络攻击）

一、什么是MAC地址漂移？ MAC地址漂移是指网络中设备的MAC地址在运行过程中发生变化的现象。 MAC地址是用于唯一标识网络中的设备。 MAC地址漂移是指交换机上一个VLAN内有两个端口学习到同一个MAC地址，后学习到的MAC地址表项覆盖原MAC地址表项的现象。…...

编程日记 2024/10/20 6:29:12

NeRF三维重建—神经辐射场Neural Radiance Field（二）体渲染相关

NeRF三维重建—神经辐射场Neural Radiance Field（二）体渲染相关粒子采集部分粒子采集的部分我们可以理解为，在已知粒子的情况下，对图片进行渲染的一个正向的过程。空间坐标(x,y,z）发射的光线通过相机模型成为图片上…...

编程日记 2024/10/20 6:27:09

软件测试工程师：如何写出好的测试用例？

软件测试用例(Test Case)是软件测试过程中的一种详细文档或描述，用于描述在特定条件下，对软件系统或组件进行测试的步骤、输入数据、预期输出和预期行为。编写高质量的测试用例是确保软件质量的关键步骤之一。以下是一些编写优秀测试用例的建议&#xff…...

编程日记 2024/10/20 6:26:08

基于Vue的青年志愿者乡村服务管理系统[vue]-计算机毕业设计源码+LW文档

摘要：随着乡村振兴战略的深入实施，青年志愿者在乡村服务中的作用日益凸显。为了提高青年志愿者光明村乡村服务的管理效率和质量，本文设计并实现了一个基于Vue的青年志愿者乡村服务管理系统。本文详细阐述了系统的开发背景、相关技术、需求分析…...

编程新知 2026/4/7 23:10:25

2026.04.02随记

1、DL1、反向传播（backward propagation）：是计算网络参数梯度的方法，用链式法则，从输出层到输入层遍历，算出每个参数该怎么改。反向传播中每一个记录的梯度都是该函数的导数。梯度下降不等于反向传播&#…...

编程新知 2026/4/7 21:20:41

品牌承诺怎么写：一句承诺如何既让客户心动，又不让企业冒进

在很多B2B企业的品牌项目中，品牌承诺通常是一个非常容易被“重视错方向”的模块。企业往往会把大量注意力放在“这句话够不够有气势”“够不够像品牌”“销售讲起来顺不顺”，但忽略了一个更底层的问题：这句话一旦公开使用，企业到…...

编程新知 2026/4/7 19:55:17

探索TMSpeech：解锁Windows本地实时语音转文字的高效工作流

探索TMSpeech：解锁Windows本地实时语音转文字的高效工作流【免费下载链接】TMSpeech 腾讯会议摸鱼工具项目地址: https://gitcode.com/gh_mirrors/tm/TMSpeech 还在为会议记录手忙脚乱？还在为在线课程跟不上节奏而烦恼？TMSpeech为你…...

编程新知 2026/4/7 19:32:45

查重 AIGC 率双杀！Paperxie AI：从红标警告到绿码通关的终极方案

paperxie-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/AIPPThttps://www.paperxie.cn/weight?type1https://www.paperxie.cn/weight?type1 深夜的宿舍里，本科生小张盯着电脑屏幕上的检测报告，心脏跟着数据狂跳 —— 知网查重率 42%&…...

编程新知 2026/4/7 19:00:24

3分钟搞定Axure RP中文界面：告别英文困扰，专注原型设计

3分钟搞定Axure RP中文界面：告别英文困扰，专注原型设计【免费下载链接】axure-cn Chinese language file for Axure RP. Axure RP 简体中文语言包。支持 Axure 11、10、9。不定期更新。项目地址: https://gitcode.com/gh_mirrors/ax/axure-cn 还…...

编程新知 2026/4/7 18:44:10

Python多线程详解：原理、应用场景与实战指南（I_O密集型首选）

Python多线程详解：原理、应用场景与实战指南（I/O密集型首选） 在Python并发编程领域，多线程是最基础、最常用的并发实现方式，凭借轻量、易上手、数据共享便捷等优势，成为处理I/O密集型任务的首选方案。很多P…...

编程新知 2026/4/7 18:21:43

MVP.css暗黑模式终极指南：如何完美适配用户偏好与系统设置

MVP.css暗黑模式终极指南：如何完美适配用户偏好与系统设置【免费下载链接】mvp MVP.css — Minimalist classless CSS stylesheet for HTML elements 项目地址: https://gitcode.com/gh_mirrors/mv/mvp MVP.css是一款极简主义的无类CSS样式表，为…...

编程新知 2026/4/7 17:18:50

黑豹X2（Panther-x2）刷机实战：Armbian系统部署与Jellyfin硬件加速配置

1. 黑豹X2设备与Armbian系统简介黑豹X2（Panther-x2）是一款基于Rockchip RK3566处理器的ARM架构迷你电脑，标配4GB内存和32GB eMMC存储，配备千兆网口、TF卡扩展槽以及无线蓝牙模块。这款设备最大的亮点在于其内置的NPU（…...

编程新知 2026/4/7 16:48:39

Spring Security框架从入门到精通！

安全管理是Java应用开发中无法避免的问题，随着Spring Boot和微服务的流行，Spring Security受到越来越多Java开发者的重视，究其原因,还是沾了微服务的光。作为Spring家族中的一员,其在和Spring家族中的其他产品如SpringBoot、Spring Cloud等进…...

编程新知 2026/4/7 16:24:30

unified-runtime编译与验证

一.创建容器

二.编译unified-runtime

三.生成一个cuda ptx kernel

四.API测试

相关文章：