当前位置：首页 > news >正文

DLA :pytorch添加算子

news 2025/6/20 7:47:07

pytorch的C++ extension写法

这部分主要介绍如何在pytorch中添加自定义的算子，需要以下cuda基础。就总体的逻辑来说正向传播需要输入数据，反向传播需要输入数据和上一层的梯度，然后分别实现这两个kernel,将这两个kernerl绑定到pytorch即可。

add

但实际上来说，这可能不是一个很好的教程，因为加法中没有对输入的grad_out进行继续的操作(不用写cuda的操作)。所以实际上只需要正向传播的launch_add2函数。更重要的是作者大佬写了博客介绍。

// https://github.com/godweiyang/NN-CUDA-Example/blob/master/kernel/add2_kernel.cu__global__ void add2_kernel(float* c,const float* a,const float* b,int n) {for (int i = blockIdx.x * blockDim.x + threadIdx.x; \i < n; i += gridDim.x * blockDim.x) {c[i] = a[i] + b[i];}
}void launch_add2(float* c,const float* a,const float* b,int n) {// 创建 [(n + 1023) / 1024 ，1 ，1]的三维向量数据dim3 grid((n + 1023) / 1024);//dim3 为CUDA中三维向量结构体// 创建 [1024 ，1 ，1]的三维向量数据dim3 block(1024);// 函数add2_kernel实现两个n维向量相加// 共有(n + 1023) / 1024*1*1个block , 每个block有1024*1*1个线程add2_kernel<<<grid, block>>>(c, a, b, n);
}

在这里插入图片描述

binary activation function

正向计算为：

x > 1 ? 1 : -1;// 也可以使用sign() 函数（求符号函数）实现

这篇文章作者没有自己写正向传播的算子，使用的是at::sign

// https://github1s.com/jxgu1016/BinActivateFunc_PyTorch/blob/master/src/cuda/BinActivateFunc_cuda.cpp#L17-L22
at::Tensor BinActivateFunc_forward(at::Tensor input) 
{CHECK_INPUT(input);return at::sign(input);
}

这篇文章用的Setuptools将写好的算子和pytorch链接起来，运行时需要安装一下（JIT运行时编译也很香，代码直接运行，就是cmakelist.txt需要各种环境配置很麻烦）。绑定部分见链接。以下是作者实现的反向传播的kernel:

// https://github.com/jxgu1016/BinActivateFunc_PyTorch/blob/master/src/cuda/BinActivateFunc_cuda_kernel.cu
#include <ATen/ATen.h>#include <cuda.h>
#include <cuda_runtime.h>#include <vector>// CUDA: grid stride looping
#define CUDA_KERNEL_LOOP(i, n) \for (int i = blockIdx.x * blockDim.x + threadIdx.x; i < (n); i += blockDim.x * gridDim.x)namespace {
template <typename scalar_t>
__global__ void BinActivateFunc_cuda_backward_kernel(const int nthreads,const scalar_t* __restrict__ input_data,scalar_t* __restrict__ gradInput_data) 
{CUDA_KERNEL_LOOP(n, nthreads) {if (*(input_data + n) > 1 || *(input_data + n) < -1) {*(gradInput_data + n) = 0;}}
}
} // namespaceint BinActivateFunc_cuda_backward(at::Tensor input,at::Tensor gradInput) 
{const int nthreads = input.numel();const int CUDA_NUM_THREADS = 1024;const int nblocks = (nthreads + CUDA_NUM_THREADS - 1) / CUDA_NUM_THREADS;AT_DISPATCH_FLOATING_TYPES(input.type(), "BinActivateFunc_cuda_backward", ([&] {BinActivateFunc_cuda_backward_kernel<scalar_t><<<nblocks, CUDA_NUM_THREADS>>>(nthreads,input.data<scalar_t>(),gradInput.data<scalar_t>());}));return 1;
}

swish

// https://github1s.com/thomasbrandon/swish-torch/blob/HEAD/csrc/swish_kernel.cu
#include <torch/types.h>
#include <cuda_runtime.h>
#include "CUDAApplyUtils.cuh"// TORCH_CHECK replaces AT_CHECK in PyTorch 1,2, support 1.1 as well.
#ifndef TORCH_CHECK
#define TORCH_CHECK AT_CHECK
#endif#ifndef __CUDACC_EXTENDED_LAMBDA__
#error "please compile with --expt-extended-lambda"
#endifnamespace kernel {
#include "swish.h"using at::cuda::CUDA_tensor_apply2;
using at::cuda::CUDA_tensor_apply3;
using at::cuda::TensorArgType;template <typename scalar_t>
void
swish_forward(torch::Tensor &output,const torch::Tensor &input
) {CUDA_tensor_apply2<scalar_t,scalar_t>(output, input,[=] __host__ __device__ (scalar_t &out, const scalar_t &inp) {swish_fwd_func(out, inp);},TensorArgType::ReadWrite, TensorArgType::ReadOnly);
}template <typename scalar_t>
void
swish_backward(torch::Tensor &grad_inp,const torch::Tensor &input,const torch::Tensor &grad_out
) {CUDA_tensor_apply3<scalar_t,scalar_t,scalar_t>(grad_inp, input, grad_out,[=] __host__ __device__ (scalar_t &grad_inp, const scalar_t &inp, const scalar_t &grad_out) {swish_bwd_func(grad_inp, inp, grad_out);},TensorArgType::ReadWrite, TensorArgType::ReadOnly, TensorArgType::ReadOnly);
}} // namespace kernelvoid
swish_forward_cuda(torch::Tensor &output, const torch::Tensor &input
) {auto in_arg  = torch::TensorArg(input,  "input",  0),out_arg = torch::TensorArg(output, "output", 1);torch::checkAllDefined("swish_forward_cuda", {in_arg, out_arg});torch::checkAllSameGPU("swish_forward_cuda", {in_arg, out_arg});AT_DISPATCH_FLOATING_TYPES_AND_HALF(input.scalar_type(), "swish_forward_cuda", [&] {kernel::swish_forward<scalar_t>(output, input);});
}void
swish_backward_cuda(torch::Tensor &grad_inp, const torch::Tensor &input, const torch::Tensor &grad_out
) {auto gi_arg = torch::TensorArg(grad_inp, "grad_inp", 0),in_arg = torch::TensorArg(input,    "input",    1),go_arg = torch::TensorArg(grad_out, "grad_out", 2);torch::checkAllDefined("swish_backward_cuda", {gi_arg, in_arg, go_arg});torch::checkAllSameGPU("swish_backward_cuda", {gi_arg, in_arg, go_arg});AT_DISPATCH_FLOATING_TYPES_AND_HALF(grad_inp.scalar_type(), "swish_backward_cuda", [&] {kernel::swish_backward<scalar_t>(grad_inp, input, grad_out);});
}

cg

ScatWave是使用CUDA散射的Torch实现,主要使用lua语言https://github.com/edouardoyallon/scatwave
https://github.com/huangtinglin/PyTorch-extension-Convolution
This is a tutorial to explore how to customize operations in PyTorch.
https://pytorch.org/tutorials/advanced/cpp_extension.html
台湾博主 Pytorch+cpp/cuda extension 教學 tutorial 1 - English CC - B站搬运地址
pytorch的C++ extension写法
https://github.com/salinaaaaaa/NVIDIA-GPU-Tensor-Core-Accelerator-PyTorch-OpenCV
https://github.com/MariyaSha/Inference_withTorchTensorRT
项目介绍了简单的CUDA入门，涉及到CUDA执行模型、线程层次、CUDA内存模型、核函数的编写方式以及PyTorch使用CUDA扩展的两种方式。通过该项目可以基本入门基于PyTorch的CUDA扩展的开发方式。

RWKV CUDA

实例：手写 CUDA 算子，让 Pytorch 提速 20 倍（某特殊算子） https://zhuanlan.zhihu.com/p/476297195
https://github.com/BlinkDL/RWKV-CUDA
The CUDA version of the RWKV language model

数据加速

用于在 Pytorch 中更快地固定 CPU <-> GPU 传输的库

环境

Docker images and github actions for building packages containing PyTorch C++/CUDA extensions.
一个构建系统，用于生成（相对）轻量级和便携式的 PyPI 轮子，其中包含 PyTorch C++/CUDA 扩展。使用Torch Extension Builder构建的轮子动态链接到用户PyTorch安装中包含的Torch和CUDA库。最终用户计算机上不需要安装 CUDA。

CG

又发现一个部署工具

研究人员很难将机器学习模型交付到生产环境。解决方案的一部分是Docker，但要让它工作非常复杂：Dockerfiles，预/后处理，Flask服务器，CUDA版本。通常情况下，研究人员必须与工程师坐下来部署该死的东西。安德烈亚斯和本创造了Cog。Andreas曾经在Spotify工作，在那里他构建了使用Docker构建和部署ML模型的工具。Ben 曾在 Docker 工作，在那里他创建了 Docker Compose。我们意识到，除了Spotify之外，其他公司也在使用Docker来构建和部署机器学习模型。Uber和其他公司也建立了类似的系统。因此，我们正在制作一个开源版本，以便其他人也可以这样做。如果您有兴趣使用它或想与我们合作，请与我们联系。我们在 Discord 上或给我们发电子邮件 team@replicate.com.

DLA :pytorch添加算子

pytorch的C extension写法这部分主要介绍如何在pytorch中添加自定义的算子，需要以下cuda基础。就总体的逻辑来说正向传播需要输入数据，反向传播需要输入数据和上一层的梯度，然后分别实现这两个kernel,将这两个kernerl绑定到pytorch即可。 a…...

编程日记 2023/7/29 20:20:33

Java特殊时间格式转化

平常开发过程当中，我们可能会见到有的日期格式是这样的。 1、2022-12-21T12:20:1608:00 2、2022-12-21T12:20:16.0000800 3、2022-12-21T12:20:16.00008:00下面来说一下这种时间格式怎么转换第一种：2022-12-21T12:20:1608:00 代码如下： p…...

编程日记 2023/7/29 20:19:32

在CSDN学Golang云原生（Kubernetes声明式资源管理Kustomize）

一，生成资源在 Kubernetes 中，我们可以通过 YAML 或 JSON 文件来定义和创建各种资源对象，例如 Pod、Service、Deployment 等。下面是一个简单的 YAML 文件示例，用于创建一个 Nginx Pod： apiVersion: v1 kind: Pod m…...

编程日记 2023/7/29 20:18:31

后台管理系统中常见的三栏布局总结：使用element ui构建

vue2 使用 el-menu构建的列表布局： 列表可以折叠展开 <template><div class"home"><header><el-button type"primary" click"handleClick">切换</el-button></header><div class"conte…...

编程日记 2023/7/29 20:17:29

SpringCloud学习路线（10）——分布式搜索ElasticSeach基础

一、初识ES （一）概念： ES是一款开源搜索引擎，结合数据可视化【Kibana】、数据抓取【Logstash、Beats】共同集成为ELK（Elastic Stack），ELK被广泛应用于日志数据分析和实时监控等领域&#xff0…...

编程日记 2023/7/29 20:16:27

CSS翻转DIV展示顺序

项目国际化开发中，阿拉伯语是从右往左读的，在做样式兼容时，一些表单代码块也需要 label在右，表单在左。如果整个项目改div的话代价太大了，所以需要做样式翻转。 html <div class"container"><div …...

编程日记 2023/7/29 20:15:24

python 源码中 PyId_stdout 如何定义的

python 源代码中遇到一个变量名 PyId_stdout，搜不到在哪里定义的，如下只能搜到引用的位置（python3.8.10）： 找了半天发现是用宏来构造的声明语句： // filepath: Include/cpython/object.h typedef struct …...

编程日记 2023/7/29 20:14:23

Mybatis映射关系mybatis核心配置文件

目录 1.Mybatis映射关系 1.1一对一映射之resultType 1.2resultMap处理映射关系 2.mybatis核心配置文件 1. properties（属性） 2. settings（设置） 3.typeAliases（类型别名） 4.environments&#xff0…...

编程日记 2023/7/29 20:13:21

Mybatis中limit用法与分页查询

错误示范错误示范一： <select id"fileInspectionList" resultType"map">SELECT <include refid"aip_n_static_cols"/>FROM sys_inspection_form WHERE<if test" type admin.toString() ">dept_id …...

编程日记 2023/7/29 20:12:19

libcomposite: Unknown symbol config_group_init (err 0)

加载libcomposite.ko 失败问题描述如图，在做USB OTG 设备模式的时候需要用到libcomposite.ko驱动，加载失败了。原因&解决方法有一个依赖叫configfs.ko的驱动没有安装。可以从内核代码的fs/configfs/configfs.ko中找到这个驱动。先加载confi…...

编程日记 2023/7/29 20:11:17

Spring Tool Suite 4

参考：Spring tool suite4 安装及配置_springtoolsuite4_猿界零零七的博客-CSDN博客下载：Spring | Tools 将下载的JAR进行解压两次，直至解压出contents中的sts 双击启动第一次打开需要指定工作区文件夹配置Maven的config 安装插件...

编程日记 2023/7/29 20:10:16

带你读论文第三期：微软研究员、北大博士陈琪，荣获NeurIPS杰出论文奖

Datawhale干货来源：WhalePaper，负责人：芙蕖 WhalePaper简介由Datawhale团队成员发起，对目前学术论文中比较成熟的 Topic 和开源方案进行分享，通过一起阅读、分享论文学习的方式帮助大家更好地“高效全面自律”学习&…...

编程日记 2023/7/29 20:09:13

农业中的计算机视觉 2023

物体检测应用于检测田间收割机和果园苹果一、说明欢迎来到Voxel51的计算机视觉行业聚焦博客系列的第一期。每个月，我们都将重点介绍不同行业（从建筑到气候技术，从零售到机器人等）如何使用计算机视觉、机器学习和人工智能来推动…...

编程日记 2023/7/29 20:08:09

掌握三个基础平面构成法则优漫动游

1.图形重复：通过重复使用同一种或类似的图形元素,创造出一种有节奏、有重复感的视觉效果。这种设计手法可以使海报看起来更加统一和协调,增强视觉冲击力。掌握三个基础平面构成法则 2.字体重复：通过重复使用同一种或类似的字体元素,创造出一种有序…...

编程日记 2023/7/29 20:07:08

叶工好容5-日志与监控

目录前言平台维度 docker运行状态 cAdvisor-日志采集者 Heapster-日志收集 metrics-server-出生决定成败 kube-state-metrics-不完美中的完美应用维度日志部署方式输出方式工具选择日志接入监控 serviceMonitor Annotation Prometheus扩展性 Thanos …...

编程日记 2023/7/29 20:06:05

Dubbo 指定调用固定ip+port dubbo调用指定服务 dubbo调用不随机 dubbo自定义调用服务 dubbo点对点通信 dubbo指定ip

1. 在写分布式im时nami-im: 分布式im, 集群 zookeeper netty kafka nacos rpc主要为gate（长连接服务） logic （业务） lsb （负载均衡）store（存储） - Gitee.com，需要指定某一…...

编程日记 2023/7/29 20:05:04

BCNet论文精读

Title—标题 Boundary Constraint Network（边界约束网络） With Cross Layer Feature Integration（跨层特征融合） for Polyp Segmentation（息肉分割） 结构分析标题结构由三部分组成，分别是本文…...

编程日记 2023/7/29 20:04:01

PHP8的注释-PHP8知识详解

欢迎你来到PHP服务网，学习《PHP8知识详解》系列教程，本文学习的是《PHP8的注释》。什么是注释？ 注释是在程序代码中添加的文本，用于解释和说明代码的功能、逻辑或其他相关信息。注释通常不会被编译器或解释器处理，而…...

编程日记 2023/7/29 20:03:00

优化企业集成架构：iPaaS集成平台助力数字化转型

前言在数字化时代全面来临之际，企业正面临着前所未有的挑战与机遇。技术的迅猛发展与数字化转型正在彻底颠覆各行各业的格局，不断推动着企业迈向新的前程。然而，这一数字化时代亦衍生出一系列复杂而深奥的难题：各异系统之间数据…...

编程日记 2023/7/29 20:01:58

前端存储之sessionStorage和localStorage

sessionStorage sessionStorage是一种用于web浏览器中临时保存数据的客户端存储机制。它允许在同一个浏览器窗口的会话期间，保存和访问临时数据，而这些数据在用户关闭窗口或者标签页会被清除。每个sessionStorage对象都与当前的浏览器会话相关联&#x…...

编程日记 2023/7/29 20:00:54

XML Group端口详解

在XML数据映射过程中，经常需要对数据进行分组聚合操作。例如，当处理包含多个物料明细的XML文件时，可能需要将相同物料号的明细归为一组，或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码，增加了开…...

编程新知 2025/6/20 4:38:09

接口测试中缓存处理策略

在接口测试中，缓存处理策略是一个关键环节，直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性，避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明： 一、缓存处理的核…...

编程新知 2025/6/19 11:23:44

基于距离变化能量开销动态调整的WSN低功耗拓扑控制开销算法matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.算法仿真参数 5.算法理论概述 6.参考文献 7.完整程序 1.程序功能描述通过动态调整节点通信的能量开销，平衡网络负载，延长WSN生命周期。具体通过建立基于距离的能量消耗模型&am…...

编程新知 2025/6/19 14:11:39

三维GIS开发cesium智慧地铁教程（5）Cesium相机控制

一、环境搭建 <script src"../cesium1.99/Build/Cesium/Cesium.js"></script> <link rel"stylesheet" href"../cesium1.99/Build/Cesium/Widgets/widgets.css"> 关键配置点： 路径验证：确保相对路径.…...

编程新知 2025/6/18 6:28:46

阿里云ACP云计算备考笔记 (5)——弹性伸缩

目录第一章概述第二章弹性伸缩简介 1、弹性伸缩 2、垂直伸缩 3、优势 4、应用场景 ① 无规律的业务量波动 ② 有规律的业务量波动 ③ 无明显业务量波动 ④ 混合型业务 ⑤ 消息通知 ⑥ 生命周期挂钩 ⑦ 自定义方式 ⑧ 滚的升级 5、使用限制第三章主要定义 …...

编程新知 2025/6/19 7:23:26

从零实现富文本编辑器#5-编辑器选区模型的状态结构表达

先前我们总结了浏览器选区模型的交互策略，并且实现了基本的选区操作，还调研了自绘选区的实现。那么相对的，我们还需要设计编辑器的选区表达，也可以称为模型选区。编辑器中应用变更时的操作范围，就是以模型选区为基准来…...

编程新知 2025/6/18 11:37:54

《从零掌握MIPI CSI-2: 协议精解与FPGA摄像头开发实战》-- CSI-2 协议详细解析 (一）

CSI-2 协议详细解析 (一） 1. CSI-2层定义（CSI-2 Layer Definitions） 分层结构 ：CSI-2协议分为6层： 物理层（PHY Layer） ： 定义电气特性、时钟机制和传输介质（导线&#…...

编程新知 2025/6/16 14:41:13

【网络安全产品大调研系列】2. 体验漏洞扫描

前言 2023 年漏洞扫描服务市场规模预计为 3.06（十亿美元）。漏洞扫描服务市场行业预计将从 2024 年的 3.48（十亿美元）增长到 2032 年的 9.54（十亿美元）。预测期内漏洞扫描服务市场 CAGR（增长率&…...

编程新知 2025/6/17 14:38:11

连锁超市冷库节能解决方案：如何实现超市降本增效

在连锁超市冷库运营中，高能耗、设备损耗快、人工管理低效等问题长期困扰企业。御控冷库节能解决方案通过智能控制化霜、按需化霜、实时监控、故障诊断、自动预警、远程控制开关六大核心技术，实现年省电费15%-60%，且不改动原有装备、安装快捷、…...

编程新知 2025/6/17 10:28:36

【HTML-16】深入理解HTML中的块元素与行内元素

HTML元素根据其显示特性可以分为两大类：块元素(Block-level Elements)和行内元素(Inline Elements)。理解这两者的区别对于构建良好的网页布局至关重要。本文将全面解析这两种元素的特性、区别以及实际应用场景。 1. 块元素(Block-level Elements) 1.1 基本特性 …...

编程新知 2025/6/18 4:42:56

pytorch的C++ extension写法

add

binary activation function

swish

cg

RWKV CUDA

数据加速

环境

CG

相关文章：