当前位置：首页 > news >正文

【模型推理优化学习笔记】CUDA加速矩阵乘计算

news 2026/4/25 21:46:51

矩阵乘可以利用gpu多线程并行的特点进行加速计算，但是传统简单的方法需要多次读取数据到寄存器中，增加耗时，因此利用gpu的共享内存可以被一个block内的所有线程访问到的特性，结合tiling技术进行加速计算。
理论部分不解释了，网上有很多，关键在于网上很多利用共享内存计算的代码存在错误（大部分只有在设置blockDim.x == blockDim.y 的时候，凑巧能对齐index给出正确的结果，若这俩不等，结果就错了），这里给出一个修正的版本：

#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <math.h>
#include <assert.h>
#include "cuda_runtime.h"
#include "device_launch_parameters.h"#define M 32
#define K 32
#define N 32void initial(float *array, int size)
{for (int i = 0; i < size; i++){array[i] = (float)(1);}
}void printMatrix(float *array, int row, int col)
{float *p = array;for (int y = 0; y < row; y++){for (int x = 0; x < col; x++){printf("%.2f ", p[x]);}p = p + col;printf("\n");}return;
}__global__ void multiplicateMatrixOnDevice(float *array_A, float *array_B, float *array_C, int M_p, int K_p, int N_p)
{int ix = threadIdx.x + blockDim.x*blockIdx.x;//row numberint iy = threadIdx.y + blockDim.y*blockIdx.y;//col numberif (ix < N_p && iy < M_p){float sum = 0;for (int k = 0; k < K_p; k++){sum += array_A[iy*K_p + k] * array_B[k*N_p + ix];}array_C[iy*N_p + ix] = sum;}
}// Compute C = A * B
//  M, K, K, N, M, N
__global__ void matrixMultiplyShared(float *A, float *B, float *C,int numARows, int numAColumns, int numBRows, int numBColumns, int numCRows, int numCColumns)
{//@@ Insert code to implement matrix multiplication here//@@ You have to use shared memory for this MP// 1. 相比网上代码，修改这里的index__shared__ float sharedM[8][16];  __shared__ float sharedN[16][8];  int bx = blockIdx.x;  int by = blockIdx.y; int tx = threadIdx.x; int ty = threadIdx.y; int row = by * blockDim.y + ty;     int col = bx * blockDim.x + tx;     float Csub = 0.0;// for (int i = 0; i < 2; ++i)     for (int i = 0; i < (int)(ceil((float)numAColumns / blockDim.x)); i++){if (i*blockDim.x + tx < numAColumns && row < numARows)sharedM[ty][tx] = A[row*numAColumns + i*blockDim.x + tx];elsesharedM[ty][tx] = 0.0;// 2. 相比网上代码，修改这里的indexif (i*blockDim.x + tx < numBRows && col < numBColumns)sharedN[tx][ty] = B[(i*blockDim.x + tx)*numBColumns + col];elsesharedN[tx][ty] = 0.0;__syncthreads();// if (blockIdx.x == 0 && blockIdx.y == 1 && threadIdx.x == 0 && threadIdx.y ==0 ) {//     printf("sharedM: \n");//     for (int i = 0; i < 8; ++i) {//         for (int j = 0; j < 16; ++j) {//             printf("%f ", sharedM[i][j]);//         }//         printf("\n");//     }//     printf("sharedN: \n");//     for (int i = 0; i < 16; ++i) {//         for (int j = 0; j < 8; ++j) {//             printf("%f ", sharedM[i][j]);//         }//         printf("\n");//     }// }for (int j = 0; j < blockDim.x; j++)// 3. 相比网上代码，修改这里的indexCsub += sharedM[ty][j] * sharedN[j][ty];__syncthreads();}if (row < numCRows && col < numCColumns)C[row*numCColumns + col] = Csub;}int main(int argc, char **argv)
{clock_t start = 0, finish = 0;float time;int Axy = M * K;int Bxy = K * N;int Cxy = M * N;float *h_A, *h_B, *hostRef, *deviceRef;h_A = (float*)malloc(Axy * sizeof(float));h_B = (float*)malloc(Bxy * sizeof(float));int nBytes = M * N * sizeof(float);hostRef = (float*)malloc(Cxy * sizeof(float));deviceRef = (float*)malloc(Cxy * sizeof(float));initial(h_A, Axy);initial(h_B, Bxy);// printMatrix(h_A, M, K);float *d_A, *d_B, *d_C;cudaMalloc((void**)&d_A, Axy * sizeof(float));cudaMalloc((void**)&d_B, Bxy * sizeof(float));cudaMalloc((void**)&d_C, Cxy * sizeof(float));cudaMemcpy(d_A, h_A, Axy * sizeof(float), cudaMemcpyHostToDevice);cudaMemcpy(d_B, h_B, Bxy * sizeof(float), cudaMemcpyHostToDevice);int dimx = 16;int dimy = 16;dim3 block(dimx, dimy);dim3 grid((M + block.x - 1) / block.x, (N + block.y - 1) / block.y);cudaEvent_t gpustart, gpustop;float elapsedTime = 0.0;cudaEventCreate(&gpustart);cudaEventCreate(&gpustop);cudaEventRecord(gpustart, 0);// multiplicateMatrixOnDevice<<<grid,block>>> (d_A, d_B, d_C, M, K, N);matrixMultiplyShared << < grid, block >> > (d_A, d_B, d_C, M, K, K, N, M, N);cudaDeviceSynchronize();cudaEventRecord(gpustop, 0);cudaEventSynchronize(gpustop);cudaEventElapsedTime(&elapsedTime, gpustart, gpustop);cudaEventDestroy(gpustart);cudaEventDestroy(gpustop);cudaMemcpy(deviceRef, d_C, Cxy * sizeof(float), cudaMemcpyDeviceToHost);printMatrix(deviceRef, M, N);return 0;
}

【模型推理优化学习笔记】CUDA加速矩阵乘计算

相关文章：

【模型推理优化学习笔记】CUDA加速矩阵乘计算

第三届 “鹏城杯”（初赛）

React Hooks为什么要在顶层使用？

Vscode Vim自动切换

C语言初学1：详解#include ＜stdio.h＞

5 Tensorflow图像识别（下）模型构建

OpenCV 图像复制和图像区域读写

【分布式事务】初步探索分布式事务的概率和理论，初识分布式事的解决方案 Seata，TC 服务的部署以及微服务集成 Seata

es6过滤对象里面指定的不要的值filter过滤

Docker从入门到上天系列第二篇：传统虚拟机和容器的对比以及Docker的作用以及所解决的问题

共话医疗数据安全，美创科技@2023南湖HIT论坛，11月11日见

乐园要吸引儿童还是家长？万达宝贝王2000万会员的求精之路

ps人像怎么做渐隐的效果?

为什么IN操作符一般比OR操作符清单执行更快

GPT-4-Turbo的128K长度上下文性能如何？超过73K Tokens的数据支持依然不太好！

osg之黑夜背景地月系显示

持续交付-Jenkinsfile 语法

IDEA重新choose source

解析虚拟文件系统的调用

佳能相机拍出来的dat文件怎么修复为正常视频

【仅开放72小时】CUDA 13.3.1生产环境适配清单（含PyTorch 2.4/DeepSpeed 0.14/Triton 3.0兼容性矩阵+17个已验证patch）

iFEM深度解析：MATLAB自适应有限元方法框架的性能突破

解决方案：Open WebUI自托管AI平台 - 企业级私有化部署与安全AI交互指南

QQ空间历史说说完整备份指南：GetQzonehistory让你一键保存青春记忆

告别理论！用一张‘眼图’看懂你的GTX链路信号质量（误码率、抖动、噪声容限全解析）

保姆级教程：在RK3399 Android8.1上搞定LT9211 MIPI转LVDS驱动移植（附完整DTS配置）

3步构建你的专属音频空间：从基础调校到专业级系统音频优化

B站M4S转MP4终极指南：三分钟学会视频备份完整方案

手把手教你用北太天元复现经典MATLAB三维绘图（附完整代码与对比图）

Oumuamua-7b-RP参数详解：max_length=512对日语长句生成完整性的影响