当前位置：首页 > article >正文

CANN/SiP三维FFT接口文档

article 2026/5/10 5:28:05

FFT_3D【免费下载链接】sip本项目是CANN提供的一款高效、可靠的高性能信号处理算子加速库基于华为Ascend AI处理器专门为信号处理领域而设计。项目地址: https://gitcode.com/cann/sip产品支持情况产品是否支持Atlas 200I/500 A2 推理产品×Atlas 推理系列产品×Atlas 训练系列产品×Atlas A3 训练系列产品/Atlas A3 推理系列产品√Atlas A2 训练系列产品/Atlas A2 推理系列产品√Ascend 950PR/Ascend 950DT×功能说明接口功能asdFftMakePlan3D初始化三维FFT配置。asdFftExecC2C执行复数到复数的FFT变换。asdFftExecC2R执行复数到实数的FFT变换。asdFftExecR2C执行实数到复数的FFT变换。asdFftExecC2CSeparated执行复数到复数的FFT变换支持实部、虚部分开输入和输出。计算公式设有一个三维离散信号它的三维离散傅里叶变换定义为其中函数原型AspbStatus asdFftMakePlan3D( asdFftHandle handle, int64_t fftSizeX, int64_t fftSizeY, int64_t fftSizeZ, asdFftType fftType, asdFftDirection direction, int32_t batchSize)AspbStatus asdFftExecC2C( asdFftHandle handle, const aclTensor * input, const aclTensor * output)AspbStatus asdFftExecC2R( asdFftHandle handle, const aclTensor * input, const aclTensor * output)AspbStatus asdFftExecR2C( asdFftHandle handle, const aclTensor * input, const aclTensor * output)AspbStatus asdFftExecC2CSeparated( asdFftHandle handle, const aclTensor * inputReal, const aclTensor * inputImag, const aclTensor * outputReal, const aclTensor * outputImag)asdFftMakePlan3D参数说明参数名输入/输出描述handleasdFftHandle输入算子的句柄需要手动申请创建asdFftHandle对象。fftSizeXint64_t输入对应公式中的MFFT信号长度第一维。fftSizeYint64_t输入对应公式中的NFFT信号长度第二维。fftSizeZint64_t输入对应公式中的NFFT信号长度第三维。fftTypeasdFftType输入FFT变换类型ASCEND_FFT_C2C复数到复数的快速傅里叶变换。ASCEND_FFT_C2R复数到实数的快速傅里叶变换。ASCEND_FFT_R2C实数到复数的快速傅里叶变换。ASCEND_FFT_C2C_SEP复数到复数的分离式快速傅里叶变换。directionasdFftDirection输入选择FFT执行正向变换或反向变换ASCEND_FFT_FORWARD正向快速傅里叶变换。ASCEND_FFT_INVERSE逆向快速傅里叶变换。batchSizeint32_t输入FFT变换批处理操作中的数据批次数量。返回值返回状态码具体参见SiP返回码。asdFftExecC2C参数说明参数名输入/输出描述handleasdFftHandle输入算子的句柄需要手动申请创建asdFftHandle对象。inData aclTensor *输入对应公式中的x。数据类型支持COMPLEX64。数据格式支持ND。输入的shape为batchSizefftSizeXfftSizeYfftSizeZ。outDataaclTensor *输出对应公式中的y。数据类型支持COMPLEX64。数据格式支持ND。输入的shape为batchSizefftSizeXfftSizeYfftSizeZ。返回值返回状态码具体参见SiP返回码。asdFftExecC2R参数说明参数名输入/输出描述handleasdFftHandle输入算子的句柄需要手动申请创建asdFftHandle对象。inData aclTensor *输入对应公式中的x。数据类型支持COMPLEX64。数据格式支持ND。输入的shape为batchSizefftSizeXfftSizeYfftSizeZ/21。outDataaclTensor *输出对应公式中的y。数据类型支持FLOAT32。数据格式支持ND。输入的shape为batchSizefftSizeXfftSizeYfftSizeZ。返回值返回状态码具体参见SiP返回码。asdFftExecR2C参数说明参数名输入/输出描述handleasdFftHandle输入算子的句柄需要手动申请创建asdFftHandle对象。inData aclTensor *输入对应公式中的x。数据类型支持FLOAT32。数据格式支持ND。输入的shape为batchSizefftSizeXfftSizeYfftSizeZ。outDataaclTensor *输出对应公式中的y。数据类型支持COMPLEX64。数据格式支持ND。输入的shape为batchSizefftSizeXfftSizeYfftSizeZ/21。返回值返回状态码具体参见SiP返回码。asdFftExecC2CSeparated参数说明参数名输入/输出描述handleasdFftHandle输入算子的句柄需要手动申请创建asdFftHandle对象。inputReal aclTensor *输入公式中的x的实部。数据类型支持FLOAT32。数据格式支持ND。输入的shape为batchSizefftSize。inputImagaclTensor *输入公式中的x的虚部。数据类型支持FLOAT32。数据格式支持ND。输入的shape为batchSizefftSize。outputRealaclTensor *输出公式中的y的实部。数据类型支持FLOAT32。数据格式支持ND。输入的shape为batchSizefftSize。outputImagaclTensor *输出公式中的y的虚部。数据类型支持FLOAT32。数据格式支持ND。输入的shape为batchSizefftSize。返回值返回状态码具体参见SiP返回码。约束说明asdFftMakePlan3DfftSizeX、fftSizeY、fftSizeZ需保证不超过$2^{27}$且分解质因数后不包含超过199的质因子。batchSize在存储允许范围内应无额外约束。输入的元素个数理论支持[1$2^{30}$]。输入的元素不支持inf、-inf和nan如果输入中包含这些值, 那么结果为未定义。asdFftExecC2CSeparated 信号长度范围[2, 256]。调用示例示例代码如下该样例旨在提供快速上手、开发和调试算子的最小化实现其核心目标是使用最精简的代码展示算子的核心功能而非提供生产级的安全保障。不推荐用户直接将示例代码作为业务代码若用户将示例代码应用在自身的真实业务场景中且发生了安全问题则需用户自行承担。C2C_3D#include iostream #include vector #include asdsip.h #include acl/acl.h #include aclnn/acl_meta.h using namespace AsdSip; #define CHECK_RET(cond, return_expr) \ do { \ if (!(cond)) { \ return_expr; \ } \ } while (0) #define LOG_PRINT(message, ...) \ do { \ printf(message, ##__VA_ARGS__); \ } while (0) #define ASD_STATUS_CHECK(err) \ do { \ AsdSip::AspbStatus err_ (err); \ if (err_ ! AsdSip::ErrorType::ACL_SUCCESS) { \ std::cout Execute failed. std::endl; \ exit(-1); \ } \ } while (0) int64_t GetShapeSize(const std::vectorint64_t shape) { int64_t shapeSize 1; for (auto i : shape) { shapeSize * i; } return shapeSize; } int Init(int32_t deviceId, aclrtStream *stream) { // 固定写法AscendCL初始化 auto ret aclInit(nullptr); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclInit failed. ERROR: %d\n, ret); return ret); ret aclrtSetDevice(deviceId); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtSetDevice failed. ERROR: %d\n, ret); return ret); ret aclrtCreateStream(stream); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtCreateStream failed. ERROR: %d\n, ret); return ret); return 0; } template typename T int CreateAclTensor(const std::vectorT hostData, const std::vectorint64_t shape, void **deviceAddr, aclDataType dataType, aclTensor **tensor) { auto size GetShapeSize(shape) * sizeof(T); // 调用aclrtMalloc申请device侧内存 auto ret aclrtMalloc(deviceAddr, size, ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtMalloc failed. ERROR: %d\n, ret); return ret); // 调用aclrtMemcpy将host侧数据复制到device侧内存上 ret aclrtMemcpy(*deviceAddr, size, hostData.data(), size, ACL_MEMCPY_HOST_TO_DEVICE); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtMemcpy failed. ERROR: %d\n, ret); return ret); // 计算连续tensor的strides std::vectorint64_t strides(shape.size(), 1); for (int64_t i shape.size() - 2; i 0; i--) { strides[i] shape[i 1] * strides[i 1]; } // 调用aclCreateTensor接口创建aclTensor *tensor aclCreateTensor(shape.data(), shape.size(), dataType, strides.data(), 0, aclFormat::ACL_FORMAT_ND, shape.data(), shape.size(), *deviceAddr); return 0; } int main() { int32_t deviceId 0; aclrtStream stream; auto ret Init(deviceId, stream); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(Init acl failed. ERROR: %d\n, ret); return ret); // 创造tensor的Host侧数据 int batch 1, Nfft1 256, Nfft2 64, Nfft3 64; const int64_t tensorInSize batch * Nfft1 * Nfft2 * Nfft3; std::vectorint64_t selfShape {batch, Nfft1, Nfft2, Nfft3}; std::vectorint64_t outShape {batch, Nfft1, Nfft2, Nfft3}; std::vectorstd::complexfloat inputHostData(tensorInSize, std::complexfloat(0, 0)); for (int i 0; i tensorInSize; i) { inputHostData[i] std::complexfloat(i, i 1); } std::vectorstd::complexfloat outHostData(tensorInSize, std::complexfloat(0, 0)); void *inputDeviceAddr nullptr; void *outDeviceAddr nullptr; aclTensor *input nullptr; aclTensor *out nullptr; ret CreateAclTensor(inputHostData, selfShape, inputDeviceAddr, aclDataType::ACL_COMPLEX64, input); CHECK_RET(ret ::ACL_SUCCESS, return ret); ret CreateAclTensor(outHostData, outShape, outDeviceAddr, aclDataType::ACL_COMPLEX64, out); CHECK_RET(ret ::ACL_SUCCESS, return ret); asdFftHandle handle; asdFftCreate(handle); asdFftMakePlan3D(handle, Nfft1, Nfft2, Nfft3, asdFftType::ASCEND_FFT_C2C, asdFftDirection::ASCEND_FFT_FORWARD, batch); size_t work_size; asdFftGetWorkspaceSize(handle, work_size); void *workspaceAddr nullptr; if (work_size 0) { ret aclrtMalloc(workspaceAddr, static_castint64_t(work_size), ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(allocate workspace failed. ERROR: %d\n, ret); return ret); } asdFftSetWorkspace(handle, (uint8_t *)workspaceAddr); asdFftSetStream(handle, stream); ASD_STATUS_CHECK(asdFftExecC2C(handle, input, out)); ret aclrtSynchronizeStream(stream); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtSynchronizeStream failed. ERROR: %d\n, ret); return ret); asdFftDestroy(handle); auto size GetShapeSize(outShape); std::vectorstd::complexfloat outData(size, 0); ret aclrtMemcpy(outData.data(), outData.size() * sizeof(outData[0]), outDeviceAddr, size * sizeof(outData[0]), ACL_MEMCPY_DEVICE_TO_HOST); // 打印输出tensor值中前16个 for (int64_t i 0; i std::min(static_castint64_t(16), tensorInSize); i) { std::cout static_caststd::complexfloat(outData[i]) \t; } std::cout \nend result std::endl; std::cout Execute successfully. std::endl; aclDestroyTensor(input); aclDestroyTensor(out); aclrtFree(inputDeviceAddr); aclrtFree(outDeviceAddr); if (work_size 0) { aclrtFree(workspaceAddr); } aclrtDestroyStream(stream); aclrtResetDevice(deviceId); aclFinalize(); return 0; }C2R_3D#include iostream #include vector #include asdsip.h #include acl/acl.h #include aclnn/acl_meta.h using namespace AsdSip; #define CHECK_RET(cond, return_expr) \ do { \ if (!(cond)) { \ return_expr; \ } \ } while (0) #define LOG_PRINT(message, ...) \ do { \ printf(message, ##__VA_ARGS__); \ } while (0) #define ASD_STATUS_CHECK(err) \ do { \ AsdSip::AspbStatus err_ (err); \ if (err_ ! AsdSip::ErrorType::ACL_SUCCESS) { \ std::cout Execute failed. std::endl; \ exit(-1); \ } \ } while (0) int64_t GetShapeSize(const std::vectorint64_t shape) { int64_t shapeSize 1; for (auto i : shape) { shapeSize * i; } return shapeSize; } int Init(int32_t deviceId, aclrtStream *stream) { // 固定写法AscendCL初始化 auto ret aclInit(nullptr); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclInit failed. ERROR: %d\n, ret); return ret); ret aclrtSetDevice(deviceId); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtSetDevice failed. ERROR: %d\n, ret); return ret); ret aclrtCreateStream(stream); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtCreateStream failed. ERROR: %d\n, ret); return ret); return 0; } template typename T int CreateAclTensor(const std::vectorT hostData, const std::vectorint64_t shape, void **deviceAddr, aclDataType dataType, aclTensor **tensor) { auto size GetShapeSize(shape) * sizeof(T); // 调用aclrtMalloc申请device侧内存 auto ret aclrtMalloc(deviceAddr, size, ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtMalloc failed. ERROR: %d\n, ret); return ret); // 调用aclrtMemcpy将host侧数据复制到device侧内存上 ret aclrtMemcpy(*deviceAddr, size, hostData.data(), size, ACL_MEMCPY_HOST_TO_DEVICE); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtMemcpy failed. ERROR: %d\n, ret); return ret); // 计算连续tensor的strides std::vectorint64_t strides(shape.size(), 1); for (int64_t i shape.size() - 2; i 0; i--) { strides[i] shape[i 1] * strides[i 1]; } // 调用aclCreateTensor接口创建aclTensor *tensor aclCreateTensor(shape.data(), shape.size(), dataType, strides.data(), 0, aclFormat::ACL_FORMAT_ND, shape.data(), shape.size(), *deviceAddr); return 0; } int main() { int32_t deviceId 0; aclrtStream stream; auto ret Init(deviceId, stream); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(Init acl failed. ERROR: %d\n, ret); return ret); // 创造tensor的Host侧数据 int batch 2, Nfft1 2, Nfft2 128, Nfft3 128; const int64_t inSignal Nfft3 / 2 1; const int64_t outSignal Nfft3; const int64_t tensorInSize batch * Nfft1 * Nfft2 * inSignal; const int64_t tensorOutSize batch * Nfft1 * Nfft2 * outSignal; std::vectorint64_t selfShape {batch, Nfft1, Nfft2, inSignal}; std::vectorint64_t outShape {batch, Nfft1, Nfft2, outSignal}; std::vectorstd::complexfloat inputHostData(tensorInSize, std::complexfloat(0, 0)); for (int i 0; i tensorInSize; i) { inputHostData[i] std::complexfloat(i, i 1); } std::vectorfloat outHostData(tensorOutSize, 0); void *inputDeviceAddr nullptr; void *outDeviceAddr nullptr; aclTensor *input nullptr; aclTensor *out nullptr; ret CreateAclTensor(inputHostData, selfShape, inputDeviceAddr, aclDataType::ACL_COMPLEX64, input); CHECK_RET(ret ::ACL_SUCCESS, return ret); ret CreateAclTensor(outHostData, outShape, outDeviceAddr, aclDataType::ACL_FLOAT, out); CHECK_RET(ret ::ACL_SUCCESS, return ret); asdFftHandle handle; asdFftCreate(handle); asdFftMakePlan3D(handle, Nfft1, Nfft2, Nfft3, asdFftType::ASCEND_FFT_C2R, asdFftDirection::ASCEND_FFT_FORWARD, batch); size_t work_size; asdFftGetWorkspaceSize(handle, work_size); void *workspaceAddr nullptr; if (work_size 0) { ret aclrtMalloc(workspaceAddr, static_castint64_t(work_size), ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(allocate workspace failed. ERROR: %d\n, ret); return ret); } asdFftSetWorkspace(handle, (uint8_t *)workspaceAddr); asdFftSetStream(handle, stream); ASD_STATUS_CHECK(asdFftExecC2R(handle, input, out)); ret aclrtSynchronizeStream(stream); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtSynchronizeStream failed. ERROR: %d\n, ret); return ret); asdFftDestroy(handle); auto size GetShapeSize(outShape); std::vectorfloat outData(size, 0); ret aclrtMemcpy(outData.data(), outData.size() * sizeof(outData[0]), outDeviceAddr, size * sizeof(outData[0]), ACL_MEMCPY_DEVICE_TO_HOST); // 打印输出tensor值中前16个 for (int64_t i 0; i std::min(static_castint64_t(16), tensorOutSize); i) { std::cout static_castfloat(outData[i]) \t; } std::cout \nend result std::endl; std::cout Execute successfully. std::endl; aclDestroyTensor(input); aclDestroyTensor(out); aclrtFree(inputDeviceAddr); aclrtFree(outDeviceAddr); if (work_size 0) { aclrtFree(workspaceAddr); } aclrtDestroyStream(stream); aclrtResetDevice(deviceId); aclFinalize(); return 0; }R2C_2D#include iostream #include vector #include asdsip.h #include acl/acl.h #include aclnn/acl_meta.h using namespace AsdSip; #define CHECK_RET(cond, return_expr) \ do { \ if (!(cond)) { \ return_expr; \ } \ } while (0) #define LOG_PRINT(message, ...) \ do { \ printf(message, ##__VA_ARGS__); \ } while (0) #define ASD_STATUS_CHECK(err) \ do { \ AsdSip::AspbStatus err_ (err); \ if (err_ ! AsdSip::ErrorType::ACL_SUCCESS) { \ std::cout Execute failed. std::endl; \ exit(-1); \ } \ } while (0) int64_t GetShapeSize(const std::vectorint64_t shape) { int64_t shapeSize 1; for (auto i : shape) { shapeSize * i; } return shapeSize; } int Init(int32_t deviceId, aclrtStream *stream) { // 固定写法AscendCL初始化 auto ret aclInit(nullptr); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclInit failed. ERROR: %d\n, ret); return ret); ret aclrtSetDevice(deviceId); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtSetDevice failed. ERROR: %d\n, ret); return ret); ret aclrtCreateStream(stream); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtCreateStream failed. ERROR: %d\n, ret); return ret); return 0; } template typename T int CreateAclTensor(const std::vectorT hostData, const std::vectorint64_t shape, void **deviceAddr, aclDataType dataType, aclTensor **tensor) { auto size GetShapeSize(shape) * sizeof(T); // 调用aclrtMalloc申请device侧内存 auto ret aclrtMalloc(deviceAddr, size, ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtMalloc failed. ERROR: %d\n, ret); return ret); // 调用aclrtMemcpy将host侧数据复制到device侧内存上 ret aclrtMemcpy(*deviceAddr, size, hostData.data(), size, ACL_MEMCPY_HOST_TO_DEVICE); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtMemcpy failed. ERROR: %d\n, ret); return ret); // 计算连续tensor的strides std::vectorint64_t strides(shape.size(), 1); for (int64_t i shape.size() - 2; i 0; i--) { strides[i] shape[i 1] * strides[i 1]; } // 调用aclCreateTensor接口创建aclTensor *tensor aclCreateTensor(shape.data(), shape.size(), dataType, strides.data(), 0, aclFormat::ACL_FORMAT_ND, shape.data(), shape.size(), *deviceAddr); return 0; } int main() { int32_t deviceId 0; aclrtStream stream; auto ret Init(deviceId, stream); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(Init acl failed. ERROR: %d\n, ret); return ret); // 创造tensor的Host侧数据 int batch 1, Nfft1 1, Nfft2 64, Nfft3 32; const int64_t tensorInSize batch * Nfft1 * Nfft2 * Nfft3; const int64_t tensorOutSize batch * Nfft1 * Nfft2 * (Nfft3 / 2 1); std::vectorint64_t selfShape {batch, Nfft1, Nfft2, Nfft3}; std::vectorint64_t outShape {batch, Nfft1, Nfft2, Nfft3 / 2 1}; std::vectorfloat inputHostData(tensorInSize, 0); for (int i 0; i tensorInSize; i) { inputHostData[i] i; } std::vectorstd::complexfloat outHostData(tensorInSize, std::complexfloat(0, 0)); void *inputDeviceAddr nullptr; void *outDeviceAddr nullptr; aclTensor *input nullptr; aclTensor *out nullptr; ret CreateAclTensor(inputHostData, selfShape, inputDeviceAddr, aclDataType::ACL_FLOAT, input); CHECK_RET(ret ::ACL_SUCCESS, return ret); ret CreateAclTensor(outHostData, outShape, outDeviceAddr, aclDataType::ACL_COMPLEX64, out); CHECK_RET(ret ::ACL_SUCCESS, return ret); asdFftHandle handle; asdFftCreate(handle); asdFftMakePlan3D(handle, Nfft1, Nfft2, Nfft3, asdFftType::ASCEND_FFT_R2C, asdFftDirection::ASCEND_FFT_FORWARD, batch); size_t work_size; asdFftGetWorkspaceSize(handle, work_size); void *workspaceAddr nullptr; if (work_size 0) { ret aclrtMalloc(workspaceAddr, static_castint64_t(work_size), ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(allocate workspace failed. ERROR: %d\n, ret); return ret); } asdFftSetWorkspace(handle, (uint8_t *)workspaceAddr); asdFftSetStream(handle, stream); ASD_STATUS_CHECK(asdFftExecR2C(handle, input, out)); ret aclrtSynchronizeStream(stream); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtSynchronizeStream failed. ERROR: %d\n, ret); return ret); asdFftDestroy(handle); auto size GetShapeSize(outShape); std::vectorstd::complexfloat outData(size, 0); ret aclrtMemcpy(outData.data(), outData.size() * sizeof(outData[0]), outDeviceAddr, size * sizeof(outData[0]), ACL_MEMCPY_DEVICE_TO_HOST); // 打印输出tensor值中前16个 for (int64_t i 0; i std::min(static_castint64_t(16), tensorOutSize); i) { std::cout static_caststd::complexfloat(outData[i]) \t; } std::cout \nend result std::endl; std::cout Execute successfully. std::endl; aclDestroyTensor(input); aclDestroyTensor(out); aclrtFree(inputDeviceAddr); aclrtFree(outDeviceAddr); if (work_size 0) { aclrtFree(workspaceAddr); } aclrtDestroyStream(stream); aclrtResetDevice(deviceId); aclFinalize(); return 0; }C2C_3D_SEP#include iostream #include fstream #include random #include vector #include asdsip.h #include acl/acl.h #include aclnn/acl_meta.h using namespace AsdSip; #define CHECK_RET(cond, return_expr) \ do { \ if (!(cond)) { \ return_expr; \ } \ } while (0) #define LOG_PRINT(message, ...) \ do { \ printf(message, ##__VA_ARGS__); \ } while (0) #define ASD_STATUS_CHECK(err) \ do { \ AsdSip::AspbStatus err_ (err); \ if (err_ ! AsdSip::ErrorType::ACL_SUCCESS) { \ std::cout Execute failed. std::endl; \ exit(-1); \ } \ } while (0) int64_t GetShapeSize(const std::vectorint64_t shape) { int64_t shapeSize 1; for (auto i : shape) { shapeSize * i; } return shapeSize; } int Init(int32_t deviceId, aclrtStream *stream) { // 固定写法AscendCL初始化 auto ret aclInit(nullptr); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclInit failed. ERROR: %d\n, ret); return ret); ret aclrtSetDevice(deviceId); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtSetDevice failed. ERROR: %d\n, ret); return ret); ret aclrtCreateStream(stream); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtCreateStream failed. ERROR: %d\n, ret); return ret); return 0; } template typename T int CreateAclTensor(const std::vectorT hostData, const std::vectorint64_t shape, void **deviceAddr, aclDataType dataType, aclTensor **tensor) { auto size GetShapeSize(shape) * sizeof(T); // 调用aclrtMalloc申请device侧内存 auto ret aclrtMalloc(deviceAddr, size, ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtMalloc failed. ERROR: %d\n, ret); return ret); // 调用aclrtMemcpy将host侧数据复制到device侧内存上 ret aclrtMemcpy(*deviceAddr, size, hostData.data(), size, ACL_MEMCPY_HOST_TO_DEVICE); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtMemcpy failed. ERROR: %d\n, ret); return ret); // 计算连续tensor的strides std::vectorint64_t strides(shape.size(), 1); for (int64_t i shape.size() - 2; i 0; i--) { strides[i] shape[i 1] * strides[i 1]; } // 调用aclCreateTensor接口创建aclTensor *tensor aclCreateTensor(shape.data(), shape.size(), dataType, strides.data(), 0, aclFormat::ACL_FORMAT_ND, shape.data(), shape.size(), *deviceAddr); return 0; } int main() { int32_t deviceId 0; aclrtStream stream; auto ret Init(deviceId, stream); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(Init acl failed. ERROR: %d\n, ret); return ret); // 创造tensor的Host侧数据 // int batch 2, Nfft1 256, Nfft2 256, Nfft3 256; // core dd int batch 2, Nfft1 4, Nfft2 4, Nfft3 4; // core dd // int batch 32, Nfft 256; // c2c dft // int batch 32, Nfft 8192; // c2c fftb // int batch 32, Nfft 15000; // c2c mixed // int batch 32, Nfft 32768; // c2c fftn // int batch 32, Nfft 199 * 199; // core any const int64_t tensorInSize batch * Nfft1 * Nfft2 * Nfft3; std::vectorint64_t selfShape {batch, Nfft1, Nfft2, Nfft3}; std::vectorint64_t outShape {batch, Nfft1, Nfft2, Nfft3}; std::vectorfloat inputRealHostData(tensorInSize, 0); std::vectorfloat inputImagHostData(tensorInSize, 0); std::vectorfloat outputRealHostData(tensorInSize, 0); std::vectorfloat outputImagHostData(tensorInSize, 0); std::random_device rd; std::mt19937 gen(rd()); std::uniform_real_distributionfloat dis(0.0f, 1.0f); for (int i 0; i tensorInSize; i) { inputRealHostData[i] dis(gen); inputImagHostData[i] dis(gen); } void *inputRealDeviceAddr nullptr; void *inputImagDeviceAddr nullptr; void *outputRealDeviceAddr nullptr; void *outputImagDeviceAddr nullptr; aclTensor *inputReal nullptr; aclTensor *inputImag nullptr; aclTensor *outputReal nullptr; aclTensor *outputImag nullptr; ret CreateAclTensor(inputRealHostData, selfShape, inputRealDeviceAddr, aclDataType::ACL_FLOAT, inputReal); CHECK_RET(ret ::ACL_SUCCESS, return ret); ret CreateAclTensor(inputImagHostData, selfShape, inputImagDeviceAddr, aclDataType::ACL_FLOAT, inputImag); CHECK_RET(ret ::ACL_SUCCESS, return ret); ret CreateAclTensor(outputRealHostData, outShape, outputRealDeviceAddr, aclDataType::ACL_FLOAT, outputReal); CHECK_RET(ret ::ACL_SUCCESS, return ret); ret CreateAclTensor(outputImagHostData, outShape, outputImagDeviceAddr, aclDataType::ACL_FLOAT, outputImag); CHECK_RET(ret ::ACL_SUCCESS, return ret); asdFftHandle handle; asdFftCreate(handle); asdFftMakePlan3D(handle, Nfft1, Nfft2, Nfft3, asdFftType::ASCEND_FFT_C2C_SEP, asdFftDirection::ASCEND_FFT_FORWARD, batch); size_t work_size; asdFftGetWorkspaceSize(handle, work_size); void *workspaceAddr nullptr; if (work_size 0) { ret aclrtMalloc(workspaceAddr, static_castint64_t(work_size), ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(allocate workspace failed. ERROR: %d\n, ret); return ret); } asdFftSetWorkspace(handle, (uint8_t *)workspaceAddr); asdFftSetStream(handle, stream); ASD_STATUS_CHECK(asdFftExecC2CSeparated(handle, inputReal, inputImag, outputReal, outputImag)); ret aclrtSynchronizeStream(stream); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtSynchronizeStream failed. ERROR: %d\n, ret); return ret); asdFftDestroy(handle); auto size GetShapeSize(outShape); std::vectorfloat outRealData(size, 0); std::vectorfloat outImagData(size, 0); std::vectorfloat workspaceData(size * 2, -1); ret aclrtMemcpy(outRealData.data(), outRealData.size() * sizeof(outRealData[0]), outputRealDeviceAddr, size * sizeof(outRealData[0]), ACL_MEMCPY_DEVICE_TO_HOST); ret aclrtMemcpy(outImagData.data(), outImagData.size() * sizeof(outImagData[0]), outputImagDeviceAddr, size * sizeof(outImagData[0]), ACL_MEMCPY_DEVICE_TO_HOST); ret aclrtMemcpy(workspaceData.data(), workspaceData.size() * sizeof(workspaceData[0]), workspaceAddr, workspaceData.size() * sizeof(workspaceData[0]), ACL_MEMCPY_DEVICE_TO_HOST); // 打印输出tensor值中前16个 std::cout real part: std::endl; for (int64_t i 0; i size; i) { std::cout static_castfloat(outRealData[i]) \t; } std::cout \nimag part: std::endl; for (int64_t i 0; i size; i) { std::cout static_castfloat(outImagData[i]) \t; } std::cout \nworkspace real part: std::endl; for (int64_t i 0; i size; i) { std::cout static_castfloat(workspaceData[i]) \t; } std::cout \nworkspace imag part: std::endl; for (int64_t i 0; i size; i) { std::cout static_castfloat(workspaceData[i size]) \t; } std::cout \nend result std::endl; std::cout Execute successfully. std::endl; aclDestroyTensor(inputReal); aclDestroyTensor(inputImag); aclDestroyTensor(outputReal); aclDestroyTensor(outputImag); aclrtFree(inputRealDeviceAddr); aclrtFree(inputImagDeviceAddr); aclrtFree(outputRealDeviceAddr); aclrtFree(outputImagDeviceAddr); if (work_size 0) { aclrtFree(workspaceAddr); } aclrtDestroyStream(stream); aclrtResetDevice(deviceId); aclFinalize(); return 0; }【免费下载链接】sip本项目是CANN提供的一款高效、可靠的高性能信号处理算子加速库基于华为Ascend AI处理器专门为信号处理领域而设计。项目地址: https://gitcode.com/cann/sip创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANN/SiP三维FFT接口文档

相关文章：

CANN/SiP三维FFT接口文档

ChatGPT-AutoExpert：构建领域专家提示词，实现AI深度专业协作

移动端视频帧插值技术：ANVIL框架与NPU优化实践

跟着 MDN 学 HTML day_30：（AbortController 实现可取消的异步请求）

PL/SQL：异常处理补充

离线优先的Markdown编辑器：inkdown如何实现极致专注写作

ASIC功能验证：基于规范的方法与Specman实战

PMP管理大数据学习建议

别再刷后台了！我用凌风工具箱导出竞价表格，摸清所有对手底牌

基于MCP协议的AI智能体实时金融数据工具箱Tickerr详解

别再手动下架了！Temu查重复铺货那晚，我10分钟救了三个店

轻量级定时任务调度库timetask：配置即代码的Python实践指南

OpenCode集成Cursor Pro：通过代理架构实现AI编程工具的无缝桥接

RAGxplorer：可视化调试工具，提升检索增强生成系统可观测性

Syncia：基于浏览器扩展的AI助手，实现网页上下文智能处理与本地模型集成

BricksLLM：开源LLM API网关，解决大模型应用成本管控与用量追踪难题

如何用C语言解密网易云NCM音乐文件：实现跨平台音乐格式转换

从循环处理、全局工作空间到高阶理论：AI架构的意识功能映射与工程启示

构建办公自动化CLI工具集：从Python库选型到实战应用

AI编程助手代码审计工具whatdiditdo：从黑盒到白盒的智能复盘

透明计费与用量明细让个人开发者的项目预算更加清晰

YAPI MCP PRO：基于MCP协议将YApi无缝集成AI代码编辑器的实践指南

ClawScript：专为量化交易与AI自动化设计的领域特定语言

基于Tauri+React的AI编码代理实时监控工具设计与实践

PotPlayer字幕翻译插件高级配置与性能优化深度解析

G-Helper华硕笔记本终极控制指南：5分钟掌握性能优化与电池保护技巧

生成式AI艺术审美：从技术原理到人机协作的评判框架

基于MCP协议实现AI助手本地读取Mac短信：原理、部署与应用场景

基于Claude AI的ASO自动化审计工具：从用户评论到文案优化的智能分析实践

【最新 v2.7.1 版本】OpenClaw v2.7.1 一键安装包｜Windows 稳定极速部署