当前位置: 首页 > article >正文

CANN/sip BLAS Ssyr2算子文档

Ssyr2【免费下载链接】sip本项目是CANN提供的一款高效、可靠的高性能信号处理算子加速库基于华为Ascend AI处理器专门为信号处理领域而设计。项目地址: https://gitcode.com/cann/sip产品支持情况产品是否支持Atlas 200I/500 A2 推理产品×Atlas 推理系列产品×Atlas 训练系列产品×Atlas A3 训练系列产品/Atlas A3 推理系列产品√Atlas A2 训练系列产品/Atlas A2 推理系列产品√Ascend 950PR/Ascend 950DT×功能说明接口功能asdBlasMakeSsyr2Plan初始化该句柄对应的Ssyr2算子配置。asdBlasSsyr2用于计算单精度向量的外积并将结果加到一个矩阵上。计算公式 $$ Aalphaxy^Talphayx^TA $$ 示例输入“x”为[ 1, 2 ]输入“A”为[ [ 1,2 ],[ 3,4 ] ]输入“y”为[ 3, 4 ]输入“uplo”为U输入“n”为2输入“lda”为2输入“incx”为1输入“incy”为1。输入“alpha”为2.345。调用“asdBlasSsyr2”算子后输出“A”为[ [ 15.07, 25.45 ], [ 26.45, 41.52 ] ].函数原型AspbStatus asdBlasMakeSsyr2Plan( asdBlasHandle handle)AspbStatus asdBlasSsyr2( asdBlasHandle handle, asdBlasFillMode_t uplo, const int64_t n, const float * alpha, aclTensor * x, int64_t incx, aclTensor * y, int64_t incy, aclTensor * A, const int64_t lda)asdBlasMakeSsyr2Plan参数说明参数名输入/输出描述handleasdBlasHandle输入算子的句柄返回值返回状态码具体参见SiP返回码。asdBlasSsyr2参数说明参数名输入/输出描述handleasdBlasHandle输入算子的句柄uploasdBlasFillMode_t输入指定矩阵A的存储格式。ASDBLAS_FILL_MODE_LOWER:下三角ASDBLAS_FILL_MODE_UPPER:上三角nint64_t输入向量x中的元素个数矩阵A的行列数。alphafloat *输入公式中的alpha标量向量乘积缩放因子。AaclTensor *输入/输出对应公式中的A。数据类型支持FLOAT32。数据格式支持ND。shape为[nn]xaclTensor *输入对应公式中的x。数据类型支持FLOAT32。数据格式支持ND。shape为[n]ldaint64_t输入矩阵A的每列元素的存储步长当前约束为n。incxint64_t输入x相邻元素间的内存地址偏移量当前约束为1。yaclTensor *输入对应公式中的y。数据类型支持FLOAT32。数据格式支持ND。shape为[n]incyint64_t输入y相邻元素间的内存地址偏移量当前约束为1。返回值返回状态码具体参见SiP返回码。约束说明输入的元素个数n当前覆盖支持[18192]。算子输入shape为[n]、[n]、[nn]输出shape为[nn]。算子实际计算时不支持ND高维度运算不支持维度≥3的运算。调用示例示例代码如下该样例旨在提供快速上手、开发和调试算子的最小化实现其核心目标是使用最精简的代码展示算子的核心功能而非提供生产级的安全保障。不推荐用户直接将示例代码作为业务代码若用户将示例代码应用在自身的真实业务场景中且发生了安全问题则需用户自行承担。#include iostream #include vector #include asdsip.h #include acl/acl.h #include acl_meta.h using namespace AsdSip; #define ASD_STATUS_CHECK(err) \ do { \ AsdSip::AspbStatus err_ (err); \ if (err_ ! AsdSip::ErrorType::ACL_SUCCESS) { \ std::cout Execute failed. std::endl; \ exit(-1); \ } \ } while (0) #define CHECK_RET(cond, return_expr) \ do { \ if (!(cond)) { \ return_expr; \ } \ } while (0) #define LOG_PRINT(message, ...) \ do { \ printf(message, ##__VA_ARGS__); \ } while (0) int64_t GetShapeSize(const std::vectorint64_t shape) { int64_t shapeSize 1; for (auto i : shape) { shapeSize * i; } return shapeSize; } int Init(int32_t deviceId, aclrtStream *stream) { // 固定写法acl初始化 auto ret aclInit(nullptr); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclInit failed. ERROR: %d\n, ret); return ret); ret aclrtSetDevice(deviceId); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtSetDevice failed. ERROR: %d\n, ret); return ret); ret aclrtCreateStream(stream); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtCreateStream failed. ERROR: %d\n, ret); return ret); return 0; } template typename T int CreateAclTensor(const std::vectorT hostData, const std::vectorint64_t shape, void **deviceAddr, aclDataType dataType, aclTensor **tensor) { auto size GetShapeSize(shape) * sizeof(T); // 调用aclrtMalloc申请device侧内存 auto ret aclrtMalloc(deviceAddr, size, ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtMalloc failed. ERROR: %d\n, ret); return ret); // 调用aclrtMemcpy将host侧数据复制到device侧内存上 ret aclrtMemcpy(*deviceAddr, size, hostData.data(), size, ACL_MEMCPY_HOST_TO_DEVICE); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtMemcpy failed. ERROR: %d\n, ret); return ret); // 计算连续tensor的strides std::vectorint64_t strides(shape.size(), 1); for (int64_t i shape.size() - 2; i 0; i--) { strides[i] shape[i 1] * strides[i 1]; } // 调用aclCreateTensor接口创建aclTensor *tensor aclCreateTensor(shape.data(), shape.size(), dataType, strides.data(), 0, aclFormat::ACL_FORMAT_ND, shape.data(), shape.size(), *deviceAddr); return 0; } int main(int argc, char **argv) { int deviceId 0; aclrtStream stream; auto ret Init(deviceId, stream); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(Init acl failed. ERROR: %d\n, ret); return ret); int64_t n 5; asdBlasFillMode_t uplo asdBlasFillMode_t::ASDBLAS_FILL_MODE_LOWER; float alpha 2.0f; int64_t incx 1; int64_t incy 1; int64_t lda 5; const int64_t tensorXSize n; std::vectorfloat tensorInXData; tensorInXData.reserve(tensorXSize); for (int i 0; i tensorXSize; i) { tensorInXData.push_back(1.0 i); } const int64_t tensorYSize n; std::vectorfloat tensorInYData; tensorInYData.reserve(tensorYSize); for (int i 0; i tensorYSize; i) { tensorInYData.push_back(2.0f i); } const int64_t tensorASize n * n; std::vectorfloat tensorInAData; tensorInAData.reserve(tensorYSize); for (int i 0; i tensorASize; i) { tensorInAData.push_back(1.0f); } std::cout alpha static_castint32_t(alpha) std::endl; std::cout uplo static_castint32_t(uplo) std::endl; std::cout ------- input X ------- std::endl; for (int64_t i 0; i tensorXSize; i) { std::cout tensorInXData[i] ; } std::cout std::endl; std::cout ------- input Y ------- std::endl; for (int64_t i 0; i tensorYSize; i) { std::cout tensorInYData[i] ; } std::cout std::endl; std::cout ------- input A ------- std::endl; for (int64_t i 0; i n; i) { for (int64_t j 0; j n; j) std::cout tensorInAData[i * n j] ; std::cout std::endl; } std::vectorint64_t xShape {n}; std::vectorint64_t yShape {n}; std::vectorint64_t matAShape {n, n}; aclTensor *inputX nullptr; aclTensor *inputY nullptr; aclTensor *inputA nullptr; void *inputXDeviceAddr nullptr; void *inputYDeviceAddr nullptr; void *inputADeviceAddr nullptr; ret CreateAclTensorfloat(tensorInXData, xShape, inputXDeviceAddr, aclDataType::ACL_FLOAT, inputX); CHECK_RET(ret ::ACL_SUCCESS, return ret); ret CreateAclTensorfloat(tensorInYData, yShape, inputYDeviceAddr, aclDataType::ACL_FLOAT, inputY); CHECK_RET(ret ::ACL_SUCCESS, return ret); ret CreateAclTensorfloat(tensorInAData, matAShape, inputADeviceAddr, aclDataType::ACL_FLOAT, inputA); CHECK_RET(ret ::ACL_SUCCESS, return ret); asdBlasHandle handle; asdBlasCreate(handle); size_t lwork 0; void *buffer nullptr; asdBlasMakeSsyr2Plan(handle); asdBlasGetWorkspaceSize(handle, lwork); std::cout lwork lwork std::endl; if (lwork 0) { ret aclrtMalloc(buffer, static_castint64_t(lwork), ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(allocate workspace failed. ERROR: %d\n, ret); return ret); } asdBlasSetWorkspace(handle, buffer); asdBlasSetStream(handle, stream); ASD_STATUS_CHECK(asdBlasSsyr2(handle, uplo, n, alpha, inputX, incx, inputY, incy, inputA, lda)); asdBlasSynchronize(handle); asdBlasDestroy(handle); ret aclrtMemcpy(tensorInAData.data(), n * n * sizeof(float), inputADeviceAddr, n * n * sizeof(float), ACL_MEMCPY_DEVICE_TO_HOST); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(copy result from device to host failed. ERROR: %d\n, ret); return ret); std::cout ------- output A ------- std::endl; for (int64_t i 0; i n; i) { for (int64_t j 0; j n; j) { std::cout tensorInAData[i * n j] ; } std::cout std::endl; } std::cout Execute successfully. std::endl; aclDestroyTensor(inputX); aclDestroyTensor(inputY); aclDestroyTensor(inputA); aclrtFree(inputXDeviceAddr); aclrtFree(inputYDeviceAddr); aclrtFree(inputADeviceAddr); aclrtDestroyStream(stream); aclrtResetDevice(deviceId); aclFinalize(); return 0; }【免费下载链接】sip本项目是CANN提供的一款高效、可靠的高性能信号处理算子加速库基于华为Ascend AI处理器专门为信号处理领域而设计。项目地址: https://gitcode.com/cann/sip创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN/sip BLAS Ssyr2算子文档

Ssyr2 【免费下载链接】sip 本项目是CANN提供的一款高效、可靠的高性能信号处理算子加速库,基于华为Ascend AI处理器,专门为信号处理领域而设计。 项目地址: https://gitcode.com/cann/sip 产品支持情况 产品是否支持Atlas 200I/500 A2 推理产品…...

别再只会 pip install 了!Win11上管理Python包的5个高效技巧(含更新/降级/换源)

Win11上Python包管理的5个高阶技巧:从基础安装到专业配置 每次看到同事在终端里反复输入pip install时,我都忍不住想分享几个改变我工作效率的习惯。作为在Windows 11上管理过数十个Python项目的开发者,我深刻体会到:包管理不是安…...

阴阳师百鬼夜行AI自动化脚本:5分钟轻松收集式神碎片终极指南

阴阳师百鬼夜行AI自动化脚本:5分钟轻松收集式神碎片终极指南 【免费下载链接】OnmyojiAutoScript Onmyoji Auto Script | 阴阳师脚本 项目地址: https://gitcode.com/gh_mirrors/on/OnmyojiAutoScript 还在为阴阳师百鬼夜行中繁琐的撒豆操作而烦恼吗&#xf…...

CANN/AMCT量化感知训练配置创建

create_quant_retrain_config 【免费下载链接】amct AMCT是CANN提供的昇腾AI处理器亲和的模型压缩工具仓。 项目地址: https://gitcode.com/cann/amct 产品支持情况 产品 是否支持 Ascend 950PR/Ascend 950DT √ Atlas A3 训练系列产品 / Atlas A3 推理系列产品 √ At…...

第12章 后土化轮回:安装垃圾回收机制?六道是六个分类对象池,亡魂不再内存泄漏

第12章 后土化轮回:安装垃圾回收机制?六道是六个分类对象池,亡魂不再内存泄漏 系列导读:这是《洪荒操作系统》第12章。巫妖大战后,天地间飘满了亡魂,造成严重的内存泄漏。后土以身化轮回,建立了…...

AI驱动优化算法选择与设计:从元学习到自动化求解

1. 项目概述:当优化遇见智能在工业排产、物流调度、金融风控这些硬核领域里,我们每天都在和“优化”打交道。简单说,就是在一堆限制条件下,找到一个最好的方案。过去十几年,我的工具箱里塞满了各种算法:梯度…...

从预测到响应:构建基于状态识别的量化交易系统

1. 项目概述与核心价值最近在GitHub上看到一个挺有意思的项目,叫“Ctrl-Alt-DefeatTheMarket”。光看这个名字,一股浓浓的极客风和挑战精神就扑面而来了。这显然不是一个传统的量化交易策略库,它更像是一个技术宣言,或者说&#x…...

ClawZ:桌面AI助手革命,零门槛部署OpenClaw智能体

1. 项目概述:从命令行到桌面的AI助手革命如果你和我一样,对AI Agent(智能体)的潜力感到兴奋,但又对在终端里敲命令、配置环境、调试YAML文件感到头疼,那么ClawZ的出现,绝对是一个值得你停下手中…...

Hyperf 默认使用 Nikic/FastRoute 作为路由器。

它的本质是:FastRoute 是一个基于 正则表达式编译 和 前缀树/分派树 (Dispatch Tree) 的轻量级 HTTP 路由器。它不依赖传统的线性遍历或简单的字符串匹配,而是在启动阶段将所有路由规则编译成一个高效的 数据结构(通常是嵌套数组或状态机&…...

基于MCP协议构建AI助手与Google Drive的安全连接方案

1. 项目概述:一个连接Google生态与AI的桥梁 如果你正在尝试让AI助手(比如Claude、Cursor等)直接操作你的Google Drive、Gmail或者Google Calendar,而不是仅仅通过网页搜索获取信息,那么你很可能已经遇到了“MCP”&…...

CANN算子测试赛Add报告

【免费下载链接】cann-competitions 本仓库用于 CANN 开源社区各类竞赛、开源课题、社区任务等课题发布、开发者作品提交和展示。 项目地址: https://gitcode.com/cann/cann-competitions 元信息(请如实填写,此区块将由组委会脚本自动解析&#xf…...

别人写的代码看不懂,到底是谁的水平有问题

你突然看到某段代码用了工厂模式,第一反应可能是:有必要吗?直接new一个对象不行吗?干嘛「故意」增加阅读难度?其实不是这样的,当你接触过的高手多了后,你会自然而然的认为:高手的代码…...

AI光学硬件加速:1.2Tb/s高光谱视频实时理解平台架构与实践

1. 项目概述:当AI遇见光,一场关于“看见”的革命最近和几个做自动驾驶和工业质检的朋友聊天,大家不约而同地提到了一个痛点:传统的RGB摄像头,甚至多光谱设备,在面对一些复杂场景时,总感觉“力不…...

从代码生成到自主学习:构建AI编程智能体的核心架构与实践

1. 项目概述:一个学习编码的智能体最近在GitHub上看到一个挺有意思的项目,叫sanbuphy/learn-coding-agent。光看名字,你可能会觉得这又是一个“教你编程”的AI工具,市面上这类产品已经多如牛毛了。但当我深入探究其代码和设计理念…...

分布式追踪深度解析:解锁微服务架构的可观测性

分布式追踪深度解析:解锁微服务架构的可观测性 一、分布式追踪的概念与价值 1.1 分布式追踪的定义 分布式追踪是一种用于监控和分析分布式系统中请求流的技术。它通过在请求流经各个服务时记录跟踪信息,帮助开发者理解系统的行为、定位性能瓶颈和故障点。…...

3步搭建个人游戏串流服务器:Sunshine让你在任何设备畅玩3A大作

3步搭建个人游戏串流服务器:Sunshine让你在任何设备畅玩3A大作 【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine 你是否曾希望用轻薄笔记本流畅运行最新的3A游戏大作&…...

追赶行业节奏!DeepSeek计划6月推V4.1,500亿融资加速商业化转型

据The Information报道,DeepSeek告知潜在投资者将提高模型发布频率,6月将推出V4.1版本。此前其模型迭代慢,此次改变或助其从技术理想迈向商业落地。从慢到快:迭代节奏转变DeepSeek曾以技术深度闻名,但模型迭代速度长期…...

Java AI应用开发实战:langchain4j框架核心架构与生产实践指南

1. 项目概述:当Java遇上AI应用开发如果你是一名Java开发者,最近被各种AI应用搞得心痒痒,看着Python社区里LangChain、LlamaIndex等框架玩得风生水起,自己却只能对着HTTP API调参,感觉使不上劲,那么“langch…...

保姆级教程:Qwen-Image-2512-ComfyUI内置工作流怎么用?手把手教你5分钟出图

保姆级教程:Qwen-Image-2512-ComfyUI内置工作流怎么用?手把手教你5分钟出图 1. 快速部署与启动 1.1 准备工作 在开始之前,请确保你的环境满足以下要求: 显卡:NVIDIA RTX 3060及以上(8GB显存&#xff09…...

ACAI平台:基于数据湖与智能调度的MLOps实验管理实践

1. 项目概述:当MLOps遇上数据湖与智能调度在机器学习(ML)项目从研究走向生产的漫长征途中,实验管理一直是个让人又爱又恨的环节。爱的是,每一次实验都可能是通往更高模型性能的钥匙;恨的是,随着…...

第三代社保卡全功能使用指南

文章目录社保卡代际区分(因省份而存在差异)第三代社保卡申领官方推广时间节点说明申领基础条件线下申领(支持即时制卡,当场拿卡)线上申领(邮寄到家/银行网点自取)第三代社保卡全功能指南基础社保…...

Qwen-Image-2512+LoRA像素艺术作品集:Retro、Cyberpunk、Fantasy三风格实测

Qwen-Image-2512LoRA像素艺术作品集:Retro、Cyberpunk、Fantasy三风格实测 1. 像素艺术生成新体验 最近在测试Qwen-Image-2512结合Pixel Art LoRA的像素艺术生成能力时,我被它的表现惊艳到了。这个组合不仅能生成传统8-bit风格的像素画,还能…...

构式语法与AI融合:从语言认知到可解释NLP的实践路径

1. 构式语法与人工智能:一场迟来的双向奔赴如果你同时关注语言学理论和人工智能的前沿进展,可能会觉得这是两个平行世界。一边是语言学家在探讨“构式”、“形式-意义配对”和“基于使用的模型”,另一边是AI工程师在调试Transformer模型、调整…...

DeepAnalyze部署教程:基于Ollama的免配置镜像,10分钟搭建私有文本分析平台

DeepAnalyze部署教程:基于Ollama的免配置镜像,10分钟搭建私有文本分析平台 1. 项目简介 DeepAnalyze是一个专为文本深度分析设计的AI工具,它能够像专业分析师一样阅读和理解文本内容。这个工具的核心价值在于:你给它一段文字&am…...

AI项目管理中的算法偏见与包容性设计:效率与公平的平衡之道

1. 项目概述:当AI遇见项目管理,效率与公平的十字路口干了十几年项目管理,从最初拿着甘特图跟团队死磕,到后来用上各种协作软件,我原以为工具迭代的终点就是流程自动化。直到人工智能(AI)开始渗透…...

Driver Store Explorer:Windows驱动存储清理终极指南,释放数GB磁盘空间

Driver Store Explorer:Windows驱动存储清理终极指南,释放数GB磁盘空间 【免费下载链接】DriverStoreExplorer Driver Store Explorer 项目地址: https://gitcode.com/gh_mirrors/dr/DriverStoreExplorer 你是否发现Windows系统盘空间神秘消失&am…...

CANN / cann-learning-hub: Ascend C 算子工程化开发指南

【免费下载链接】cann-learning-hub CANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。 项目地址: https://gitcode.com/cann/cann-learning-hub name: ascendc-ops-project desc…...

XUnity.AutoTranslator:5分钟掌握Unity游戏实时翻译的完整指南

XUnity.AutoTranslator:5分钟掌握Unity游戏实时翻译的完整指南 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 你是否曾经因为语言障碍而无法享受那些精彩的日系RPG或欧美独立游戏&#xff1f…...

AI智能体开发实战:基于agent-sdk构建可扩展的智能应用

1. 项目概述:一个面向AI智能体开发的SDK最近在折腾AI智能体(Agent)相关的项目,发现市面上虽然有不少框架,但要么太重,要么太轻,要么就是文档写得云里雾里,想快速搭建一个能跑、能扩展…...

基于verl框架和代码沙盒环境工具调用的代码强化学习实践

基于verl框架和代码沙盒环境工具调用的代码强化学习实践 【免费下载链接】cann-recipes-train 本项目针对LLM与多模态模型训练业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-train 概述 本项目基…...