当前位置: 首页 > article >正文

CANN/pyasc昇腾SoftMax算子API文档

asc.language.adv.softmax【免费下载链接】pyasc本项目为Python用户提供算子编程接口支持在昇腾AI处理器上加速计算接口与Ascend C一一对应并遵守Python原生语法。项目地址: https://gitcode.com/cann/pyascasc.language.adv.softmax(dst: LocalTensor, sum: LocalTensor, max: LocalTensor, src: LocalTensor, tiling: SoftmaxTiling, temp_buffer: LocalTensor | None None, reuse_source: bool False, basic_block: bool False, data_format_nz: bool False) → None将输入tensor[m0, m1, …mt, n]t大于等于0的非尾轴长度相乘的结果看作m则输入tensor的shape看作[m, n]。 为方便理解通过Python脚本实现的方式表达其计算公式以输入为ND格式为例如下其中src是源操作数输入dst、sum、max为目的操作数输出。def softmax(src): # 基于last轴进行rowmax按行取最大值处理 max np.max(src, axis-1, keepdimsTrue) sub src - max exp np.exp(sub) # 基于last轴进行rowsum按行求和处理 sum np.sum(exp, axis-1, keepdimsTrue) dst exp / sum return dst, max, sum对应的Ascend C函数原型接口框架申请临时空间LocalTensor的数据类型相同template typename T, bool isReuseSource false, bool isBasicBlock false, bool isDataFormatNZ false, const SoftmaxConfig config SOFTMAX_DEFAULT_CFG __aicore__ inline void SoftMax(const LocalTensorT dstTensor, const LocalTensorT sumTensor, const LocalTensorT maxTensor, const LocalTensorT srcTensor, const SoftMaxTiling tiling, const SoftMaxShapeInfo softmaxShapeInfo {})LocalTensor的数据类型不同template typename T, bool isReuseSource false, bool isBasicBlock false, bool isDataFormatNZ false, const SoftmaxConfig config SOFTMAX_DEFAULT_CFG __aicore__ inline void SoftMax(const LocalTensorhalf dstTensor, const LocalTensorfloat sumTensor, const LocalTensorfloat maxTensor, const LocalTensorhalf srcTensor, const SoftMaxTiling tiling, const SoftMaxShapeInfo softmaxShapeInfo {})不带sumTensor和maxTensor参数template typename T, bool isReuseSource false, bool isBasicBlock false, const SoftmaxConfig config SOFTMAX_DEFAULT_CFG __aicore__ inline void SoftMax(const LocalTensorT dstTensor, const LocalTensorT srcTensor, const SoftMaxTiling tiling, const SoftMaxShapeInfo softmaxShapeInfo {})通过sharedTmpBuffer入参传入临时空间LocalTensor的数据类型相同template typename T, bool isReuseSource false, bool isBasicBlock false, bool isDataFormatNZ false, const SoftmaxConfig config SOFTMAX_DEFAULT_CFG __aicore__ inline void SoftMax(const LocalTensorT dstTensor, const LocalTensorT sumTensor, const LocalTensorT maxTensor, const LocalTensorT srcTensor, const LocalTensoruint8_t sharedTmpBuffer, const SoftMaxTiling tiling, const SoftMaxShapeInfo softmaxShapeInfo {})LocalTensor的数据类型不同template typename T, bool isReuseSource false, bool isBasicBlock false, bool isDataFormatNZ false, const SoftmaxConfig config SOFTMAX_DEFAULT_CFG __aicore__ inline void SoftMax(const LocalTensorhalf dstTensor, const LocalTensorfloat sumTensor, const LocalTensorfloat maxTensor, const LocalTensorhalf srcTensor, const LocalTensoruint8_t sharedTmpBuffer, const SoftMaxTiling tiling, const SoftMaxShapeInfo softmaxShapeInfo {})不带sumTensor和maxTensor参数template typename T, bool isReuseSource false, bool isBasicBlock false, const SoftmaxConfig config SOFTMAX_DEFAULT_CFG __aicore__ inline void SoftMax(const LocalTensorT dstTensor, const LocalTensorT srcTensor, const LocalTensoruint8_t sharedTmpBuffer, const SoftMaxTiling tiling, const SoftMaxShapeInfo softmaxShapeInfo {})参数说明dst目的操作数。sum目的操作数。max目的操作数。src源操作数。tilingSoftMax计算所需Tiling信息。tmp_buffer临时空间。reuse_source该参数预留传入默认值false即可。basic_blocksrc和dst的shape信息和Tiling切分策略满足基本块要求的情况下可以使能该参数用于提升性能默认不使能。data_format_nz当前输入输出的数据格式是否为NZ格式默认数据格式为ND即默认取值为false。约束说明src和dst的Tensor空间可以复用。sum和max为输出并且last轴长度必须固定32Byte非last轴大小需要和src以及dst保持一致。sum和max的数据类型需要保持一致。操作数地址对齐要求请参见 《Ascend C算子开发接口》 中的“通用说明和约束-通用地址对齐约束”。不支持tmp_buffer与源操作数和目的操作数地址重叠。开发者需要对GM上的原始输入(ori_src_M, ori_src_K)在M或K方向补齐数据到(src_M, src_K)补齐的数据会参与部分运算 在输入输出复用的场景下API的计算结果会覆盖src中补齐的原始数据在输入输出不复用的场景下 API的计算结果会覆盖dst中对应src补齐位置的数据。调用示例src_local in_queue_src.deque(T) sum_temp_local sum_queue.alloc_tensor(T) max_temp_local max_queue.alloc_tensor(T) dst_local out_queue_dst.alloc_tensor(T) src_shape asc.SoftMaxShapeInfo(height, width, height, width); asc.adv.softmax(dst_local, sum_temp_local, max_temp_local, srcLocal, tiling, src_shape); out_queue_dst.EnQue(dstLocal) max_queue.free_tensor(max_temp_local) sum_queue.free_tensor(sum_temp_local) in_queue_src.free_tensor(src_local)【免费下载链接】pyasc本项目为Python用户提供算子编程接口支持在昇腾AI处理器上加速计算接口与Ascend C一一对应并遵守Python原生语法。项目地址: https://gitcode.com/cann/pyasc创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN/pyasc昇腾SoftMax算子API文档

asc.language.adv.softmax 【免费下载链接】pyasc 本项目为Python用户提供算子编程接口,支持在昇腾AI处理器上加速计算,接口与Ascend C一一对应并遵守Python原生语法。 项目地址: https://gitcode.com/cann/pyasc asc.language.adv.softmax(dst: …...

从零实现扩散模型:数学原理与PyTorch实战图像生成

1. 项目概述与核心价值最近几年,AI图像生成领域最让人兴奋的突破,莫过于扩散模型(Diffusion Models)的崛起。从DALLE 2、Midjourney到Stable Diffusion,这些能根据一句话就生成惊艳图片的工具,其核心引擎都…...

FPGA-MPSoC边缘AI加速实战:从模型量化到硬件部署全解析

1. 项目概述:为什么要在边缘用FPGA-MPSoC做AI加速?这几年,但凡跟AI沾边的项目,无论是自动驾驶里识别一个突然窜出来的行人,还是工厂质检摄像头判断一个零件的瑕疵,大家挂在嘴边的都是“实时性”和“低功耗”…...

AI赋能结直肠癌诊断:从多模态数据融合到临床落地的技术实践

1. 项目概述:当AI遇见结直肠癌诊断作为一名在医疗影像和数字病理领域摸爬滚打了十多年的从业者,我亲眼见证了技术如何一步步改变临床诊断的图景。今天想和大家深入聊聊一个既前沿又接地气的领域:AI在结直肠癌诊断中的应用。这不仅仅是“计算机…...

当AI开始「嫌贫爱富」

GPT-5.5涨价三倍,SpaceX花600亿美元买一个编程工具。这两个新闻放在一起,揭示了一个被大多数人忽略的事实—— 不是AI越来越便宜,是AI市场正在剧烈撕裂。 如果你最近关注AI新闻,可能会有一种错觉:AI正在变得越来越便宜、越来越亲民。 DeepSeek V4开源免费,国产大模型卷出…...

pyasc向下取整函数

asc.language.adv.floor 【免费下载链接】pyasc 本项目为Python用户提供算子编程接口,支持在昇腾AI处理器上加速计算,接口与Ascend C一一对应并遵守Python原生语法。 项目地址: https://gitcode.com/cann/pyasc asc.language.adv.floor(dst: Loca…...

「AI最强联盟」正在悄悄解体

微软和OpenAI结束独家云合作的那天,没有吵架,没有声明,只有一份平静的公告。 但这可能是2026年最被低估的AI信号—— 不是因为感情破裂,而是因为利益已经大到无法用「独家」锁住。 如果你关注AI新闻,可能会有一种错觉:微软和OpenAI仍然是天作之合。 微软投了130亿美元,…...

Scrapy-Pinduoduo:构建高可用电商数据采集系统的技术实现方案

Scrapy-Pinduoduo:构建高可用电商数据采集系统的技术实现方案 【免费下载链接】scrapy-pinduoduo 拼多多爬虫,抓取拼多多热销商品信息和评论 项目地址: https://gitcode.com/gh_mirrors/sc/scrapy-pinduoduo 在电商竞争日益激烈的市场环境下&…...

HoRain云--汇编语言数组操作全解析

🎬 HoRain云小助手:个人主页 🔥 个人专栏: 《Linux 系列教程》《c语言教程》 ⛺️生活的理想,就是为了理想的生活! ⛳️ 推荐 前些天发现了一个超棒的服务器购买网站,性价比超高,大内存超划算!…...

基于Spring Boot的餐厅订餐系统的设计与实现毕设源码

博主介绍:✌ 专注于Java,python,✌关注✌私信我✌具体的问题,我会尽力帮助你。一、研究目的本研究旨在构建一个基于Spring Boot框架的餐厅订餐系统以解决传统餐饮服务模式中存在的信息传递效率低下、订单处理流程繁琐以及顾客体验不均衡等问题。随着移动…...

向量数据库基准测试实战:从原理到选型,科学评估性能

1. 向量数据库基准测试:为什么我们需要它,以及如何用好它如果你正在为你的AI应用(比如RAG、推荐系统或者图像搜索)挑选一个向量数据库,你大概率会面临一个幸福的烦恼:选择太多了。Qdrant、Weaviate、Milvus…...

EARN Fairness框架:让非技术利益相关者参与AI公平性决策

1. 项目概述与核心挑战在信贷审批、医疗诊断、招聘筛选这些高风险的人工智能应用场景里,我们经常听到一个词:算法公平。作为从业者,我见过太多项目在技术指标上跑得漂亮,却在落地时因为“不公平”的争议而搁浅。问题出在哪&#x…...

可解释AI与集成学习在医疗AIoT脑肿瘤检测中的融合应用

1. 项目概述:当AIoT遇上脑肿瘤检测,我们如何让“黑箱”变得透明? 在医疗影像领域,尤其是脑肿瘤的早期筛查与辅助诊断,AI的介入已经不是什么新鲜事。但作为一名在一线摸爬滚打多年的从业者,我深知临床医生们…...

初次使用Taotoken分钟级完成API接入与调用的效率体验

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 初次使用Taotoken分钟级完成API接入与调用的效率体验 对于开发者而言,接入一个新的API服务往往意味着需要花费时间阅读…...

CANN/cann-bench GRU算子评测

GRU 算子 API 描述 【免费下载链接】cann-bench 评测AI在处理CANN领域代码任务的能力,涵盖算子生成、算子优化等领域,支撑模型选型、训练效果评估,统一量化评估标准,识别Agent能力短板,构建CANN领域评测平台&#xff0…...

在Windows系统上快速配置Taotoken的Python调用环境

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 在Windows系统上快速配置Taotoken的Python调用环境 对于使用Windows系统的开发者来说,快速搭建一个能够调用大模型API的…...

基于Electron与LLM的CK3智能对话模组开发实战

1. 项目概述:当《十字军之王3》的宫廷角色开始“思考”如果你和我一样,是个策略游戏迷,同时又对AI技术充满好奇,那么“Voices of the Court”(宫廷之声)这个项目绝对会让你眼前一亮。简单来说,这…...

【无人机三维路径规划】基于任务分配与存档引导变异粒子群优化算法TAMOPSO的三维无人机飞行路径规划附Matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长毕业设计辅导、数学建模、数据处理、程序设计科研仿真。🍎完整代码获取 定制创新 论文复现点击:Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f3…...

OpenClaw与ZTM集成:构建去中心化AI对话通道的完整指南

1. 项目概述:构建去中心化的AI对话通道如果你正在寻找一种能够彻底摆脱中心化服务器依赖、实现点对点(P2P)安全通信的AI对话方案,那么将OpenClaw与ZTM(Zero Trust Mesh)网络集成,无疑是一个极具…...

从GAN到Transformer:生成式AI核心技术演进与实战指南

1. 项目概述:一场从“模仿”到“创造”的范式革命如果你在2014年问我,AI能做什么,我可能会跟你聊图像分类、语音识别,或者下围棋的AlphaGo。但今天,当“生成式AI”这个词席卷全球时,我们谈论的已经是AI写诗…...

CANN PTO-ISA 矩阵乘法

Matrix Multiply 【免费下载链接】pto-isa Parallel Tile Operation (PTO) is a virtual instruction set architecture designed by Ascend CANN, focusing on tile-level operations. This repository offers high-performance, cross-platform tile operations across Ascen…...

HoRain云--PHP表单数据处理:安全防护全攻略

🎬 HoRain 云小助手:个人主页 ⛺️生活的理想,就是为了理想的生活! ⛳️ 推荐 前些天发现了一个超棒的服务器购买网站,性价比超高,大内存超划算!忍不住分享一下给大家。点击跳转到网站。 目录 ⛳️ 推荐 …...

CANN/cannbot-skills MoE-Only Scope模板

MoE-Only Scope 模板 【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills 本模板提供仅将 MoE 模块纳入 SuperKernel scope…...

CANN/catlass FlashAttention推理TLA示例

FlashAttentionInferTla Example Readme 【免费下载链接】catlass 本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。 项目地址: https://gitcode.com/cann/catlass 代码组织 ├── 40_flash_attention_infer_tla │ ├── …...

Rust并发安全模式:从线程安全到无锁编程

Rust并发安全模式:从线程安全到无锁编程 引言 并发编程是后端开发的核心挑战之一。Rust通过所有权系统和类型安全,在编译时保证并发安全,避免了数据竞争等常见问题。 本文将深入探讨Rust中的并发安全模式,包括线程同步、无锁编程、…...

昇腾CANN/TensorFlow MemoryConfig构造函数

MemoryConfig构造函数 【免费下载链接】tensorflow Ascend TensorFlow Adapter 项目地址: https://gitcode.com/cann/tensorflow 功能说明 MemoryConfig类的构造函数,用于配置系统内存使用方式。 函数原型 class MemoryConfig():def __init__(self,atomic…...

CANN/driver设备故障码查询API

dcmi_get_device_errorcode_v2 【免费下载链接】driver 本项目是CANN提供的驱动模块,实现基础驱动和资源管理及调度等功能,使能昇腾芯片。 项目地址: https://gitcode.com/cann/driver 函数原型 int dcmi_get_device_errorcode_v2(int card_id, …...

2025最权威的五大AI论文网站解析与推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 处于学术论文写作范畴内的人工智能,其应用正愈发广泛,它的核心价值展…...

ARMv8内存管理机制与地址转换详解

1. ARMv8内存管理架构概述在AArch64执行状态下,ARMv8架构的内存管理单元(MMU)采用了两阶段地址转换机制(Stage 1 Stage 2),为虚拟化环境提供了灵活的地址转换方案。Stage 1转换由虚拟机操作系统控制&#…...

IEEE 802.11az安全Wi-Fi测距技术解析与应用

1. IEEE 802.11az/bk安全Wi-Fi测距技术深度解析Wi-Fi网络早已超越单纯的通信功能,成为室内定位和距离测量的重要基础设施。想象一下这样的场景:当你走进智能家居环境,灯光自动调节到舒适亮度;在大型商场里,导航系统精准…...