当前位置: 首页 > article >正文

CANN/asc-devkit Mins矢量计算

Mins灵活标量位置【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品 / Atlas A3 推理系列产品xAtlas A2 训练系列产品 / Atlas A2 推理系列产品xAtlas 200I/500 A2 推理产品xAtlas 推理系列产品 AI CorexAtlas 推理系列产品 Vector CorexAtlas 训练系列产品x功能说明提供灵活标量位置的接口支持标量在前和标量在后两种场景。其中标量输入支持配置LocalTensor单点元素计算公式如下idx表示LocalTensor单点元素的位置系数。函数原型tensor前n个数据计算template typename T BinaryDefaultType, bool isSetMask true, const BinaryConfig config DEFAULT_BINARY_CONFIG, typename U, typename S, typename V __aicore__ inline void Mins(const U dst, const S src0, const V src1, const int32_t count)tensor高维切分计算mask逐bit模式template typename T BinaryDefaultType, bool isSetMask true, const BinaryConfig config DEFAULT_BINARY_CONFIG, typename U, typename S, typename V __aicore__ inline void Mins(const U dst, const S src0, const V src1, uint64_t mask[], const uint8_t repeatTime, const UnaryRepeatParams repeatParams)mask连续模式template typename T BinaryDefaultType, bool isSetMask true, const BinaryConfig config DEFAULT_BINARY_CONFIG, typename U, typename S, typename V __aicore__ inline void Mins(const U dst, const S src0, const V src1, uint64_t mask, const uint8_t repeatTime, const UnaryRepeatParams repeatParams)参数说明表 1模板参数说明参数名描述T操作数数据类型。对于灵活标量位置接口为预留参数暂未启用为后续的功能扩展做保留需要指定时传入默认值BinaryDefaultType即可。isSetMask是否在接口内部设置mask模式和mask值。true表示在接口内部设置。tensor高维切分计算API/tensor前n个数据计算API内部使用了mask的Normal模式/Counter模式一般情况下保持isSetMask默认值即可表示在API内部根据开发者传入的mask/count参数进行mask模式和mask值的设置。false表示在接口外部设置。针对tensor高维切分计算接口对性能要求较高的部分场景下开发者需要使用SetMaskNorm/SetMaskCount设置mask模式并通过SetVectorMask接口设置mask值。接口入参中的mask值设置为占位符MASK_PLACEHOLDER用于占位无实际含义。针对tensor前n个数据计算接口对性能要求较高的部分场景下开发者需要使用SetMaskCount设置mask模式为Counter模式并通过SetVectorMask接口设置mask值。本接口入参中的count不生效建议设置成1。针对以下型号tensor前n个数据计算API中的isSetMask参数不生效保持默认值即可。针对Ascend 950PR/Ascend 950DTAtlas 200I/500 A2 推理产品config类型为BinaryConfig当标量为LocalTensor单点元素类型时生效用于指定单点元素操作数位置。默认值DEFAULT_BINARY_CONFIG表示右操作数为标量。struct BinaryConfig { int8_t scalarTensorIndex 1; // 用于指定标量为LocalTensor单点元素时标量的位置0表示左操作数1表示右操作数 }; constexpr BinaryConfig DEFAULT_BINARY_CONFIG {1};ULocalTensor类型根据输入参数dst自动推导相应的数据类型开发者无需配置该参数保证dst满足数据类型的约束即可。SLocalTensor类型或标量类型根据输入参数src0自动推导相应的数据类型开发者无需配置该参数保证src0满足数据类型的约束即可。VLocalTensor类型或标量类型根据输入参数src1自动推导相应的数据类型开发者无需配置该参数保证src1满足数据类型的约束即可。表 2参数说明参数名称类型说明dst输出目的操作数。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要32字节对齐。Ascend 950PR/Ascend 950DT支持的数据类型为uint8_t/int8_t/half/bfloat16_t/int16_t/float/int32_t/uint64_t/int64_tsrc0/src1输入灵活标量位置接口中源操作数。类型为LocalTensor时支持当作矢量操作数或标量单点元素支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要32字节对齐。Ascend 950PR/Ascend 950DT支持的数据类型为uint8_t/int8_t/half/bfloat16_t/int16_t/float/int32_t/uint64_t/int64_t类型为标量时Ascend 950PR/Ascend 950DT支持的数据类型为uint8_t/int8_t/half/bfloat16_t/int16_t/float/int32_t/uint64_t/int64_t数据类型需要与目的操作数保持一致。count输入参与计算的元素个数。mask/mask[]输入mask用于控制每次迭代内参与计算的元素。逐bit模式可以按位控制哪些元素参与计算bit位的值为1表示参与计算0表示不参与。mask为数组形式数组长度和数组元素的取值范围和操作数的数据类型有关。当操作数为16位时数组长度为2mask[0]、mask[1]∈[0, 264-1]并且不同时为0当操作数为32位时数组长度为1mask[0]∈(0, 264-1]当操作数为64位时数组长度为1mask[0]∈(0, 232-1]。例如mask[8, 0]80b1000表示仅第4个元素参与计算。连续模式表示前面连续的多少个元素参与计算。取值范围和操作数的数据类型有关数据类型不同每次迭代内能够处理的元素个数最大值不同。当操作数为16位时mask∈[1, 128]当操作数为32位时mask∈[1, 64]当操作数为64位时mask∈[1, 32]。repeatTime输入重复迭代次数。 矢量计算单元每次读取连续的256Bytes数据进行计算为完成对输入数据的处理必须通过多次迭代repeat才能完成所有数据的读取与计算。repeatTime表示迭代的次数。关于该参数的具体描述请参考高维切分API。repeatParams输入元素操作控制结构信息具体请参考UnaryRepeatParams。返回值说明无约束说明调用灵活标量位置接口且源操作数为LocalTensor单点元素的场景不支持源操作数和目的操作数地址重叠。操作数地址对齐要求请参见通用地址对齐约束。针对Ascend 950PR/Ascend 950DTint8_t/uint8_t/uint64_t/int64_t数据类型仅支持tensor前n个数据计算接口。左操作数及右操作数中必须有一个为矢量当前不支持左右操作数同时为标量。本接口传入LocalTensor单点数据作为标量时idx参数需要传入编译期已知的常量传入变量时需要声明为constexpr。调用示例更多样例可参考LINK。tensor高维切分计算样例-mask连续模式uint64_t mask 128; // repeatTime 4, 单次迭代处理128个数计算512个数需要迭代4次 // dstBlkStride, srcBlkStride 1, 每个迭代内src0参与计算的数据地址间隔为1个datablock表示单次迭代内数据连续读取和写入 // dstRepStride, srcRepStride 8, 相邻迭代间的地址间隔为8个datablock表示相邻迭代间数据连续读取和写入 // 标量在后示例 AscendC::Mins(dstLocal, src0Local, src1Local[0], mask, 4, { 1, 1, 8, 8 }); // 标量在前示例 static constexpr AscendC::BinaryConfig config { 0 }; AscendC::MinsBinaryDefaultType, true, config(dstLocal, src0Local[0], src1Local, mask, 4, { 1, 1, 8, 8 });tensor高维切分计算样例-mask逐bit模式uint64_t mask[2] { UINT64_MAX, UINT64_MAX }; // repeatTime 4, 单次迭代处理128个数计算512个数需要迭代4次 // dstBlkStride, srcBlkStride 1, 每个迭代内src0参与计算的数据地址间隔为1个datablock表示单次迭代内数据连续读取和写入 // dstRepStride, srcRepStride 8, 相邻迭代间的地址间隔为8个datablock表示相邻迭代间数据连续读取和写入 // 标量在后示例 AscendC::Mins(dstLocal, src0Local, src1Local[0], mask, 4, {1, 1, 8, 8}); // 标量在前示例 static constexpr AscendC::BinaryConfig config { 0 }; AscendC::MinsBinaryDefaultType, true, config(dstLocal, src0Local[0], src1Local, mask, 4, { 1, 1, 8, 8 });tensor前n个数据计算样例// 标量在后示例 AscendC::Mins(dstLocal, src0Local, src1Local[0], 512); // 标量在前示例 static constexpr AscendC::BinaryConfig config { 0 }; AscendC::MinsBinaryDefaultType, true, config(dstLocal, src0Local[0], src1Local, 512);结果示例如下输入数据(src0Local): [1 2 3 ... 512] 输入数据 src1Local [2 2 2 ... 2] // 标量在前src0Local[0]作为标量 输出数据(dstLocal): [1 1 1 ... 1] // 标量在后src1Local[0]作为标量 输出数据(dstLocal): [1 2 2 ... 2]【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN/asc-devkit Mins矢量计算

Mins(灵活标量位置) 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。 …...

CANN/HCOMM拓扑层级查询

HcclRankGraphGetLayers 【免费下载链接】hcomm HCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。 项目地址: https://gitcode.com/cann/hcomm 产品支持情况 Ascend 950PR/Ascend 950DT&#xff1…...

如何快速构建完整的以太坊Go开发实战应用:从入门到精通指南 [特殊字符]

如何快速构建完整的以太坊Go开发实战应用:从入门到精通指南 🚀 【免费下载链接】ethereum-development-with-go-book 📖 A little guide book on Ethereum Development with Go (golang) 项目地址: https://gitcode.com/gh_mirrors/et/ethe…...

FreeJoy固件刷写与配置全攻略:从STM32CubeProgrammer到中文版Configurator

FreeJoy控制器全流程实战指南:从固件刷写到高级配置 在开源硬件和DIY控制器领域,FreeJoy项目以其灵活性和低成本优势吸引了大量创客和游戏外设爱好者。不同于商业产品的封闭性,基于STM32F103C8T的FreeJoy解决方案让用户能够完全掌控控制器的每…...

告别卡顿!用ZLMRTCClient.js和Vue3打造超低延迟WebRTC监控播放器(附完整代码)

超低延迟WebRTC监控播放器:基于ZLMRTCClient.js与Vue3的工程实践 在安防监控、智慧园区等对实时性要求极高的场景中,传统流媒体方案如HLS或FLV往往面临3-5秒甚至更高的延迟。这种延迟在关键场景下可能导致严重后果——当监控画面显示"一切正常"…...

嵌入式数据存储终极指南:5分钟快速上手FlashDB超轻量级数据库

嵌入式数据存储终极指南:5分钟快速上手FlashDB超轻量级数据库 【免费下载链接】FlashDB An ultra-lightweight database that supports key-value and time series data | 一款支持 KV 数据和时序数据的超轻量级数据库 项目地址: https://gitcode.com/gh_mirrors/…...

【习题02】打印菱形

题目: 用C语言在屏幕上输出以下图案:1、题目分析: 这道题目需要打印一个菱形,经过分析可得每一行就是打印空格和*。 经过观察可得: 第一行:6个空格 1个*第二行:5个空格 3个*第三行:4…...

【习题01】喝汽水问题

题目:喝汽水,1瓶汽水1元,2个空瓶可以换一瓶汽水,给20元,可以喝多少汽水(编程实现)。 1、题目解析: 通过分析,我们可以得到以下流程图:20元钱,&…...

智能视觉瞄准系统:基于YOLOv8的高效游戏辅助解决方案

智能视觉瞄准系统:基于YOLOv8的高效游戏辅助解决方案 【免费下载链接】RookieAI_yolov8 基于yolov8实现的AI自瞄项目 AI self-aiming project based on yolov8 项目地址: https://gitcode.com/gh_mirrors/ro/RookieAI_yolov8 RookieAI_yolov8是一个基于先进视…...

3分钟解决Cursor试用限制:设备标识重置完整指南

3分钟解决Cursor试用限制:设备标识重置完整指南 【免费下载链接】go-cursor-help 解决Cursor在免费订阅期间出现以下提示的问题: Your request has been blocked as our system has detected suspicious activity / Youve reached your trial request limit. / Too …...

完全掌握Visual C++运行库:从DLL缺失到系统稳定的全面解决方案

完全掌握Visual C运行库:从DLL缺失到系统稳定的全面解决方案 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 当您在Windows系统中运行游戏或专业软件…...

白介素-5(IL-5)的结构、功能及医学应用研究进展

摘要白介素-5(Interleukin-5,IL-5)是一种由Th2细胞、嗜酸性粒细胞祖细胞等免疫细胞分泌的多功能细胞因子,在调节免疫反应、尤其是嗜酸性粒细胞(Eosinophil, EOS)的分化、存活及功能活化中发挥核心作用。自1…...

Komanda代码嵌入功能详解:Gist、JSFiddle和Twitter无缝集成

Komanda代码嵌入功能详解:Gist、JSFiddle和Twitter无缝集成 【免费下载链接】komanda The IRC Client For Developers 项目地址: https://gitcode.com/gh_mirrors/ko/komanda Komanda作为一款面向开发者的IRC客户端,提供了强大的代码嵌入功能&…...

使用curl命令直接测试taotoken api的连通性与基础功能

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 使用curl命令直接测试taotoken api的连通性与基础功能 基础教程类,面向需要快速验证或在不便安装SDK的环境中进行操作的…...

【热门开源项目下载】yolo-onnx-java

【热门开源项目下载】yolo-onnx-java 1. 项目基础介绍与编程语言 yolo-onnx-java 是一个基于Java语言开发的轻量级AI模型调用框架,专注于为Java开发者提供高效、便捷的深度学习模型推理能力。项目通过ONNX(Open Neural Network Exchange)格式…...

BooruDatasetTagManager自定义界面与快捷键:打造个性化工作流程的终极指南 [特殊字符]

BooruDatasetTagManager自定义界面与快捷键:打造个性化工作流程的终极指南 🎨 【免费下载链接】BooruDatasetTagManager 项目地址: https://gitcode.com/gh_mirrors/bo/BooruDatasetTagManager BooruDatasetTagManager是一款强大的AI训练数据标签…...

DepHell与Docker集成:容器化Python应用开发的终极指南

DepHell与Docker集成:容器化Python应用开发的终极指南 【免费下载链接】dephell :package: :fire: Python project management. Manage packages: convert between formats, lock, install, resolve, isolate, test, build graph, show outdated, audit. Manage ven…...

测试TVS:SP0503BAHTG

简 介: 本文测试了SP0503BAHTG三通道TVS二极管阵列的特性。通过设计测试电路板,测量了该器件对1kHz正弦波的限幅效果,测得反向导通电压约-0.8V,顶部饱和电压6.3V。在1MHz高频测试中观察到快速响应特性,通过矩形波上升沿…...

YOLO-ONNX-Java分布式推理架构设计与实现

YOLO-ONNX-Java分布式推理架构设计与实现 引言:单机推理的性能瓶颈 在实际的AI视觉识别项目中,随着业务规模的扩大,单机推理往往面临以下挑战: 并发处理能力有限:单台服务器无法同时处理大量视频流GPU资源利用率低&…...

别再截图了!用AD21把PCB 3D模型直接塞进PDF,客户评审一目了然

用AD21将PCB 3D模型嵌入PDF:提升设计评审效率的终极方案 在硬件开发流程中,设计评审环节往往成为项目推进的瓶颈。传统方式下,工程师不得不反复截取多角度2D图纸,或录制繁琐的演示视频,既耗费时间又难以全面展示设计细…...

从蓝牙时钟到通用Timer:详解非32位满量程下的时间回环处理技巧

从蓝牙时钟到通用Timer:非标准位宽下的时间回环处理实战指南 在嵌入式系统中,时间管理如同隐形的骨架,支撑着各类关键功能的稳定运行。当开发者从32位通用定时器转向蓝牙协议栈中的28位时钟,或面对某些硬件平台上的24位专用定时器…...

YOLO-ONNX-Java 性能监控指标全面解析

YOLO-ONNX-Java 性能监控指标全面解析 概述 在计算机视觉应用中,性能监控是确保系统稳定运行的关键环节。YOLO-ONNX-Java 作为一个纯 Java 实现的 AI 视觉识别项目,提供了丰富的性能监控指标来帮助开发者优化系统性能。本文将深入解析该项目的性能监控指…...

分布式事务解决方案TCC实战

分布式事务解决方案TCC实战 一、分布式事务概述 在分布式系统中,事务跨越多个服务或数据库,传统的ACID事务无法直接适用,需要采用分布式事务解决方案。 1.1 分布式事务挑战 挑战说明网络延迟跨服务调用存在网络延迟和超时数据一致性多个数据源…...

CANN/catlass精度分析基础

精度分析基础 【免费下载链接】catlass 本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。 项目地址: https://gitcode.com/cann/catlass 写在前面 该文档主要说明CATLASS样例开发中精度分析的基础知识,包括样例精度…...

一套代码适配四种屏幕——StyleConfiguration 键盘多设备适配方案

文章目录问题在哪?StyleConfiguration 的设计思路KeyStyle 接口定义StyleConfiguration.getInputStyle 完整逻辑资源文件命名规范组件如何使用 StyleConfiguration屏幕旋转适配完整流程这种设计模式的通用价值踩坑记录写在最后搞输入法开发最头疼的事情之一就是屏幕…...

深入理解ops-tensor架构:模块化算子库的设计哲学与实现

深入理解ops-tensor架构:模块化算子库的设计哲学与实现 【免费下载链接】ops-tensor ops-tensor 是 CANN (Compute Architecture for Neural Networks)算子库中提供张量类计算的基础算子库,采用模块化设计,支持灵活的算…...

CANN/cann-learning-hub:Swan LLM 大模型实战课程

【免费下载链接】cann-learning-hub CANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。 项目地址: https://gitcode.com/cann/cann-learning-hub SwanLab x CANN 社区合作课程 Swa…...

aFileChooser架构设计分析:Fragment、Loader和Intent的最佳实践

aFileChooser架构设计分析:Fragment、Loader和Intent的最佳实践 【免费下载链接】aFileChooser [DEPRECATED] Android library that provides a file explorer to let users select files on external storage. 项目地址: https://gitcode.com/gh_mirrors/af/aFil…...

Kubernetes 监控与可观测性深度解析:Prometheus + Grafana + Loki

Kubernetes 监控与可观测性深度解析:Prometheus Grafana Loki 引言 在云原生环境中,监控与可观测性是保障系统稳定运行的关键。Kubernetes 生态提供了丰富的监控工具,其中 Prometheus、Grafana 和 Loki 组成了完整的可观测性栈。本文将深…...

CANN/hcomm集群信息初始化API

HcclCommInitClusterInfo 【免费下载链接】hcomm HCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。 项目地址: https://gitcode.com/cann/hcomm 产品支持情况 Ascend 950PR/Ascend 950DT&#xff1…...