当前位置: 首页 > article >正文

CANN Ascend C向量最小值规约

asc_repeat_reduce_min【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit产品支持情况产品是否支持Atlas A3 训练系列产品/Atlas A3 推理系列产品√Atlas A2 训练系列产品/Atlas A2 推理系列产品√功能说明对每个Repeat内所有元素求最小值以及Repeat内的首个最小值元素在当前Repeat中的索引index。一次Repeat计算256字节。index_value 接口表示index位于低半部返回结果存储顺序为[index, value]。输入数据类型为half时index数据类型为uint16输入数据类型为float时index数据类型为uint32。 value_index 接口表示value位于低半部返回结果存储顺序为[value, index]。输入数据类型为half时index数据类型为uint16输入数据类型为float时index数据类型为uint32。 only_value 接口表示只返回最值返回结果存储顺序为[value]。 only_index 接口表示只返回最值索引返回结果存储顺序为[index]。index数据类型固定为uint32执行此接口后可以继续执行asc_get_reduce_min_cnt获取全部repeat内的最小值以及第一个最小值时的索引。函数原型前n个数据计算__aicore__ inline void asc_repeat_reduce_min_index_value(__ubuf__ half* dst, __ubuf__ half* src, uint32_t count) __aicore__ inline void asc_repeat_reduce_min_index_value(__ubuf__ float* dst, __ubuf__ float* src, uint32_t count) __aicore__ inline void asc_repeat_reduce_min_value_index(__ubuf__ half* dst, __ubuf__ half* src, uint32_t count) __aicore__ inline void asc_repeat_reduce_min_value_index(__ubuf__ float* dst, __ubuf__ float* src, uint32_t count) __aicore__ inline void asc_repeat_reduce_min_only_value(__ubuf__ half* dst, __ubuf__ half* src, uint32_t count) __aicore__ inline void asc_repeat_reduce_min_only_value(__ubuf__ float* dst, __ubuf__ float* src, uint32_t count) __aicore__ inline void asc_repeat_reduce_min_only_index(__ubuf__ half* dst, __ubuf__ half* src, uint32_t count) __aicore__ inline void asc_repeat_reduce_min_only_index(__ubuf__ float* dst, __ubuf__ float* src, uint32_t count)高维切分计算__aicore__ inline void asc_repeat_reduce_min_index_value(__ubuf__ half* dst, __ubuf__ half* src, uint8_t repeat, uint16_t dst_repeat_stride, uint16_t src_block_stride, uint16_t src_repeat_stride) __aicore__ inline void asc_repeat_reduce_min_index_value(__ubuf__ float* dst, __ubuf__ float* src, uint8_t repeat, uint16_t dst_repeat_stride, uint16_t src_block_stride, uint16_t src_repeat_stride) __aicore__ inline void asc_repeat_reduce_min_value_index(__ubuf__ half* dst, __ubuf__ half* src, uint8_t repeat, uint16_t dst_repeat_stride, uint16_t src_block_stride, uint16_t src_repeat_stride) __aicore__ inline void asc_repeat_reduce_min_value_index(__ubuf__ float* dst, __ubuf__ float* src, uint8_t repeat, uint16_t dst_repeat_stride, uint16_t src_block_stride, uint16_t src_repeat_stride) __aicore__ inline void asc_repeat_reduce_min_only_value(__ubuf__ half* dst, __ubuf__ half* src, uint8_t repeat, uint16_t dst_repeat_stride, uint16_t src_block_stride, uint16_t src_repeat_stride) __aicore__ inline void asc_repeat_reduce_min_only_value(__ubuf__ float* dst, __ubuf__ float* src, uint8_t repeat, uint16_t dst_repeat_stride, uint16_t src_block_stride, uint16_t src_repeat_stride) __aicore__ inline void asc_repeat_reduce_min_only_index(__ubuf__ half* dst, __ubuf__ half* src, uint8_t repeat, uint16_t dst_repeat_stride, uint16_t src_block_stride, uint16_t src_repeat_stride) __aicore__ inline void asc_repeat_reduce_min_only_index(__ubuf__ float* dst, __ubuf__ float* src, uint8_t repeat, uint16_t dst_repeat_stride, uint16_t src_block_stride, uint16_t src_repeat_stride)同步计算__aicore__ inline void asc_repeat_reduce_min_index_value_sync(__ubuf__ half* dst, __ubuf__ half* src, uint32_t count) __aicore__ inline void asc_repeat_reduce_min_index_value_sync(__ubuf__ float* dst, __ubuf__ float* src, uint32_t count) __aicore__ inline void asc_repeat_reduce_min_value_index_sync(__ubuf__ half* dst, __ubuf__ half* src, uint32_t count) __aicore__ inline void asc_repeat_reduce_min_value_index_sync(__ubuf__ float* dst, __ubuf__ float* src, uint32_t count) __aicore__ inline void asc_repeat_reduce_min_only_value_sync(__ubuf__ half* dst, __ubuf__ half* src, uint32_t count) __aicore__ inline void asc_repeat_reduce_min_only_value_sync(__ubuf__ float* dst, __ubuf__ float* src, uint32_t count) __aicore__ inline void asc_repeat_reduce_min_only_index_sync(__ubuf__ half* dst, __ubuf__ half* src, uint32_t count) __aicore__ inline void asc_repeat_reduce_min_only_index_sync(__ubuf__ float* dst, __ubuf__ float* src, uint32_t count)参数说明表1 参数说明参数名输入/输出描述dst输出目的操作数矢量的起始地址。src输入源操作数矢量的起始地址。count输入参与计算的元素个数。repeat输入迭代次数。dst_repeat_stride输入目的操作数相邻迭代间的地址步长单位为一个repeat计算后的长度具体如下返回最值和索引时若输出数据类型为T则单位为sizeof(T)*2。仅返回最值且输入类型为T时单位为sizeof(T)。仅返回索引时单位为4字节(sizeof(uint32))src_block_stride输入源操作数单次迭代内不同DataBlock间地址步长。src_repeat_stride输入源操作数相邻迭代间相同DataBlock的地址步长。返回值说明无流水类型PIPE_V约束说明输出中的索引index的数据是按照dst的数据类型进行存储比如float输出的index数据应该为uint32则读取时需要将float重新解释为uint32。操作数地址重叠约束请参考通用地址重叠约束。dst的起始地址输入类型为half时需要4字节对齐输入类型为float时需要8字节对齐。src的起始地址需要32字节对齐。调用示例// 示例计算256个half的最小值和索引分2次迭代完成计算结果为2组value_index constexpr uint32_t total_length 256; __ubuf__ half src[total_length]; constexpr uint32_t dst_length 4; __ubuf__ half dst[dst_length]; uint8_t repeat 2; // 单位为 sizeof(half)*2 4字节连续存放 uint16_t dst_repeat_stride 1; uint16_t src_block_stride 1; uint16_t src_repeat_stride 8; asc_repeat_reduce_min_value_index(dst, src, repeat, dst_repeat_stride, src_block_stride, src_repeat_stride);结果示例输入数据src[256, 255, 254, ..., 129, 128, ..., 2, 1] 输出数据dst[129, 7.6e-6, 1, 7.6e-6] 输出说明half类型7.6e-6的二进制是0x007F重新解释为uint32后即为最小值索引127【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN Ascend C向量最小值规约

asc_repeat_reduce_min 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。 项目地址: https://…...

AI智能体技能管理:MCP服务器安装配置与实战指南

1. 项目概述:一个为AI智能体管理“技能”的MCP服务器 最近在折腾AI智能体(Agent)开发的朋友,应该都遇到过同一个痛点:想让你的Claude、GPT或者Gemini去执行一些特定的、复杂的任务,比如调用某个API、处理特…...

Ember Simple Auth 高级技巧:自定义认证器与存储实现指南

Ember Simple Auth 高级技巧:自定义认证器与存储实现指南 【免费下载链接】ember-simple-auth A library for implementing authentication/authorization in Ember.js applications. 项目地址: https://gitcode.com/gh_mirrors/em/ember-simple-auth Ember …...

鸿蒙一气总论(八)

第八卷 古今气运历史兴衰天道规律卷首引天地有气运,一气有盈亏; 万象有消长,人世有兴衰。天运为纲,地运为基,人运为果。 朝代更迭、世道治乱、民心淳漓、文明起落, 从来不是偶然人事,不是强弱输…...

AI新闻链接汇总(2026-05-10)

AI新闻链接汇总(2026-05-10) 一、斯坦福大学发布《2026年人工智能指数报告》:美国领跑模型开发,中国主导机器人部署 斯坦福大学以人为本人工智能研究院于2026年4月13日正式发布《2026年人工智能指数报告》,这份长达4…...

大模型多格式量化训练技术解析与应用实践

1. 多格式量化训练技术解析在大语言模型部署实践中,量化技术已经成为平衡计算效率和模型性能的关键手段。传统量化方案通常需要为每种目标精度单独训练和存储模型,这在资源受限的边缘设备上会带来显著的存储和管理开销。多格式量化训练(Multi-format QAT…...

3步实现完美视频字幕去除:Video Subtitle Remover AI视频处理完全指南

3步实现完美视频字幕去除:Video Subtitle Remover AI视频处理完全指南 【免费下载链接】video-subtitle-remover 基于AI的图片/视频硬字幕去除、文本水印去除,无损分辨率生成去字幕、去水印后的图片/视频文件。无需申请第三方API,本地实现。A…...

Python 虚拟环境完全指南:venv、virtualenv 与 Conda

Python 虚拟环境完全指南:venv、virtualenv 与 Conda 目录 虚拟环境概述venv 模块详解virtualenv 工具详解Conda 环境管理详解三者对比分析总结与建议 1. 虚拟环境概述 1.1 什么是虚拟环境 虚拟环境是一个独立的 Python 运行环境,它允许你在同一台机…...

抖音下载器技术架构解析:多策略异步下载系统的设计与实现

抖音下载器技术架构解析:多策略异步下载系统的设计与实现 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback su…...

Unity-Editor-Toolbox 上下文菜单操作:复制粘贴组件的简单方法

Unity-Editor-Toolbox 上下文菜单操作:复制粘贴组件的简单方法 【免费下载链接】Unity-Editor-Toolbox Tools, custom attributes, drawers, hierarchy overlay, and other extensions for the Unity Editor. 项目地址: https://gitcode.com/gh_mirrors/un/Unity-…...

为什么电路中的阻抗需要引入复数?

1、方便计算说法▼无他,就是图个方便计算而已。请看下题,求如图所示电路中电流的大小。电流的频率与电压频率相同,无非就是求解幅值的变化和相位的变化。▼引用一下以前我的一个知乎回答,数学中的数先是从一维数轴开始。▼因电路的…...

【Oracle数据库指南】第03篇:Oracle SQL分组统计与排序——GROUP BY、HAVING与ORDER BY深度解析

上一篇【第02篇】Oracle SQL查询高级技巧——条件与函数 下一篇【第04篇】Oracle多表查询与连接操作——JOIN的全面解析 摘要 本文详细讲解Oracle SQL中的分组统计功能,包括分组函数(COUNT、SUM、AVG、MAX、MIN等)的用法、GROUP BY子句的多列…...

CANN/asc-devkit半精度转无符号整数函数

__half2uint_rd 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。 项目地址: https://gitcode…...

AI辅助生殖:多模态数据融合与深度学习在胚胎评估中的应用

1. 项目概述:当AI遇见生命的起点在辅助生殖技术(ART)这个关乎无数家庭希望的前沿领域,每一次胚胎移植都像是一场精密的“押注”。医生和胚胎学家们需要在显微镜下,从数个甚至数十个胚胎中,挑选出那个最有潜…...

CANN算子库幂运算API文档

aclnnPowTensorScalar&aclnnInplacePowTensorScalar 【免费下载链接】ops-math 本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-math 📄 查看源码 产品支持情况 产品是否支持A…...

CANN/ops-math OneHot算子

OneHot 【免费下载链接】ops-math 本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-math 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理系列产品√…...

CANN ops-nn MseLoss算子

MseLoss 【免费下载链接】ops-nn 本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-nn 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理系列产品√At…...

ReportPortal故障排除:常见部署问题和解决方案大全

ReportPortal故障排除:常见部署问题和解决方案大全 【免费下载链接】reportportal Main Repository. ReportPortal starts here - see readme below. 项目地址: https://gitcode.com/gh_mirrors/re/reportportal ReportPortal是一款功能强大的测试自动化报告…...

如何永久保存微信聊天记录?5步实现数据自主管理

如何永久保存微信聊天记录?5步实现数据自主管理 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we/WeChatMsg …...

如何用PyWxDump破解微信数据解析的三大技术壁垒:从困境到突破的完整指南

如何用PyWxDump破解微信数据解析的三大技术壁垒:从困境到突破的完整指南 【免费下载链接】PyWxDump 删库 项目地址: https://gitcode.com/GitHub_Trending/py/PyWxDump 微信数据解析一直是个技术难题,就像试图打开一个不断变换密码的智能保险箱。…...

FPGA加速中性原子量子计算机的原子检测技术

1. 中性原子量子计算机的原子检测挑战量子计算领域近年来最激动人心的进展之一,就是中性原子量子计算机的快速发展。这种量子计算机利用激光镊子(光学镊子)阵列来捕获和排列中性原子(如铷、铯等碱金属原子)&#xff0c…...

Arclight故障排除与性能调优:解决常见问题的终极方案

Arclight故障排除与性能调优:解决常见问题的终极方案 【免费下载链接】Arclight A Bukkit(1.20/1.21) server implementation in modding environment using Mixin. ⚡ 项目地址: https://gitcode.com/gh_mirrors/ar/Arclight Arclight作为基于Mixin技术的Bu…...

Swift集成OllamaKit:本地大模型原生应用开发实战指南

1. 项目概述:当大模型遇上原生应用最近在折腾一个很有意思的东西,想给手头的 macOS 应用加上一点“智能”。不是那种简单的网络请求,而是希望它能像 ChatGPT 那样,在本地就能理解我的指令、生成文本,甚至进行简单的推理…...

法律即代码:开源项目vericlaw如何用规则引擎实现合同自动化

1. 项目概述与核心价值最近在折腾一些自动化流程,特别是涉及到合同、协议这类法律文书的生成与审核时,发现了一个挺有意思的开源项目:Sheygoodbai/vericlaw。乍一看这个名字,结合其仓库描述,就能猜到它大概和法律&…...

安全代码沙盒实践:从Docker到seccomp的多层防御架构

1. 项目概述:安全代码执行的沙盒化实践在开发、测试乃至在线教育、代码评测平台等场景中,我们经常面临一个核心挑战:如何安全地执行一段来源未知、意图不明的代码?直接在生产服务器上运行用户提交的代码,无异于敞开大门…...

mitojs高级配置与Hook机制:如何实现高度定制化监控

mitojs高级配置与Hook机制:如何实现高度定制化监控 【免费下载链接】monitor 👀 一款轻量级的收集页面的用户点击行为、路由跳转、接口报错、代码报错、页面性能并上报服务端的SDK 项目地址: https://gitcode.com/gh_mirrors/mo/monitor 在当今We…...

Dify工作流智能生成器:用自然语言快速构建AI应用

1. 项目概述:一个为Dify AI工作流“编程”的智能生成器如果你正在使用Dify构建AI应用,并且对反复拖拽节点、配置连线、调试参数感到一丝疲惫,那么Tomatio13/DifyWorkFlowGenerator这个项目可能会让你眼前一亮。它本质上是一个“用自然语言描述…...

CANN/GE图引擎Profiling初始化接口

aclgrphProfInit 【免费下载链接】ge GE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlo…...

Arm CoreSight调试架构与SW-DP协议详解

1. Arm CoreSight调试架构概述在嵌入式系统开发中,调试访问端口(Debug Access Port, DAP)是连接芯片内部调试资源与外部调试器的关键桥梁。作为Arm CoreSight调试技术栈的核心组件,DAP采用分层设计理念,将调试功能划分为两个逻辑层次&#xf…...

CANN/asc-devkit Query API文档

Query 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。 项目地址: https://gitcode.com/cann…...