当前位置: 首页 > article >正文

CANN Ascend C矩阵乘法特殊配置

GetSpecialMDLConfig【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品 / Atlas A3 推理系列产品√Atlas A2 训练系列产品 / Atlas A2 推理系列产品√Atlas 200I/500 A2 推理产品xAtlas 推理系列产品 AI CorexAtlas 推理系列产品 Vector CorexAtlas 训练系列产品xKirin X90√Kirin 9030x功能说明用于配置SpecialMDL模板的参数获取自定义SpecialMDL模板。SpecialMDL模板的介绍请参考表 模板特性。函数原型__aicore__ constexpr MatmulConfig GetSpecialMDLConfig(const bool intrinsicsLimit false, const bool batchLoop false, const uint32_t doMTE2Preload 0, const bool isVecND2NZ false, bool isPerTensor false, bool hasAntiQuantOffset false)参数说明本接口的所有参数用于设置MatmulConfig结构体中的参数其中互相对应的参数的功能作用相同。表 1接口参数说明参数名输入/输出描述intrinsicsLimit输入用于设置参数intrinsicsCheck。当左矩阵或右矩阵在单核上内轴即尾轴大于等于65535元素个数时是否使能循环执行数据从Global Memory到L1 Buffer的搬入。例如左矩阵A[M, K]单核上的内轴数据singleCoreK大于65535配置该参数为true后API内部通过循环执行数据的搬入。参数取值如下false当左矩阵或右矩阵在单核上内轴大于等于65535时不使能循环执行数据的搬入默认值。true当左矩阵或右矩阵在单核上内轴大于等于65535时使能循环执行数据的搬入。对于Ascend 950PR/Ascend 950DTMxMatmul场景不支持此参数。batchLoop输入用于设置参数isNBatch。是否多Batch输入多Batch输出。仅对BatchMatmul有效使能该参数后仅支持Norm模板且需调用IterateNBatch实现多Batch输入多Batch输出。参数取值如下false不使能多Batch默认值。true使能多Batch。doMTE2Preload输入用于设置参数doMTE2Preload。在MTE2流水间隙较大且M/N数值较大时可通过该参数开启对应M/N方向的预加载功能开启后能减小MTE2间隙提升性能。预加载功能仅在MDL模板有效不支持SpecialMDL模板。参数取值如下0不开启默认值。1开启M方向preload。2开启N方向preload。注意开启M/N方向的预加载功能时需保证K全载且M/N方向开启DoubleBuffer其中M方向的K全载条件为singleCoreK/baseK stepKaN方向的K全载条件为singleCoreK/baseK stepKb。isVecND2NZ输入预留参数保持默认值false即可。isPerTensor输入用于设置参数isPerTensor。A矩阵half类型输入且B矩阵int8_t类型输入场景使能B矩阵量化时是否为per tensor。trueper tensor量化。falseper channel量化。对于Ascend 950PR/Ascend 950DTMxMatmul场景不支持此参数。hasAntiQuantOffset输入用于设置参数hasAntiQuantOffset。A矩阵half类型输入且B矩阵int8_t类型输入场景使能B矩阵量化时是否使用offset系数。对于Ascend 950PR/Ascend 950DTMxMatmul场景不支持此参数。返回值说明MatmulConfig结构体。约束说明无调用示例// 配置SpecialMDL模板的参数获取自定义SpecialMDL模板 constexpr MatmulConfig MM_CFG GetSpecialMDLConfig( /* intrinsicsLimit */ false, /* batchLoop */ false, /* doMTE2Preload */ 0, /* isVecND2NZ */ false, /* isPerTensor */ false, /* hasAntiQuantOffset */ false ); // 常规Matmul计算最后输出使用自定义SpecialMDL模板的计算结果 AscendC::MatmulA_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG mm; REGIST_MATMUL_OBJ(pipe, GetSysWorkSpacePtr(), mm, tiling); mm.SetTensorA(gm_a); mm.SetTensorB(gm_b); if (tiling.isBias) { mm.SetBias(gmBias); } mm.IterateAll(gm_c); mm.End();【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN Ascend C矩阵乘法特殊配置

GetSpecialMDLConfig 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。 项目地址: https://gi…...

5大技术突破:Unity Figma Bridge如何革命性改变游戏UI开发流程

5大技术突破:Unity Figma Bridge如何革命性改变游戏UI开发流程 【免费下载链接】UnityFigmaBridge Easily bring your Figma Documents, Components, Assets and Prototypes to Unity 项目地址: https://gitcode.com/gh_mirrors/un/UnityFigmaBridge Unity F…...

解密ASCII图表魔法:ditaa将文本艺术转化为专业图表的技术揭秘

解密ASCII图表魔法:ditaa将文本艺术转化为专业图表的技术揭秘 【免费下载链接】ditaa ditaa is a small command-line utility that can convert diagrams drawn using ascii art (drawings that contain characters that resemble lines like | / - ), into proper…...

Input Leap终极指南:3步实现跨设备键盘鼠标无缝共享

Input Leap终极指南:3步实现跨设备键盘鼠标无缝共享 【免费下载链接】input-leap Open-source KVM software 项目地址: https://gitcode.com/gh_mirrors/in/input-leap 你是否厌倦了在多台电脑之间频繁切换键盘和鼠标?Input Leap跨设备控制功能正…...

3步掌握Vidupe:基于内容识别的智能视频去重终极指南

3步掌握Vidupe:基于内容识别的智能视频去重终极指南 【免费下载链接】vidupe Vidupe is a program that can find duplicate and similar video files. V1.211 released on 2019-09-18, Windows exe here: 项目地址: https://gitcode.com/gh_mirrors/vi/vidupe …...

3步快速部署海风小店微信小程序商城 - 开源免费商用实战指南

3步快速部署海风小店微信小程序商城 - 开源免费商用实战指南 【免费下载链接】hioshop-miniprogram 微信小程序商城,开源免费商用,海风小店 项目地址: https://gitcode.com/gh_mirrors/hi/hioshop-miniprogram 海风小店是一款基于Node.jsThinkJSM…...

Midjourney年度订阅最后上车机会:官方邮件暗藏“早鸟密钥”,输入即解锁终身$129→$79(已验证有效期至2024-12-15)

更多请点击: https://kaifayun.com 第一章:Midjourney年度订阅优惠的官方政策与背景解析 Midjourney自2023年起正式将年度订阅(Annual Plan)纳入其核心付费体系,旨在为长期用户降低平均月成本并强化服务稳定性。该政策…...

3个关键决策:为什么顶级技术团队选择Arco Design Pro构建企业级应用

3个关键决策:为什么顶级技术团队选择Arco Design Pro构建企业级应用 【免费下载链接】arco-design-pro An out-of-the-box solution to quickly build enterprise-level applications based on Arco Design. 项目地址: https://gitcode.com/gh_mirrors/ar/arco-de…...

React Google Maps自定义地图控件开发:扩展原生控件的完整指南

React Google Maps自定义地图控件开发:扩展原生控件的完整指南 【免费下载链接】react-google-maps React components and hooks for the Google Maps JavaScript API 项目地址: https://gitcode.com/gh_mirrors/rea/react-google-maps 你是否想让你的Google…...

凡亿AD22--PCB全连接与十字花焊盘连接铺铜规则

核心重点:铺铜与焊盘/过孔的连接方式,核心分为「全连接」「十字连接」「不连接」三种,实际设计中仅常用前两种;连接方式的选择,核心取决于「焊接方式」「载流需求」,过孔连接需默认采用全连接,避…...

语音钓鱼中转窝点运作机理与全链条防控研究 —— 基于韩国仁川警方案例

摘要 2026 年 5 月 19 日韩国仁川西部警方通报,破获一起以高薪兼职为诱饵招募人员、在住宿场所运营语音钓鱼中转窝点的案件,抓获两名管理人员,查获一次性手机 105 部、冒用他人身份 SIM 卡 356 张、无线路由器 4 台,涉案人员通过远…...

MATLAB文件选择对话框uigetfile()保姆级教程:从单文件到多选的完整配置流程

MATLAB文件选择对话框uigetfile()实战指南:从基础配置到高级技巧 在MATLAB日常开发中,文件选择对话框是用户交互的重要组成部分。uigetfile()函数作为MATLAB内置的文件选择工具,其灵活性和可定制性往往被初学者低估。本文将带您深入探索这个看…...

Sora 2时间轴与Blender NLA编辑器深度对齐指南(2024.06.12 Blender官方补丁前最后兼容方案)

更多请点击: https://intelliparadigm.com 第一章:Sora 2与Blender整合的底层架构演进 Sora 2并非独立运行的视频生成引擎,而是以模块化推理服务(Modular Inference Service, MIS)为核心构建的分布式计算框架。其与Bl…...

FreeRTOS互斥锁的‘坑’与‘宝’:优先级翻转那些事儿,用ESP32实测给你看

FreeRTOS互斥锁的‘坑’与‘宝’:优先级翻转那些事儿,用ESP32实测给你看 在嵌入式实时系统中,任务调度和资源管理是核心挑战。当你开始设计多任务系统时,很快会遇到一个经典问题:多个任务需要访问共享资源(…...

Bifrost:跨平台三星固件下载神器,解锁设备管理的全新境界

Bifrost:跨平台三星固件下载神器,解锁设备管理的全新境界 【免费下载链接】Bifrost Cross-platform tool for downloading Samsung mobile device firmware. 项目地址: https://gitcode.com/gh_mirrors/sa/Bifrost 你是否曾为寻找三星官方固件而烦…...

Android Studio中文界面终极解决方案:告别官方插件的兼容性烦恼

Android Studio中文界面终极解决方案:告别官方插件的兼容性烦恼 【免费下载链接】AndroidStudioChineseLanguagePack AndroidStudio中文插件(官方修改版本) 项目地址: https://gitcode.com/gh_mirrors/an/AndroidStudioChineseLanguagePack 还在为…...

用Python实现迷宫寻路:从BFS到‘灌水算法’的保姆级代码解析

Python迷宫寻路算法实战:从BFS到动态赋值的完整实现指南 迷宫寻路问题是计算机科学中经典的算法应用场景,也是游戏开发、机器人导航等领域的核心技术之一。本文将带领你从最基础的广度优先搜索(BFS)算法开始,逐步深入到…...

CANN/asc-devkit核间同步API文档

CrossCoreWaitFlag(ISASI) 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。 项目地址: https…...

2026 在线水印去除工具怎么选?6款实用方法对比测评

在短视频时代,去水印需求越来越普遍。无论是想要收藏喜欢的视频素材、整理图片库存,还是创作内容时需要的参考素材,高效的在线水印去除方法已经成为必需品。本文盘点了6款在线水印去除工具和方法,从处理速度、平台覆盖、易用性等维…...

高性能自动化网页信息提取工具实战指南:大规模目标扫描与安全检测技术方案

高性能自动化网页信息提取工具实战指南:大规模目标扫描与安全检测技术方案 【免费下载链接】URLFinder 一款快速、全面、易用的页面信息提取工具,可快速发现和提取页面中的JS、URL和敏感信息。 项目地址: https://gitcode.com/gh_mirrors/ur/URLFinder…...

2026年管棒材检测系统十强厂商最新深度评测

进入2026年下半年,全球管棒材检测系统行业正式迈入高质量发展攻坚期,行业发展主线聚焦于AI多模态融合与全流程数字化转型,技术迭代呈现“多技术协同、全场景适配”的核心特征。其中,相控阵超声(PAUT)、全聚…...

3分钟掌握OBS智能跟拍:告别手动调焦的直播神器

3分钟掌握OBS智能跟拍:告别手动调焦的直播神器 【免费下载链接】obs-face-tracker Face tracking plugin for OBS Studio 项目地址: https://gitcode.com/gh_mirrors/ob/obs-face-tracker 您是否曾因直播时频繁调整镜头位置而分心?是否希望有一个…...

Codex SQL迁移终极指南:数据库架构变更的自动化革命

Codex SQL迁移终极指南:数据库架构变更的自动化革命 在当今快速迭代的软件开发环境中,数据库架构变更是每个开发团队都必须面对的挑战。传统的手动SQL迁移过程不仅耗时耗力,还容易出错。Codex作为一款革命性的聊天驱动开发工具,通…...

深度解析LevelUI:现代LevelDB可视化管理的完整实战指南

深度解析LevelUI:现代LevelDB可视化管理的完整实战指南 【免费下载链接】levelui A GUI for LevelDB management based on atom-shell. 项目地址: https://gitcode.com/gh_mirrors/le/levelui 在NoSQL数据库生态中,LevelDB以其出色的性能和简洁的…...

GPT-4高考全真模拟测试:能力边界、技术原理与教育启示

1. 项目缘起与核心目标最近,我身边不少朋友,尤其是家里有考生的,都在讨论一个话题:现在这些大语言模型,比如GPT-4,到底有多“聪明”?它能不能像人一样思考,甚至去参加我们的高考&…...

Windows 和 Ubuntu 安装 Hermes Agent 全攻略

文章目录【开场白】【先说重点:Hermes 和 OpenClaw 装机区别】【Windows 安装:5 步搞定】第 1 步:装 WSL2第 2 步:更新 Ubuntu 系统第 3 步:一键装 Hermes第 4 步:让环境变量生效第 5 步:初始化…...

Windows 和 Ubuntu 安装 OpenClaw 全攻略

文章目录【开场白】【先说结论:Windows 用户推荐走 WSL2】【Windows 安装:4 步搞定】第 1 步:装 WSL2第 2 步:更新系统第 3 步:一键装 OpenClaw第 4 步:初始化配置【WSL2 必做配置:让 OpenClaw …...

OpenClaw 架构详解:AI Agent 的编排与执行骨架

核心定位:OpenClaw 自动化运行时(Automation Runtime),一个给 AI 套上安全、可控、可审计缰绳的框架。 它不追求 AI 的"惊喜",而是追求可预测性、可审计性和零故障。 文章目录一、设计哲学:网关…...

Pandas数据筛选8大核心技巧:从布尔索引到query高效查询

1. 项目概述:为什么我们需要掌握Pandas数据筛选?如果你用Python做数据分析,那么Pandas库绝对是你的核心武器库。而在这个武器库里,数据筛选——也就是从庞大的数据集中精准地挑出你需要的那些行和列——是每天都要重复无数遍的操作…...

独立开发者如何借助Taotoken的Token Plan降低AI应用长期运行成本

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 独立开发者如何借助Taotoken的Token Plan降低AI应用长期运行成本 对于独立开发者和小型团队而言,构建AI应用时&#xf…...