当前位置: 首页 > article >正文

CANN/pypto量化矩阵乘法

pypto.scaled_mm【免费下载链接】pyptoPyPTO发音: pai p-t-oParallel Tensor/Tile Operation编程范式。项目地址: https://gitcode.com/cann/pypto产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√功能说明实现mat_a 、mat_b矩阵的mx量化矩阵乘运算计算公式为out (mat_a * scale_a) (mat_b * scale_b)mat_a 、mat_b 、scale_a 、scale_b为源操作数mat_a 为左矩阵mat_b为右矩阵scale_a为左矩阵量化参数scale_b为右矩阵量化参数out 为目的操作数存放矩阵乘结果的矩阵函数原型scaled_mm(mat_a, mat_b, out_dtype, scale_a, scale_b, *, a_trans False, b_trans False, scale_a_trans False, scale_b_trans False, c_matrix_nz False, extend_paramsNone) - Tensor参数说明参数名输入/输出说明mat_a输入表示输入左矩阵。不支持输入空Tensor。支持的数据类型为DT_FP8E5M2, DT_FP8E4M3且左右矩阵数据类型需保持一致。支持的矩阵维度2维。输入矩阵支持的Format为TILEOP_ND, TILEOP_NZDT_FP8E5M2输入不支持TILEOP_NZ格式。内轴外轴当输入矩阵mat_a非转置时对应数据排布为[M, K]此时外轴为M内轴为K当输入矩阵mat_a转置时对应数据排布为[K, M]此时外轴为K内轴为M。当Format为TILEOP_NDND格式时外轴范围为[1, 2^31 - 1]内轴范围为[1, 65535]。当Format为TILEOP_NZNZ格式时其Shape维度需满足内轴32字节对齐外轴16元素对齐。在满足Format约束的基础上其Shape维度需满足K轴64元素对齐。在使用pypto.view接口的场景应保证传入View的Shape维度也满足内轴32字节对齐外轴16元素对齐。mat_b输入表示输入右矩阵。不支持输入空Tensor。支持的数据类型为DT_FP8E5M2, DT_FP8E4M3且左右矩阵数据类型需保持一致。支持的矩阵维度2维。输入矩阵支持的Format为TILEOP_ND, TILEOP_NZDT_FP8E5M2输入不支持TILEOP_NZ格式。内轴外轴当输入矩阵mat_b非转置时对应数据排布为[K, N]此时外轴为K内轴为N当输入矩阵mat_b转置时对应数据排布为[N, K]此时外轴为N内轴为K。当Format为TILEOP_NDND格式时外轴范围为[1, 2^31 - 1]内轴范围为[1, 65535]。当Format为TILEOP_NZNZ格式时其Shape维度需满足内轴32字节对齐外轴16元素对齐。在满足Format约束的基础上其Shape维度需满足K轴64元素对齐。在使用pypto.view接口的场景应保证传入View的Shape维度也满足内轴32字节对齐外轴16元素对齐。out_dtype输出表示输出矩阵数据类型支持DT_FP32DT_FP16DT_BF16。scale_a输入表示输入左矩阵量化参数。不支持输入空Tensor。支持的数据类型为DT_FP8E8M0。支持的量化参数维度3维。输入量化参数shape为当输入量化参数非转置时对应输入shape为[M, K/64, 2]当输入量化参数转置时对应输入shape为[K/64, M, 2]。其中M和K值等于输入矩阵mat_a的M、K值。输入量化参数支持的Format为TILEOP_ND。scale_b输入表示输入右矩阵量化参数。不支持输入空Tensor。支持的数据类型为DT_FP8E8M0。支持的量化参数维度3维。输入量化参数shape为当输入量化参数非转置时对应输入shape为[K/64, N, 2]当输入量化参数转置时对应输入shape为[N, K/64, 2]。其中M和K值等于输入矩阵mat_a的M、K值。输入量化参数支持的Format为TILEOP_ND。a_trans输入参数a_trans表示输入左矩阵是否转置默认为False。b_trans输入参数b_trans表示输入右矩阵是否转置默认为False。scale_a_trans输入参数scale_a_trans表示输入左矩阵量化参数是否转置默认为False。scale_b_trans输入参数scale_b_trans表示输入右矩阵量化参数是否转置默认为False。c_matrix_nz输入参数c_matrix_nz表示输出矩阵的Format是否采用NZ格式默认为False当前仅支持设置False即输出矩阵仅支持ND格式。extend_params输入支持bias及fixpipe的反量化功能数据类型为字典格式。默认为None当前仅支持bias场景。详见表2表2extend_params参数说明参数名说明bias_tensor表示偏置矩阵。输入为Tensor类型。Bias矩阵数据类型可选DT_FP16、DT_BF16和DT_FP32。bias_tensor只支持ND格式。bias_tensor的第一维度应置1且N维度需要与mat_b矩阵的N维度相等。仅支持矩阵维度为2维场景。不支持叠加多核切K功能。返回值说明返回值为out 矩阵Tensor。约束说明调用scaled_mm接口前需要通过pypto.set_cube_tile_shapes设置M、N、K轴上的切分大小。调用scaled_mm接口的输入为调用pypto.reshape后的NZ格式时需要调用pypto.set_matrix_size接口设置pypto.reshape前的输入到matmul的原始Shape的m,k,n值。调用示例mat_a pypto.tensor([64, 128], pypto.DT_FP8E5M2, mat_a) mat_b pypto.tensor([128, 32], pypto.DT_FP8E5M2, mat_b) scale_a pypto.tensor([64, 2, 2], pypto.DT_FP8E8M0, scale_a) scale_b pypto.tensor([2, 32, 2], pypto.DT_FP8E8M0, scale_b) out1 pypto.scaled_mm(mat_a, mat_b, pypto.DT_BF16, scale_a, scale_b) mat_a pypto.tensor([128, 64], pypto.DT_FP8E5M2, mat_a) mat_b pypto.tensor([32, 128], pypto.DT_FP8E5M2, mat_b) scale_a pypto.tensor([2, 64, 2], pypto.DT_FP8E8M0, scale_a) scale_b pypto.tensor([32, 2, 2], pypto.DT_FP8E8M0, scale_b) bias pypto.tensor((1, 32), pypto.DT_FP16, tensor_bias) extend_params {bias_tensor: bias} out1 pypto.scaled_mm(mat_a, mat_b, pypto.DT_BF16, scale_a, scale_b, scale_a_transTrue, scale_b_transTrue, extend_paramsextend_params)【免费下载链接】pyptoPyPTO发音: pai p-t-oParallel Tensor/Tile Operation编程范式。项目地址: https://gitcode.com/cann/pypto创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN/pypto量化矩阵乘法

pypto.scaled_mm 【免费下载链接】pypto PyPTO(发音: pai p-t-o):Parallel Tensor/Tile Operation编程范式。 项目地址: https://gitcode.com/cann/pypto 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√ 功能说明 实现mat_…...

CANN/cannbot-skills Skill测试框架

Skill 测试框架 【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills 基于变更文件识别受影响的 skills,执行对应…...

Jooby数据库集成实战:Hikari、JDBI、Ebean最佳实践

Jooby数据库集成实战:Hikari、JDBI、Ebean最佳实践 【免费下载链接】jooby The modular web framework for Java and Kotlin 项目地址: https://gitcode.com/gh_mirrors/jo/jooby Jooby是一个模块化的Java和Kotlin Web框架,提供了简洁高效的数据库…...

蘑菇博客性能优化技巧:10个提升博客访问速度的方法 [特殊字符]

蘑菇博客性能优化技巧:10个提升博客访问速度的方法 🚀 【免费下载链接】mogu_blog_v2 蘑菇博客(MoguBlog),一个基于微服务架构的前后端分离博客系统。Web端使用Vue Element , 移动端使用uniapp和ColorUI。后端使用Spring cloud Spring boot…...

Sub-Zero字幕格式转换:从SRT到VTT的完整处理流程

Sub-Zero字幕格式转换:从SRT到VTT的完整处理流程 【免费下载链接】Sub-Zero.bundle Subtitles for Plex, as good you would expect them to be. 项目地址: https://gitcode.com/gh_mirrors/su/Sub-Zero.bundle Sub-Zero是一款为Plex媒体服务器提供高质量字幕…...

为什么选择Marginalia:与Rails 7内置QueryLogs的对比分析

为什么选择Marginalia:与Rails 7内置QueryLogs的对比分析 【免费下载链接】marginalia Attach comments to ActiveRecords SQL queries 项目地址: https://gitcode.com/gh_mirrors/ma/marginalia Marginalia是一款强大的Ruby gem工具,能够为Activ…...

Wedding-website图片库与相册功能:展示精美婚礼照片的最佳实践

Wedding-website图片库与相册功能:展示精美婚礼照片的最佳实践 【免费下载链接】wedding-website Our Wedding Website 👫 项目地址: https://gitcode.com/gh_mirrors/we/wedding-website 婚礼是人生中最珍贵的时刻之一,而如何将这些美…...

OptScale 安全最佳实践:10个关键步骤保护你的云成本数据和配置

OptScale 安全最佳实践:10个关键步骤保护你的云成本数据和配置 【免费下载链接】optscale FinOps and cloud cost optimization tool. Supports AWS, Azure, GCP, Alibaba Cloud and Kubernetes. 项目地址: https://gitcode.com/gh_mirrors/op/optscale OptS…...

文字修仙项目市场价值与商业化分析

文字修仙 AI Agent:市场价值与个人开发者商业化实战指南 一、文字修仙游戏的市场基本面——小众赛道的大机会 1.1 全球文字/互动叙事游戏市场规模与增长 1.2 中文修仙品类的独特生态:QQ群 → 微信 → 抖音 1.3 用户画像:谁在玩文字修仙&…...

SpringBoot+Vue房屋买卖平台源码+论文

代码可以查看文章末尾⬇️联系方式获取,记得注明来意哦~🌹 分享万套开题报告任务书答辩PPT模板 作者完整代码目录供你选择: 《SpringBoot网站项目》1800套 《SSM网站项目》1500套 《小程序项目》1600套 《APP项目》1500套 《Python网站项目》…...

SpringBoot+Vue体育赛事志愿者管理系统源码+论文

代码可以查看文章末尾⬇️联系方式获取,记得注明来意哦~🌹 分享万套开题报告任务书答辩PPT模板 作者完整代码目录供你选择: 《SpringBoot网站项目》1800套 《SSM网站项目》1500套 《小程序项目》1600套 《APP项目》1500套 《Python网站项目》…...

TWMessageBarManager:iOS系统级通知栏的终极解决方案

TWMessageBarManager:iOS系统级通知栏的终极解决方案 【免费下载链接】TWMessageBarManager An iOS manager for presenting system-wide notifications via a dropdown message bar. 项目地址: https://gitcode.com/gh_mirrors/tw/TWMessageBarManager TWMe…...

Windows下C语言编译指南

学习C语言入门有一定难度,需勤加练习。多数人使用Windows系统,那么在Windows环境下如何编译运行C语言程序?掌握合适工具与方法是关键。1、 学习C语言时,我使用的是Visual C 6.0编译器。如今,Windows系统下还可使用功能…...

Amphenol ICC线束MSPEC6P2A5010应用与替代分析

随着工业通信、车载网络以及高速数据互联的发展,越来越多设备开始采用高性能线束组件来保证数据稳定传输。在工业自动化与智能设备领域,Amphenol ICC推出的MSPE系列近年来关注度持续提升,其中MSPEC6P2A5010就是比较典型的一款工业级线束组件。…...

5分钟搞定AI 3D建模!TripoSR:图片秒变专业3D模型的终极方案

5分钟搞定AI 3D建模!TripoSR:图片秒变专业3D模型的终极方案 【免费下载链接】TripoSR TripoSR: Fast 3D Object Reconstruction from a Single Image 项目地址: https://gitcode.com/GitHub_Trending/tr/TripoSR 还在为复杂的3D建模软件头疼吗&am…...

2025-2026年护眼灯品牌推荐:十大排行产品专业评测熬夜加班防眼干疲劳性价比高注意事项

摘要 当家庭与办公场景对光环境的要求从“照亮”升级为“护眼”,决策者面临的核心挑战已转变为如何在纷繁的技术参数与品牌承诺中,识别出真正能长期守护视觉健康、并适配多元场景的专业解决方案。根据全球市场研究机构Grand View Research的报告&#xf…...

终极GTA5安全增强菜单:YimMenu完整使用指南

终极GTA5安全增强菜单:YimMenu完整使用指南 【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trending/yi/YimMenu Y…...

如何用智能弹幕助手告别直播中的重复劳动?B站直播效率提升300%的秘密

如何用智能弹幕助手告别直播中的重复劳动?B站直播效率提升300%的秘密 【免费下载链接】MagicalDanmaku 本仓库及所有相关项目已永久停止开发、维护和任何形式的分发。 项目地址: https://gitcode.com/gh_mirrors/bi/MagicalDanmaku 还在为直播时手忙脚乱而烦…...

如何用GeoPort轻松实现iOS虚拟定位?2025年完整使用指南

如何用GeoPort轻松实现iOS虚拟定位?2025年完整使用指南 【免费下载链接】GeoPort GeoPort: Your Location, Anywhere! The iOS location simulator 项目地址: https://gitcode.com/gh_mirrors/ge/GeoPort GeoPort是一款强大的iOS虚拟定位工具,让你…...

围棋AI训练新境界:5步掌握KaTrain智能陪练核心技巧

围棋AI训练新境界:5步掌握KaTrain智能陪练核心技巧 【免费下载链接】katrain Improve your Baduk skills by training with KataGo! 项目地址: https://gitcode.com/gh_mirrors/ka/katrain 想要在围棋对弈中快速提升水平?KaTrain作为一款基于Kata…...

Inno Setup 简体中文语言包:3分钟让Windows安装程序说中文![特殊字符]

Inno Setup 简体中文语言包:3分钟让Windows安装程序说中文!🚀 【免费下载链接】Inno-Setup-Chinese-Simplified-Translation :earth_asia: Inno Setup Chinese Simplified Translation 项目地址: https://gitcode.com/gh_mirrors/in/Inno-S…...

Real-ESRGAN图像增强:3步掌握AI超分辨率魔法

Real-ESRGAN图像增强:3步掌握AI超分辨率魔法 【免费下载链接】Real-ESRGAN Real-ESRGAN aims at developing Practical Algorithms for General Image/Video Restoration. 项目地址: https://gitcode.com/gh_mirrors/re/Real-ESRGAN 你是否曾为模糊的老照片、…...

终极指南:5分钟掌握JarEditor,无需解压直接编辑JAR文件

终极指南:5分钟掌握JarEditor,无需解压直接编辑JAR文件 【免费下载链接】JarEditor IDEA plugin for directly editing and modifying files in jar without decompression. (一款无需解压直接编辑修改jar包内文件的IDEA插件) 项…...

Material File Picker深度解析:从设计理念到Android文件选择器的系统构建

Material File Picker深度解析:从设计理念到Android文件选择器的系统构建 【免费下载链接】MaterialFilePicker Picking files since 2015 项目地址: https://gitcode.com/gh_mirrors/ma/MaterialFilePicker 如何在Android应用中构建一个既美观又实用的文件选…...

终极智慧树刷课插件指南:如何实现自动化高效学习

终极智慧树刷课插件指南:如何实现自动化高效学习 【免费下载链接】zhihuishu 智慧树刷课插件,自动播放下一集、1.5倍速度、无声 项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台枯燥的手动操作而烦恼吗?智慧…...

AI Agent落地元年:从对话交互到自主工作流的技术演进与落地实践

2026年被行业公认为AI Agent落地元年,生成式AI彻底告别单纯的参数内卷与对话式交互,进入自主决策、自动执行、闭环迭代的全新阶段。相较于传统大模型被动响应的工作模式,AI Agent凭借感知、规划、执行、复盘的完整闭环能力,成为企…...

智慧树自动刷课插件终极指南:三步实现高效网课自动化学习

智慧树自动刷课插件终极指南:三步实现高效网课自动化学习 【免费下载链接】zhihuishu 智慧树刷课插件,自动播放下一集、1.5倍速度、无声 项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台冗长的网课视频而烦恼吗&#xf…...

static-php-cli与Swoole集成:构建高性能微服务应用的最佳实践

static-php-cli与Swoole集成:构建高性能微服务应用的最佳实践 【免费下载链接】static-php-cli Build standalone portable PHP binaries on Linux, macOS, Windows, with PHP project together, with popular extensions included. 项目地址: https://gitcode.co…...

React动画革命:react-tween-state 完全指南 - 10分钟掌握React平滑过渡动画

React动画革命:react-tween-state 完全指南 - 10分钟掌握React平滑过渡动画 【免费下载链接】react-tween-state React animation. 项目地址: https://gitcode.com/gh_mirrors/re/react-tween-state react-tween-state 是一款轻量级的 React 动画库&#xff…...

对比直接使用厂商API体验Taotoken在多模型选型上的便利

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 对比直接使用厂商API体验Taotoken在多模型选型上的便利 在开发基于大语言模型的应用时,一个常见的需求是尝试不同的模型…...