当前位置: 首页 > article >正文

CANN矩阵乘实现样例

Matmul【免费下载链接】cann-samples算子领域高性能实战演进样例与体系化调优知识库项目地址: https://gitcode.com/cann/cann-samples描述本样例展示了如何在昇腾AI处理器的CubeCore硬件单元上使用AscendC编程语言实现矩阵乘运算。下面是矩阵乘在NPU上的执行的示意图。关键特性流水并行具备DoubleBuffer能力开启流水并行参数可配支持自定义矩阵维度进行测试精度对比提供标准的CPU实现作为精度基准支持架构NPU ARCH 3510ASC APIASC API文档参数说明m: 矩阵乘中左矩阵的行k: 矩阵乘中左矩阵的列/右矩阵的行n: 矩阵乘中右矩阵的列算子Kernel支持Dtype模板参数目前支持FLOAT16/BFLOAT16/FLOAT32编译运行编译样例从项目根目录启动构建参考项目README.md在仓库根目录下完成编译和安装后进入当前样例目录cmake -S . -B build -DNPU_ARCHdav-3510 cmake --build build --parallel cmake --install build --prefix ./build_out cd ./build_out/0_Introduction/matmul如需单独编译当前样例可使用以下指令cmake --build build --target matmul cp ./Samples/0_Introduction/matmul/scripts/profile_matmul.py ./build/Samples/0_Introduction/matmul/ cd ./build/Samples/0_Introduction/matmul运行样例使用可执行文件直接执行算子用例需要指定矩阵乘维度并随机生成输入数据。./matmul 1024 2048 4096打印如下执行结果证明样例执行成功。matmul run successfully!如果存在精度问题则会打印错误数据并显示如下结果。matmul run failed!测试性能 运行性能测试脚本指定矩阵乘法的维度后执行。python3 profile_matmul.py 1024 2048 4096打印如下执行结果证明样例性能测试成功。[Profile Breakdowm] --------------------------------------------------------------------------------------------- | candidate | kernel(us) | mac(us) | scalar(us) | mte1(us) | mte2(us) | fixpipe(us) | icache_miss(%) | | matmul | 86.870 | 43.804 | 1.850 | 12.997 | 51.857 | 2.970 | 2.200 | ---------------------------------------------------------------------------------------------【免费下载链接】cann-samples算子领域高性能实战演进样例与体系化调优知识库项目地址: https://gitcode.com/cann/cann-samples创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN矩阵乘实现样例

Matmul 【免费下载链接】cann-samples 算子领域高性能实战演进样例与体系化调优知识库 项目地址: https://gitcode.com/cann/cann-samples 描述 本样例展示了如何在昇腾AI处理器的CubeCore硬件单元上使用AscendC编程语言实现矩阵乘运算。下面是矩阵乘在NPU上的执行的示…...

CANN/hixl昇腾通信库

【免费下载链接】hixl HIXL(Huawei Xfer Library)是一个灵活、高效的昇腾单边通信库,面向集群场景提供简单、可靠、高效的点对点数据传输能力。 项目地址: https://gitcode.com/cann/hixl HIXL 面向集群场景提供简单、可靠、高效的点对…...

CANN/ops-tensor API 实现状态

ops-tensor API 实现状态 【免费下载链接】ops-tensor ops-tensor 是 CANN (Compute Architecture for Neural Networks)算子库中提供张量类计算的基础算子库,采用模块化设计,支持灵活的算子开发和管理。 项目地址: https://git…...

Supabase database-build:声明式PostgreSQL架构管理的工程实践

1. 项目概述:一个数据库构建的“乐高工厂”如果你在Supabase社区里混过一段时间,大概率会听说过或者用过supabase-community/database-build这个仓库。乍一看名字,它可能被误解为某个数据库的构建脚本或者一个独立的工具。但当你真正深入进去…...

Figma文件语义化重构:提升AI协作与前端开发效率

1. 项目概述:为Figma文件注入“语义灵魂”如果你是一名前端开发者,或者经常需要与设计师协作,你一定遇到过这样的场景:设计师丢过来一个Figma文件,你满怀期待地打开,准备从中提取设计规范、组件结构&#x…...

AI智能体如何通过MCP协议直接操作浏览器?DrissionPage-MCP-Server实践指南

1. 项目概述:当浏览器自动化遇上AI智能体 最近在折腾AI智能体(Agent)和自动化工具链的整合,发现一个挺有意思的痛点:很多AI助手,比如Claude、Cursor的AI编程伙伴,它们能理解你的指令&#xff0…...

多智能体系统核心架构解析:从AutoGen到Shogun的“将军”模型实践

1. 项目概述:当“将军”指挥多个AI智能体最近在开源社区里,一个名为yohey-w/multi-agent-shogun的项目引起了我的注意。光看名字,“multi-agent”和“shogun”(将军)这两个词就足够让人浮想联翩。这显然不是一个简单的…...

GPU能耗建模技术:从指令级优化到跨架构统一

1. GPU能耗建模的技术演进与核心挑战 在现代高性能计算(HPC)和机器学习领域,GPU已成为算力核心,但随之而来的能耗问题日益突出。以美国能源部的Frontier超级计算机为例,其搭载的64000块GPU在满负荷运行时功耗可达30兆瓦…...

如何为 Linux 之父,打造一台让他满意的最强主机?

今天在B站刷到了一个堪称 “世纪同框” 的视频,我关注的 LTT 频道,请来了 Linux 和 Git 之父——Linus Torvalds 本尊! 这绝对是每个技术宅的梦想时刻:当科技圈最能“整活”的 Linus,遇上最硬核的 Linus,他…...

智慧工地工作人员建筑工人工作状态检测数据集VOC+YOLO格式7375张3类别

注意数据集中有部分增强,大约5000张是原图剩余为旋转增强图片数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数):7375标注数量(xml文…...

基于MCP协议构建AI邮件助手:lettr-mcp架构设计与实现详解

1. 项目概述:一个连接AI与外部世界的“翻译官”最近在折腾AI应用开发的朋友,估计都绕不开一个词:MCP(Model Context Protocol)。简单来说,它就像给大语言模型(比如ChatGPT、Claude)装…...

开源情绪感知交互空间:从传感器到氛围生成的软硬件实现

1. 项目概述:一个开源的情绪感知与交互空间最近在GitHub上看到一个挺有意思的项目,叫“open-vibe-island”。光看名字,你可能会有点摸不着头脑,这“开放氛围岛”到底是个啥?简单来说,这是一个开源的情绪感知…...

Resonix-AG:实时音频动态处理库的架构、算法与工程实践

1. 项目概述:一个音频处理领域的“瑞士军刀”最近在音频处理社区里,一个名为Resonix-AG的项目引起了我的注意。这个由mangiapanejohn-dev维护的仓库,名字听起来就很有技术感——“Resonix”很容易让人联想到“共振”(Resonance&am…...

艾尔登法环帧率解锁与视觉增强终极指南

艾尔登法环帧率解锁与视觉增强终极指南 【免费下载链接】EldenRingFpsUnlockAndMore A small utility to remove frame rate limit, change FOV, add widescreen support and more for Elden Ring 项目地址: https://gitcode.com/gh_mirrors/el/EldenRingFpsUnlockAndMore …...

用Rust构建跨平台光标主题引擎:提升终端开发体验的个性化利器

1. 项目概述:一个为开发者打造的轻量级光标主题引擎在终端和代码编辑器的世界里,我们每天有数小时与闪烁的光标为伴。这个看似不起眼的小竖线或方块,却是我们与机器交互最直接的视觉焦点。然而,大多数开发者默认使用的都是系统或编…...

writ工具:提升AI编程指令质量与智能体协作的工程实践

1. 项目概述:为AI编码智能体构建质量与沟通层如果你和我一样,每天都在和Cursor、Claude Code这类AI编码助手打交道,那你肯定遇到过这样的场景:你精心写了一大段指令,告诉AI“重构这个函数,让它更高效”&…...

多智能体开发环境配置管理:模块化、隔离化与一键化实践

1. 项目概述:一个为多智能体协作环境量身定制的配置管理方案如果你和我一样,日常开发工作流中已经离不开各类AI助手,从代码补全、文档生成到复杂任务的自动化分解,那么你很可能已经体验过同时与多个AI智能体“协同作战”的场景。无…...

期刊名称智能缩写工具Journal Abbrev:解放科研文献管理自动化

1. 项目概述与核心价值 如果你是一名科研工作者、学术编辑,或者经常需要处理参考文献,那么“期刊名称缩写”这件事,绝对是你学术生涯中一个不大不小、但又极其磨人的痛点。想象一下,你正在撰写一篇论文,需要引用几十篇…...

实测 Taotoken 在不同时段的 API 响应延迟与稳定性观感

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 实测 Taotoken 在不同时段的 API 响应延迟与稳定性观感 在将大模型能力集成到应用中的过程中,API 的响应延迟与稳定性是…...

统一通信协作平台UCCL:架构解析与自托管部署实践

1. 项目概述:一个面向未来的统一通信与协作平台最近几年,远程办公和混合工作模式已经成为常态,随之而来的是团队协作工具的“爆炸式增长”。我们每天可能要在五六个不同的应用之间切换:用A软件开会,用B软件传文件&…...

2026届毕业生推荐的十大AI论文助手推荐榜单

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 人工智能写作工具是依据深度学习算法构建而成的,其具备飞快生成出结构完整且语言…...

2026届学术党必备的五大降AI率神器解析与推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek DeepSeek系列论文展现出大规模语言模型的技术突破,其创新架构运用混合专家模型跟…...

2026届最火的五大降AI率神器实测分析

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 倘若人工智能技术得以广泛普及,那么便会有越来越多的毕业生尝试借助AI工具来辅助…...

2025最权威的五大AI辅助论文工具解析与推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 存在着一种基于人工智能技术的自动化写作工具,你知道是什么吗,它就是…...

PyTorch 混合精度训练:FP16 与 BF16 性能对比

PyTorch 混合精度训练:FP16 与 BF16 性能对比 1. 技术分析 1.1 浮点精度对比 精度位数范围精度内存占用FP32321.2e-38 ~ 3.4e387位有效数字4字节FP16166.1e-5 ~ 6.5e43位有效数字2字节BF16161.1e-38 ~ 3.4e383位有效数字2字节 1.2 混合精度训练原理 混合精度训练流程…...

AI意识评估:从理论到工程实践的科学探索

1. 项目概述:当AI开始“思考”,我们如何评估?“AI意识评估”这个标题,听起来像科幻小说里的概念,但事实上,它正迅速从一个哲学思辨议题,演变为一个迫在眉睫的工程与伦理挑战。作为一名长期关注前…...

医疗生成式AI的伦理挑战与GREAT PLEA治理框架实践指南

1. 项目概述:当AI开始“思考”医疗最近几年,生成式AI在医疗领域的应用,已经从实验室的“概念验证”阶段,快速渗透到临床辅助诊断、药物研发、患者教育乃至医院运营管理的方方面面。作为一名长期关注医疗科技交叉领域的从业者&…...

从信托义务到AI对齐:构建可信人工智能的技术与治理框架

1. 项目概述:当法律遇上代码最近和几位做AI产品落地的朋友聊天,大家不约而同地提到了同一个词:“对齐”。但聊着聊着,话题就从技术上的“奖励模型”和“人类反馈强化学习”,滑向了更让人头疼的领域——合规、责任和信任…...

基于Claude API的智能代码生成工具设计与实现

1. 项目概述:一个被“设计失败”命名的代码生成工具在开发者社区里,项目名称往往承载着创始人的某种情绪或愿景。当你第一次看到designfailure/claudecode这个仓库名时,可能会感到一丝困惑甚至好奇。designfailure(设计失败&#…...

自主智能体架构解析:从ReAct框架到实战应用开发指南

1. 项目概述与核心价值最近在GitHub上看到一个名为“Autonomous-Agents”的项目,作者是tmgthb。这个标题本身就充满了吸引力,它指向了当前人工智能领域一个极其热门且富有想象力的方向——自主智能体。简单来说,这个项目探讨和实现的&#xf…...