当前位置: 首页 > article >正文

从零开始写Qwen3(五-其四)FlashAttention 差异汇编分析

从零开始写Qwen3目录概述经过前文的提速耗时已经从官方的214%降低到112%本文将从汇编角度猜测一下差距的原因概述使用上一节的输入参数设置为BMBN64和torch相同分析汇编指令torch的指令统计如下triton实现的指令统计如下HMMA 是 Half Matrix Multiply Accumulation的意思这是FlashAttn的核心指令使用张量核进行矩阵乘法加速对比两个统计发现不管是指令数量还是实际执行次数都是一样的差别可能在共享内存加载部分指令执行次数分析单条汇编执行次数常见有这么几种数字2048153602048是无循环的执行次数15360是执行循环的次数2048 2 ⏟ B × 16 ⏟ H × 1024 64 ⏟ Q × 4 ⏟ n w a r p s 2048 \underbrace{2}_{B} \times \underbrace{16}_{H}\times \underbrace{\frac{1024}{64}}_{Q}\times \underbrace{4}_{nwarps}2048B2​​×H16​​×Q641024​​​×nwarps4​​可以计算15360 2048 × 16 − 1 2 153602048\times \frac{16-1}{2}153602048×216−1​所以2048是阶段2和公共部分的执行次数15360是阶段2的执行次数阶段2平均循环了7.5次两个阶段指令数基本一致除了因果遮罩那里阶段1没有所以平均执行次数是8704 87048704张量核张量核是CUDA从Volta开始引入的一个指令专门用于矩阵加速它用一条指令让一个线程束一起完成一个小块矩阵乘法不仅简化了矩阵乘法的编写也加快计算速度减少指令发射耗时。张量核仅支持F16最新架构也支持FP8的不支持F32这可能是FlashAttention不支持F32的一个重要原因从PTX汇编来看张量核的关键指令是ldmatrix.sync.aligned.m8n8.x4.shared.b16{%r11,%r12,%r13,%r14},[%r802048];ldmatrix.sync.aligned.m8n8.x4.trans.shared.b16{%r15,%r16,%r21,%r22},[%r89];mma.sync.aligned.m16n8k16.row.col.f32.f16.f16.f32{%r7,%r8,%r9,%r10},{%r11,%r12,%r13,%r14},{%r15,%r16},{%r7,%r8,%r9,%r10};对应SASS的汇编就是LDSM.16.MT88.4 LDSM.16.M88.4 HMMA.16816.F32PTX是中间指令SASS是实际汇编PTX的可读性比SASS高多了并且有官方文档但它不是最终结果ncu也看不到torch的ptxldmatrix.sync.aligned.m8n8.x4.shared.b16从指令可以看出这是从共享内存读取数据的同步对齐读取m8,n8意思是一次读取8x8的数据b16表示加载的是16bit的数据.x4表示一次性读取4个寄存器也就是4 × 8 × 8 4\times 8\times 84×8×8个数据也有.x2这种指令这个指令是整个线程束协同完成的而且寄存器是32位一个32位存放两个f16这样一个线程束的一个寄存器就存放8 × 8 8\times 88×8条数据8 × 8 32 × 2 1 \frac{8\times 8}{32\times 2}132×28×8​1顺便一提f32转f16的汇编是F2FP.PACK_AB R114, R114, R113明明是单个值转换却有两个输入这其实就是把两个f16打包到一个f32上节省寄存器数量和指令数量ldmatrix.sync.aligned.m8n8.trans.x4.shared.b16就是转置版的应该是列优先实际上mma计算的时候A B ⊤ AB^\topAB⊤的时候反而不需要转置A B ABAB的时候才需要转置mma.sync.aligned.m16n8k16.row.col.f32.f16.f16.f32这里m16n8k16名字很明确是这样一个乘法D A B ⊤ C C , D ∈ R 16 × 8 ; A ∈ R 16 × 16 ; B ∈ R 8 × 16 D AB^\topC\quad C,D\in \mathbb{R}^{16\times 8};A\in \mathbb{R}^{16\times 16};B\in \mathbb{R}^{8\times 16}DAB⊤CC,D∈R16×8;A∈R16×16;B∈R8×16它有四个操作数分别对应D,A,B,CACD用4个寄存器B用两个C , D : 16 × 8 32 × 1 4 A : 16 × 16 32 × 4 4 B : 16 × 8 32 × 2 2 C,D: \frac{16\times 8}{32\times 1}4\\ A: \frac{16\times 16}{32 \times 4}4\\ B: \frac{16\times 8}{32 \times 2}2C,D:32×116×8​4A:32×416×16​4B:32×216×8​2张量核指令数量计算n_warps1K16的情况此时没有累加没有分线程束所以读取一次只会用于计算一次B每次只用一半所以是两次得到A加载次数是M/16B加载次数是N/16计算次数是M N 16 × 8 \frac{MN}{16\times 8}16×8MN​n_warps1K16的情况要么固定A要么固定B把另一个并行比如2并行把B并行就是这样A [ B 0 B 1 ] A\left[\begin{matrix} B_0\\B_1\end{matrix}\right]A[B0​B1​​]所以加载次数是M 16 N 16 × n \frac{M}{16}\frac{N}{16\times n}16M​16×nN​计算次数简单除以nM N 16 × 8 × n \frac{MN}{16\times 8 \times n}16×8×nMN​n_warps1K≠16的情况此时必须有累加加载次数没有影响M K 16 × 16 N K 16 × 16 \frac{MK}{16\times 16}\frac{NK}{16\times 16}16×16MK​16×16NK​计算增加M N K 16 × 16 × 8 \frac{MNK}{16\times 16\times 8}16×16×8MNK​n_warps≠1,K≠16的情况此时并行就需要注意累加必须在同一个线程束中所以虽然划分方向多了一个但不能同时划分A和B或者同时划分行列只能还是按照行划分加载次数和K16的情况一致计算次数按照上面计算差异分析torch的指令数量分析64x128和64x128的乘积num_warps4加载次数64 × 128 16 × 16 × 4 64 × 128 16 × 16 8 32 40 \frac{64\times 128}{16\times 16\times 4}\frac{64\times 128}{16\times 16}8324016×16×464×128​16×1664×128​83240计算次数64 × 128 × 64 16 × 8 × 16 × 4 64 \frac{64\times 128\times 64}{16\times 8\times 16 \times 4}6416×8×16×464×128×64​64观察发现torch是对Q并行而简单的triton是对K并行然后计算attn V这个过程attn没有加载直接用寄存器V则用的是 LDSM.xxx.trans 版本加载次数简单除以大小和并行attn V的计算次数和QK^top一致都是64所以torch的FlashAttnV2中有40条LDSM32条LDSM.trans显然是左侧并行和QK^top一样128条HMMA但由于做了2阶段所以全部乘280条LDSM64条LDSM.trans256条HMMAtriton指令数量分析triton实现把attn存到共享内存然后又加载出来加载次数计算就是64 × 64 16 × 16 16 \frac{64\times 64}{16\times 16}1616×1664×64​16这样就在基础的40上又增加16条2倍就是112条然后triton是V并行V的LDSM.trans加载64 × 128 16 × 16 × 4 8 \frac{64\times 128}{16\times 16\times 4}816×16×464×128​82倍就是16条查了一圈triton好像tl.dot要强制加载共享内存不能直接由寄存器计算这里可能有一些代价

相关文章:

从零开始写Qwen3(五-其四)FlashAttention 差异汇编分析

从零开始写Qwen3目录 概述 经过前文的提速,耗时已经从官方的214%降低到112%,本文将从汇编角度猜测一下差距的原因 概述 使用上一节的输入参数,设置为BMBN64,和torch相同,分析汇编指令 torch的指令统计如下 triton…...

2026年AI Agent实战一:MCP协议从入门到实践与3个真实应用场景

AI辅助创作 | 专栏《2026 AI编程效率革命》第07篇前言 MCP(Model Context Protocol)是Anthropic在2024年底推出的开放协议,旨在标准化AI模型与外部工具、数据源的交互方式。到2026年,MCP已经成为AI Agent开发的事实标准协议。本文…...

开源AI对话聚合平台LibreChat:统一管理多模型,部署与实战指南

1. 项目概述:一个真正开源的AI对话聚合平台如果你和我一样,在过去一年里被各种AI聊天机器人搞得眼花缭乱,一会儿用这个查资料,一会儿用那个写代码,账号密码记了一堆,界面换来换去效率极低,那你一…...

力扣135分发糖果:代码随想录Day 29,掌握贪心算法的精髓

在算法学习过程中,力扣(LeetCode)的135题“分发糖果”是一个经典的题目,它考察了我们对于贪心算法的理解和运用。 这道题目源自实际应用场景,例如在团队绩效考核中,我们需要根据员工的表现来分配奖励。代码…...

VSCode光标增强:提升编码专注度的视觉优化方案

1. 项目概述:一个为开发者打造的专注光标 如果你和我一样,每天有超过8小时的时间是在代码编辑器里度过的,那你一定对那个闪烁的光标再熟悉不过了。它是指令的起点,是思维的锚点,但很多时候,它也是一个容易被…...

嵌入式系统调试技术:从基础到高级实践

1. 嵌入式系统调试的现状与挑战在当今电子产品开发中,嵌入式系统调试已成为决定项目成败的关键因素。作为一名从业十余年的嵌入式系统工程师,我见证了调试技术从简单的断点调试发展到如今复杂的多核追踪系统的演进过程。1.1 为什么调试如此重要&#xff…...

娱乐圈天降紫微星贵在自立,海棠山铁哥不靠投喂靠自我成就

内娱最虚伪的封神方式莫过于资本投喂式走红01|投喂式造星全景图投喂方投喂内容明星姿态平台热度坐等上榜团队人设直接换装资本资源全盘接收IP情怀一键继承宣发口碑无痛镀金 他们无需深耕创作,无需打磨作品,无需沉淀心性, 只需站在…...

发票查验验证码OCR识别接口(新版旧版兼容+本地部署)

一. 发票查验验证码OCR识别-API (/mobile/recognize) Mobile版使用多颜色专用模型(各颜色使用独立模型)。 关联视频: https://www.bilibili.com/video/BV1mkQ8BoEaE/ (2026年最新发票查验验证码OCR模型) https://www.bilibili.com/video/B…...

钉钉AI助理直通模式集成Dify:低门槛构建企业级智能机器人

1. 项目概述:打通钉钉与Dify的智能桥梁如果你正在寻找一种方法,将你在Dify平台上精心构建的智能体(Agent)无缝对接到钉钉工作台,让团队在日常沟通中就能直接调用,那么你找对地方了。chzealot/dingtalk-dify…...

开发者PPT自动化工具:模板+数据驱动技术报告生成

1. 项目概述:一个面向开发者的PPT模板编辑器最近在GitHub上看到一个挺有意思的项目,叫RainJayTsai/ppt-template-editor。光看名字,你可能会觉得这又是一个普通的PPT制作工具,但点进去仔细研究后,我发现它的定位非常独…...

智能体管理平台:从概念到实践,构建高效AI协作系统

1. 项目概述:从“围栏”到“智能体牧场”的构想最近在开源社区里,一个名为llrowat/agent-corral的项目引起了我的注意。初看这个名字,可能会觉得有些抽象——“Corral”在英文里是“畜栏”或“围栏”的意思,而“Agent”则是当下AI…...

基于Docker Compose的Web应用部署:从架构设计到生产运维实战

1. 项目概述:一个轻量级、高可用的Web应用部署方案最近在折腾一个个人项目,需要快速部署一个前后端分离的Web应用。我的需求很明确:轻量、快速、稳定,并且能让我完全掌控部署的每一个环节。我不想用那些“一键部署”的云服务&…...

1 虚拟文件系统

1.Linux 内核核心作用 Linux 内核是操作系统的核心底层程序,介于硬件和应用程序之间,是整个系统的「大管家」,核心作用分 7 大类: 1. 进程管理(任务调度) 1.负责创建、销毁、暂停、恢复进程 / 线程 2.时间片…...

工程师如何讲好技术故事:从设计案例到个人品牌构建

1. 从“设计故事换iPad”看工程师的软实力营销前几天翻看一些老资料,偶然又看到了EE Times在2011年刊登的这篇小短文,标题挺有意思,叫“用设计故事换一台iPad?”。内容很简单,讲的是当时一家叫AWR(现在已被…...

2026年程序员破局之路:转智能体开发,不用卷算法也能拿高薪

文章目录前言2026年的程序员圈,一半是海水一半是火焰一边是地狱:只会CRUD的程序员,正在被时代无情抛弃一边是天堂:智能体开发岗位,正在疯狂撒钱抢人别被劝退了!智能体开发,根本不用死磕算法八股…...

基于MCP协议实现私有部署Azure DevOps与AI编程助手的安全集成

1. 项目概述:当本地开发遇上云端智能最近在折腾一个挺有意思的玩意儿,叫burcusipahioglu/azure-devops-mcp-onprem。乍一看这名字,又是 Azure DevOps,又是 MCP,还带个 on-prem,感觉有点绕。简单来说&#x…...

别再卷传统开发了!程序员转大模型,薪资直接翻2倍的真实路径

文章目录前言一、2026年,传统开发的内卷已经走到了死胡同1.1 35岁危机提前到30岁,CRUD正在被AI批量替代1.2 面试的灵魂拷问,正在击碎传统开发的薪资幻想1.3 传统开发的薪资天花板,正在被大模型狠狠砸穿二、别被忽悠了!…...

基于Reveal.js的Markdown幻灯片工具:技术分享与文档演示的高效解决方案

1. 项目概述:一个将Markdown转换为精美幻灯片的工具如果你经常需要在技术分享、产品演示或者教学培训中制作幻灯片,那么你一定对在PPT、Keynote或者Google Slides里反复调整格式、对齐文本框、设置动画感到厌倦。尤其是当你的内容主体是技术文档、代码示…...

清华AlignBench:首个中文大模型对齐评测基准深度解析与实战指南

1. 项目概述:为什么我们需要一个中文对齐评测基准?如果你最近在关注大语言模型(LLM)的发展,尤其是中文模型,可能会发现一个现象:各家厂商都在宣传自己的模型“能力强大”、“理解深刻”、“逻辑…...

Arm DynamIQ CTI寄存器架构与多核调试实践

1. Arm DynamIQ Shared Unit-110 CTI寄存器架构解析在Arm CoreSight调试架构中,交叉触发接口(CTI)扮演着关键角色。作为DynamIQ共享单元-110的重要组成部分,CTI通过硬件级的事件触发机制,实现了多核处理器间的高效调试协同。CTI的核心功能由一…...

5G波形技术革新:块滤波OFDM与同频全双工实战验证

1. 项目概述:一次面向未来的5G波形技术实地验证2017年初,当全球通信产业还在为5G的最终标准争论不休时,法国格勒诺布尔的CEA-Leti研究所已经准备将他们的研究成果从实验室推向真实的天空。这不仅仅是一次普通的“外场测试”,而是一…...

使用Taotoken CLI工具一键配置多开发环境下的AI助手接入

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 使用Taotoken CLI工具一键配置多开发环境下的AI助手接入 对于需要在不同项目、不同机器上工作的开发者而言,为每个AI助…...

多模态AI框架MMClaw:从编码融合到实战部署全解析

1. 项目概述:一个面向多模态内容理解的“机械爪” 最近在折腾一些多模态项目时,发现一个挺有意思的仓库,叫 leadersboat/MMClaw 。光看名字, MM 大概率指的是 Multimodal(多模态) ,而 Cl…...

AI智能体配置管理:从硬编码到声明式配置的工程实践

1. 项目概述:一个为AI智能体“立规矩”的配置库如果你最近也在折腾AI智能体(Agent),特别是用LangChain、AutoGPT这类框架来构建自己的自动化助手,那你大概率会遇到一个共同的烦恼:配置太散了,管…...

Go跨平台获取光标所在显示器索引:displayindex库实战指南

1. 项目概述与核心价值在开发跨平台的桌面应用时,我们常常会遇到一个看似简单却颇为棘手的问题:如何准确判断用户的鼠标光标当前位于哪一个物理显示器上?无论是开发一个需要根据光标位置动态调整UI布局的编辑器,还是一个在多显示器…...

14.凌晨三点的月光

凌晨三点十七分,陈远从代码的深海中浮出水面。他保存文件,运行测试。绿色的进度条在屏幕上平稳推进,一个接一个的测试用例通过,像一排沉默的、尽职的士兵,在确认他刚刚构建的防线的稳固性。这是优惠券发放模块的压力测…...

百元级GPT-2复现指南:nanochat框架下的低成本大语言模型训练实践

1. 项目概述:从零到一,亲手打造你的百元级GPT-2如果你对大型语言模型(LLM)充满好奇,想亲手训练一个属于自己的模型,但又对动辄数万行代码、需要数十张GPU的庞大项目望而却步,那么nanochat就是你…...

保姆级教程:用IntelliJ IDEA 2021.3.2搞定泛微ecology9后端二开环境(附避坑清单)

从零构建泛微ecology9后端开发环境:IntelliJ IDEA全流程避坑指南 第一次接触泛微ecology9后端开发时,最令人头疼的莫过于环境搭建。不同于常规Java项目,这套系统有着独特的目录结构和依赖管理方式。记得我最初尝试时,光是解决编译…...

FFmpeg视频裁剪工具:原理、封装与自动化实践

1. 项目概述:一个基于FFmpeg的精准视频裁剪工具在视频内容创作和后期处理的日常工作中,我们经常会遇到一个看似简单却颇为繁琐的需求:从一段长视频中,精准地裁剪出我们需要的片段。无论是制作短视频、提取会议重点,还是…...

TMS320C6000平台H.263解码器优化实现

1. H.263解码器在TMS320C6000平台上的实现架构1.1 系统整体设计H.263视频解码器在TMS320C6000数字信号处理器上的实现采用了分层模块化设计架构。该架构基于ITU-T H.263标准规范,针对DSP平台的特性进行了深度优化。系统核心由比特流解析、运动补偿、反离散余弦变换(…...