当前位置: 首页 > article >正文

英伟达最强B200算力浪费60%!普林斯顿团队出手,利用率升至71%

闻乐 发自 凹非寺量子位 | 公众号 QbitAI所有用英伟达Blackwell B200的人都在花冤枉钱普林斯顿大学等联合团队指出这款GPU居然因为软硬件适配问题白白浪费了60%的计算资源。算力浪费了咋办呢——FlashAttention-4给出了答案。这款专为Blackwell架构GPU量身打造的注意力算法一举将利用率从行业普遍的20%-30%推至71%。FlashAttention-4由Tri Dao领衔、携手Meta、Together AI等团队共同研发。嗯英伟达自己也参与其中了……Blackwell B200有力使不出英伟达Blackwell B200作为新一代数据中心GPU其tensor core张量核心算力达到2.25 PFLOPS是上一代Hopper H100的2倍。理论上能让注意力计算的速度实现跨越式提升。但理想很丰满……这款GPU发生了严重的偏科。核心算力猛增的同时关键的配套计算单元却原地踏步。其中负责指数运算的MUFU单元吞吐量与Hopper架构完全一致没有任何提升共享内存的带宽也保持原样并未跟随张量核心同步升级。这一硬件设计的不对称性直接导致了性能瓶颈的反转。在大模型核心的注意力计算负载中原本的性能瓶颈矩阵乘法如今耗时远低于辅助环节共享内存的读写操作和指数运算的耗时反而比矩阵乘法多出25%-60%。算力翻倍的Tensor Core长期处于等待状态大量计算资源就这么被闲置了。于是大量开发者花费重金部署的B200 GPU因核心算力与配套单元的脱节超六成资源被白白浪费。算力翻倍No明明是有力使不出……FlashAttention-4三招破解瓶颈针对Blackwell GPU的偏科问题FlashAttention-4量身打造了三大优化策略。第一招多管齐下化解指数运算与内存读写难题。团队一方面通过软件模拟指数函数借助多项式近似的方法让高速的FMA计算单元参与到原本由MUFU单元负责的指数运算中大幅提升指数计算的吞吐量同时通过混合硬件计算与软件模拟的方式在提速的同时保证计算精度。另一方面推出条件性softmax rescaling策略仅在必要时执行softmax的缩放操作直接跳过大量无用的计算步骤减少非矩阵乘法的运算量。此外团队充分利用Blackwell架构的2-CTA MMA模式让两个计算单元搭档完成矩阵运算各自仅加载一半的运算数据。这就将共享内存的读写量直接砍半同时还减少了后续的原子操作从根源上缓解共享内存的带宽压力。第二招重构计算流水线实现算力的并行最大化。FlashAttention-4深度适配Blackwell架构的全异步MMA操作和新增的张量内存TMEM重新设计了注意力计算的前向和反向流水线。让softmax计算与矩阵乘法这两个核心环节实现完全的计算重叠。当硬件的张量核心在处理一个矩阵块时另一部分硬件资源可同时对另一个数据块执行softmax计算避免硬件算力的空闲。第三招兼顾硬件迭代为下一代GPU预留优化空间。研发团队同时考虑到Blackwell架构的硬件升级趋势目前B300/GB300 GPU的指数运算单元吞吐量已翻倍至32 ops/clock/SM。针对这一变化团队明确表示FlashAttention-4当前的软件模拟指数运算方案在下一代硬件上会根据实际性能表现重新权衡确保算法能持续适配硬件的迭代升级。告别 C编译速度狂飙30倍除了算法层的深度优化FlashAttention-4在开发层面也带来了变化。与此前基于C模板开发的FlashAttention-3不同FlashAttention-4的全部代码基于Python的领域专用版本CuTe-DSL框架编写实现了零C代码开发。这一设计带来的是编译的效率跃升。前向传播内核的编译时间从FlashAttention-3的55秒缩短至2.5秒提速22倍反向传播的编译时间从45秒降至1.4秒提速32倍整体编译速度最高狂飙30倍。在B200 GPU上的实测数据显示其前向传播算力最高达到1613 TFLOPS/s一举实现71%的理论峰值利用率。对比主流的计算框架FlashAttention-4的优势也比较明显。比英伟达官方的cuDNN 9.13快1.1-1.3倍比常用的Triton框架快2.1-2.7 倍。且在长序列、因果掩码等大模型训练推理的核心场景中性能优势更为突出。One More Thing论文还指出cuDNN从9.13版本开始就已经开始反向吸收了FA4的核心技术。看来英伟达自己也忍不住抄作业了doge。论文地址https://arxiv.org/abs/2603.05451参考链接https://x.com/alex_prompter/status/2033885345935462853?s20一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完— 点亮星标 科技前沿进展每日见

相关文章:

英伟达最强B200算力浪费60%!普林斯顿团队出手,利用率升至71%

闻乐 发自 凹非寺量子位 | 公众号 QbitAI所有用英伟达Blackwell B200的人,都在花冤枉钱??普林斯顿大学等联合团队指出,这款GPU居然因为软硬件适配问题白白浪费了60%的计算资源。算力浪费了,咋办呢——FlashAttention-4…...

从原理到调试:深度解析ROS2 nav2_map_server只发布一次地图的设计逻辑

深度解析ROS2 nav2_map_server单次地图发布机制的设计哲学 在ROS2导航系统中,nav2_map_server模块的地图发布行为常常让开发者感到困惑——为什么地图数据只发布一次?这个看似简单的设计背后,实际上蕴含着对系统资源效率、生命周期管理和数据…...

科研效率革命!Zotero+Claude3-7打造智能文献助手

1. 为什么你需要ZoteroClaude3-7这套组合? 读研期间最让我头疼的就是文献管理。记得有次导师临时要讨论一篇50页的综述,我熬到凌晨三点才勉强看完,结果第二天汇报时还是漏掉了关键结论。直到发现Zotero和Claude3-7的组合,才真正体…...

C#运动控制实战:PID算法在机器人控制中的应用(含代码解析)

C#运动控制实战:PID算法在机器人控制中的应用(含代码解析) 在工业自动化和智能机器人领域,精确的运动控制是实现高效操作的基础。而C#凭借其强大的面向对象特性和丰富的类库支持,已成为运动控制编程的热门选择。本文将…...

解决罗技鼠标宏压枪不准的5个实战方案 - 绝地求生外设优化完全指南

解决罗技鼠标宏压枪不准的5个实战方案 - 绝地求生外设优化完全指南 【免费下载链接】logitech-pubg PUBG no recoil script for Logitech gaming mouse / 绝地求生 罗技 鼠标宏 项目地址: https://gitcode.com/gh_mirrors/lo/logitech-pubg 在竞技射击游戏中&#xff0c…...

Axure RP 9实战:5步搞定智慧园区数据大屏设计(附免费模板下载)

Axure RP 9实战:5步搞定智慧园区数据大屏设计(附免费模板下载) 智慧园区作为城市数字化转型的重要载体,其数据可视化大屏已成为管理决策的"中枢神经"。本文将带您从零开始,用Axure RP 9打造兼具科技感与实用…...

CosyVoice2新手必看:上传音频、输入文字、生成语音三步搞定

CosyVoice2新手必看:上传音频、输入文字、生成语音三步搞定 1. 为什么选择CosyVoice2-0.5B? 如果你正在寻找一个简单易用但功能强大的语音合成工具,CosyVoice2-0.5B绝对值得尝试。这个由阿里开源、科哥二次开发的声音克隆应用,让…...

Wan2.2-T2V-A5B部署实战:3步搞定环境,开启你的AI视频创作

Wan2.2-T2V-A5B部署实战:3步搞定环境,开启你的AI视频创作 1. 快速了解Wan2.2-T2V-A5B Wan2.2-T2V-A5B是一款轻量级的文本生成视频模型,由通义万相开源。这个50亿参数的模型专为快速内容创作优化,支持480P视频生成,具…...

SPSS实战:手把手教你用多因素方差分析搞定贷款金额影响因素(附数据集)

SPSS实战:用多因素方差分析破解贷款金额影响因素 在金融数据分析领域,理解贷款金额的影响因素对银行风险控制、信贷政策制定至关重要。想象一下,你手头有一份包含数百家企业贷款记录的数据集,如何从中挖掘出担保方式和信用等级对贷…...

前端工程化进阶必备:Webpack从入门到精通实战教程全解析

先放链接:Webpack从入门到精通实战 在前端开发日益复杂的今天,掌握现代构建工具已成为中级以上工程师的标配技能。《webpack从入门到精通 - 带源码课件》提供了一条从基础配置到性能优化的完整学习路径,特别适合希望系统掌握webpack5性能优化配置详解的开发者。 📚 课程…...

为什么你的input在iOS上无法自动聚焦?深入解析Safari的限制与应对策略

为什么iOS Safari拒绝自动聚焦?揭秘移动端输入框的交互困局与实战方案 每次在iOS设备上测试网页表单时,开发者总会遇到那个熟悉又恼人的问题——明明设置了autofocus属性的输入框,在Safari中就像被施了定身术。这背后远不止是一个简单的兼容性…...

实战指南:如何安全地启用MSSQL的xp_cmdshell功能(附常见错误排查)

实战指南:如何安全地启用MSSQL的xp_cmdshell功能(附常见错误排查) 在数据库管理领域,MSSQL的xp_cmdshell功能一直是个双刃剑。它强大的系统命令执行能力为DBA提供了便捷的系统维护手段,但同时也带来了潜在的安全风险。…...

Qwen-Image-Edit-F2P部署教程:24GB显存GPU一键启动人脸图像生成与编辑环境

Qwen-Image-Edit-F2P部署教程:24GB显存GPU一键启动人脸图像生成与编辑环境 想用AI给自己生成一张完美的肖像照,或者把普通照片一键变成艺术大片?今天要介绍的Qwen-Image-Edit-F2P,就是一个能帮你实现这些想法的“魔法工具箱”。它…...

达梦数据库实战:5分钟搞定表空间创建与用户权限配置(附加密技巧)

达梦数据库企业级实战:表空间规划与安全权限配置全指南 在数字化转型浪潮中,数据库作为企业核心数据资产的载体,其安全性与管理效率直接影响业务连续性。达梦数据库作为国产数据库的领军产品,凭借其与Oracle高度兼容的特性和本土化…...

Docker overlay2占用90%空间?可能是这个隐藏问题(附完整排查流程)

Docker overlay2磁盘空间占用异常排查指南 问题背景与现象描述 最近在排查服务器磁盘空间告警时,发现一个奇怪现象:/var/lib/docker/overlay2目录占用了90%以上的磁盘空间。这种情况在长期运行的Docker环境中并不罕见,但往往容易被忽视&#…...

746. 使用最小花费爬楼梯尝-day37代码随想录

假设数组 cost 的长度为 n,则 n 个阶梯分别对应下标 0 到 n−1,楼层顶部对应下标 n,问题等价于计算达到下标 n 的最小花费。可以通过动态规划求解。创建长度为 n1 的数组 dp,其中 dp[i] 表示达到下标 i 的最小花费。由于可以选择下…...

Kaggle冠军都在用的XGBoost技巧:3个90%人不知道的细节优化

Kaggle冠军都在用的XGBoost技巧:3个90%人不知道的细节优化 在数据竞赛的战场上,XGBoost早已成为选手们的标配武器。但真正让顶级选手脱颖而出的,往往不是基础用法,而是那些藏在参数列表深处、文档角落里的高阶技巧。本文将揭示三个…...

647. 回文子串-day51

思路和算法 这道题要求计算字符串 s 的回文子串的数目&#xff0c;即计算字符串 s 中的回文区间的数目。用 n 表示字符串 s 的长度。对于 0≤i<j<n 且 j−i>2&#xff0c;区间 [i,j] 和区间 [i1,j−1] 的中心位置相同&#xff0c;如果满足 s[i]s[j] 且区间 [i1,j−1] …...

GLM-Image WebUI多分辨率适配:针对手机端/PC端/4K屏的UI响应式布局实测

GLM-Image WebUI多分辨率适配&#xff1a;针对手机端/PC端/4K屏的UI响应式布局实测 1. 为什么分辨率适配成了GLM-Image WebUI的“隐形门槛” 你有没有试过在手机上打开一个AI绘图工具&#xff0c;结果发现按钮小得点不中、提示词框被截断、生成按钮藏在屏幕外&#xff1f;或者…...

终极指南:如何用Khoj打造你的智能第二大脑,三源合一知识管理革命

终极指南&#xff1a;如何用Khoj打造你的智能第二大脑&#xff0c;三源合一知识管理革命 【免费下载链接】khoj An AI copilot for your second brain. Search and chat with your personal knowledge base, online or offline 项目地址: https://gitcode.com/GitHub_Trendin…...

语义分割实战:如何用Dice和mIoU评估你的模型效果(附代码示例)

语义分割实战&#xff1a;从混淆矩阵到可视化分析的完整评估指南 在计算机视觉领域&#xff0c;语义分割任务的质量评估从来不是简单的"正确率"数字游戏。当我们需要判断一个分割模型是否真正理解图像内容时&#xff0c;Dice系数和mIoU这两个指标就像专业裁判手中的评…...

从手动到全自动:我是如何用Python+注册表查询+requests搞定Selenium Edge驱动管理的

从手动到全自动&#xff1a;Python注册表查询requests实现Selenium Edge驱动管理 每次在新环境部署Selenium项目时&#xff0c;最头疼的就是处理msedgedriver与浏览器版本的匹配问题。手动下载、解压、配置路径不仅耗时&#xff0c;在团队协作中更是噩梦——不同成员的Edge浏览…...

智慧能碳管理系统核心功能大起底:实时监测、优化如何驱动降本增效?

智慧能碳管理系统&#xff1a;企业双碳时代的破局利器在 “双碳” 目标的大背景下&#xff0c;企业降本增效的需求愈发迫切。然而&#xff0c;传统能碳管理方式依赖人工统计与分散式监控&#xff0c;弊端愈发明显。数据的滞后使得决策出现偏差&#xff0c;核算的误差影响了减排…...

MATLAB新手也能搞定!手把手教你搭建鼠笼电机矢量控制仿真模型(附源码)

MATLAB新手也能搞定&#xff01;手把手教你搭建鼠笼电机矢量控制仿真模型&#xff08;附源码&#xff09; 作为一名电气工程师&#xff0c;掌握电机控制系统的仿真技能是职业发展的关键。鼠笼式异步电机因其结构简单、维护方便等优势&#xff0c;在工业领域应用广泛。而矢量控制…...

Let‘s Encrypt通配符证书续签避坑指南:从--manual-auth-hook报错到5分钟搞定

Lets Encrypt通配符证书续签实战&#xff1a;从报错排查到自动化部署 当企业IT管理员第一次看到Certbot的--manual-auth-hook报错时&#xff0c;往往会陷入困惑——明明上次申请证书时一切顺利&#xff0c;为何续签时却要求提供认证脚本&#xff1f;这个看似简单的提示背后&…...

如何构建完整的QQ音乐API服务:技术架构深度解析与实践指南

如何构建完整的QQ音乐API服务&#xff1a;技术架构深度解析与实践指南 【免费下载链接】qq-music-api QQ 音乐API koa2实现 项目地址: https://gitcode.com/gh_mirrors/qq/qq-music-api 在当今数字音乐时代&#xff0c;开发者需要一个稳定、高效的音乐数据接口来构建各类…...

LibreChat Docker部署避坑指南:从零到完美运行的5个关键步骤

LibreChat Docker部署实战&#xff1a;从零避坑到高效运行的完整指南 1. 环境准备与项目初始化 在开始部署LibreChat之前&#xff0c;确保你的系统满足以下基本要求&#xff1a; Docker环境&#xff1a;推荐使用Docker 20.10和Docker Compose 1.29硬件配置&#xff1a;至少2核C…...

终极解决方案:简单三步彻底修复《恶霸鲁尼》Windows 10崩溃问题

终极解决方案&#xff1a;简单三步彻底修复《恶霸鲁尼》Windows 10崩溃问题 【免费下载链接】SilentPatchBully SilentPatch for Bully: Scholarship Edition (fixes crashes on Windows 10) 项目地址: https://gitcode.com/gh_mirrors/si/SilentPatchBully SilentPatch…...

比迪丽AI绘画Typora文档创作:自动化技术文档插图生成

比迪丽AI绘画Typora文档创作&#xff1a;自动化技术文档插图生成 1. 技术写作的痛点与解决方案 技术文档写作过程中&#xff0c;最让人头疼的往往不是文字内容本身&#xff0c;而是配图问题。每次修改代码或更新功能&#xff0c;都需要重新截图、编辑图片、调整尺寸&#xff…...

Kimi K2实战评测:编程与智能体能力深度解析

1. Kimi K2编程能力实战解析 第一次接触Kimi K2时&#xff0c;我特意准备了几组不同难度的编程题目来测试。从简单的LeetCode算法题到需要调用第三方API的完整项目开发&#xff0c;K2的表现确实让人眼前一亮。举个例子&#xff0c;当我输入"用Python实现一个支持增删改查的…...