当前位置: 首页 > article >正文

缓存分块(Cache Blocking):矩阵乘法的救命稻草

矩阵乘法是科学计算的核心但 naive 实现性能惨不忍睹。问题出在缓存——三个大矩阵来回折腾L1缓存根本装不下。缓存分块Cache Blocking/Tiling通过把大矩阵切成小块让数据在缓存里多待一会儿性能能提升几倍。1. 问题传统矩阵乘法的缓存噩梦标准的三层循环矩阵乘法for(i0;iN;i)for(j0;jN;j){r0;for(k0;kN;k)ry[i][k]*z[k][j];// z按列访问x[i][j]r;}问题在哪空间局部性差z[k][j]按列访问但C数组是行主序。z[0][j]和z[1][j]在内存中相隔N个元素大概率不在同一缓存行。时间局部性差计算x[i][j]需要y的第i行和z的第j列。下一个元素x[i][j1]又要重新加载y的第i行——虽然刚刚用过但可能被踢出缓存了。总访问量假设三个N×N矩阵计算量是2N³次操作但内存访问量也是O(N³)级别。如果N1000缓存装不下每次都要从内存读性能暴跌。2. 分块优化把大矩阵切成小块核心思想把矩阵分成B×B的小块确保三个块能同时驻留缓存。for(jj0;jjN;jjB)// 分块列循环for(kk0;kkN;kkB)// 分块行循环for(i0;iN;i)for(jjj;jmin(jjB,N);j){r0;for(kkk;kmin(kkB,N);k)ry[i][k]*z[k][j];// 块内访问x[i][j]r;}关键变化最内层循环只在B×B的块内操作如果3B² ≤ 缓存容量三个块都能驻留块内数据复用减少内存访问3. 分块因子的选择分块因子B不是越大越好要匹配缓存容量。3.1 理论计算假设L1缓存32KBfloat类型4字节3 B 2 × 4 ≤ 32768 3B^2 \times 4 \leq 327683B2×4≤32768B ≤ 32768 / 12 ≈ 52 B \leq \sqrt{32768 / 12} \approx 52B≤32768/12​≈52所以B≈52取整64方便SIMD对齐。3.2 实际考虑因素影响建议缓存关联性8路组相联需避免Bank冲突B取2的幂次寄存器压力B太小循环展开效率低B≥16SIMD宽度AVX-512一次算16个floatB是16的倍数TLB容量B太大可能跨页B≤512Intel Advisor的实测建议1对于矩阵乘法B64是甜点区。4. 分块的局限小块开销当N很大但B固定时分块引入的循环开销可以忽略。但如果N本身很小如N100分块反而增加开销。不规则矩阵非方阵或稀疏矩阵分块效果打折扣。5. 现代编译器的自动分块5.1 Intel ICC/ICX#pragmaomp parallelforfor(inti0;iN;i)#pragmaunrollfor(intj0;jN;j)// 编译器自动分块5.2 LLVM-Polly2Polly是LLVM的多面体优化框架能自动进行循环分块clang-O3-mllvm-polly-mllvm-polly-tile ./matmul.cPolly的tile size选择算法考虑缓存大小缓存行大小循环迭代次数5.3 自动调优Auto-tuningATLAS和OpenBLAS采用empirical tuning编译多个版本的kernel不同B值在目标机器上实测选择最快的版本这比理论计算更准确因为考虑了缓存替换策略TLB行为预取器影响6. 总结缓存分块是矩阵运算优化的核心技术优化效果复杂度Loop Interchange解决空间局部性低Cache Blocking解决时间局部性中SIMD向量化提升单周期算力中多层分块利用整个缓存层次高关键认知分块因子B要匹配缓存容量3 B 2 ≤ C L 1 3B^2 \leq C_{L1}3B2≤CL1​实际B值通常取64或128考虑SIMD对齐多层分块L1/L2/L3能进一步提升性能现代编译器能自动分块但手工调优仍有价值理解分块就能理解为什么OpenBLAS/GotoBLAS比naive实现快10倍以上。参考Intel Advisor Cookbook. Optimize Memory Access Patterns using Loop Interchange and Cache Blocking. 1.68x speedup with cache blocking. ↩︎LLVM Dev Meeting. Cache-aware Scheduling and Performance Modeling with LLVM-Polly. Tile size selection algorithm. ↩︎

相关文章:

缓存分块(Cache Blocking):矩阵乘法的救命稻草

矩阵乘法是科学计算的核心,但 naive 实现性能惨不忍睹。问题出在缓存——三个大矩阵来回折腾,L1缓存根本装不下。缓存分块(Cache Blocking/Tiling)通过把大矩阵切成小块,让数据在缓存里多待一会儿,性能能提…...

回归实战:新冠病毒感染人数预测

一、项目背景 台湾大学李宏毅老师 2021 春季机器学习课程的作业竞赛:“ML2021Spring-hw1”, 项目所需数据可点击链接下载,链接如下: https://www.kaggle.com/competitions/ml2021spring-hw1 二、代码解析 代码涵盖了深度学习项目从…...

RFID读卡器电气接口连接器/航空插头/端子选型指南

选型步骤确认应用场景应用类型推荐连接器类型理由固定安装M12 圆形连接器或矩形连接器稳定性好,适合长期固定使用移动设备 / 频繁插拔M8/M12 快速锁定型插拔便捷,机械强度高恶劣环境带屏蔽的 M12 连接器抗干扰能力强,防护等级高环境要求防护等…...

【数字孪生与仿真技术】17:工业机器人数字孪生实战:运动控制+离线编程+碰撞检测(RobotStudio完整代码+从入门到精通)

摘要:工业机器人传统示教编程存在停机依赖、碰撞风险高、调试周期长等痛点,数字孪生技术通过虚拟仿真将编程、调试迁移至虚拟环境,彻底解决上述问题。本文以ABB RobotStudio(主流工业机器人仿真平台)和新时达STEPStudio(国产软件)为核心,聚焦运动控制仿真、离线编程(O…...

信息传承 -- 在时间的缝隙里,我们能留下什么?

如果有一天,我们的文明走到了尽头,新的一代智慧生命站在这片废墟上,他们会如何理解我们? 他们可能会轻易地读懂我们刻在石碑上的铭文,看清岩壁上的狩猎图画,甚至从陪葬的竹简中,拼凑出古老王朝…...

软考-系统架构设计师笔记-真题解析-2023年真题

软考-系统架构设计师-2023年上午选择题真题 考试时间 8:30 ~ 11:00 150分钟 1.2.要实现多任务间的协同工作,操作系统必须提供任务间的通信手段。嵌入式操作系统一般都会提供多任务间通信的方法,其中(问题1)是任务间最直接、最明显的通信方法,…...

尝试用openclaw完成一个复杂的开发任务(持续更新)

im1: 我现在想开发的支持手机、桌面、web端的3D休闲应用,但是功能可能比较复杂,我需要多个助手帮我完成这项工作,大概需要一个产品经理、程序员、测试人员,先暂时分别叫他们小产潘,小猿潘,小测潘&#xff1…...

OpenClaw启动后,web控制面板无法登录,返回信息:Not Found

在1.19这台服务器安装了OpenClaw,不管用浏览器,还是直接使用curl,都是返回信息:Not Found但是1.12这台服务器就没有问题...curl http://localhost:18789 Not Found查看绑定情况openclaw config get gateway.bind🦞 Ope…...

Linux WDT 软件分析

linux WDT(看门狗) 看门狗子系统为什么要实现看门狗子系统?因为要实现linux底层对WDT 不同硬件的统一控制 在driver部分中最终回去调用watchdog_devwdt 代码解析 结构体使用场景和Attention struct xxx wdd_data; // 先定义数据本体 wdd &a…...

Urdf文件导出

下载urdf导出插件:https://wiki.ros.org/sw_urdf_exporter 1.准备工作: (1)质量属性: 单独为每个零件设置好材料和质量属性: 若零件由多种材料构成或结构复杂(如电机、电池、PCB)…...

计算机视觉(CV)实战避坑指南

做 CV 实战的同学都有体会:看再多理论、跑通再多 demo,真正落地项目时还是会踩坑 —— 数据标注混乱、模型训练不收敛、推理速度太慢、部署报错找不到原因、小目标检测不到、图像模糊识别准确率低……本文不聊空洞的原理,只针对 CV 实战中8 个…...

类和对象(上 中 下)

类 图纸 / 模板对象 根据图纸造出来的东西1.类的定义类就是把属性和行为封装在一起的模板。1.1 类定义格式^ class 为定义类的关键字, Stack 为类的名字,{} 中为类的主体,注意类定义结束时后面分号不能省略。类体中内容称为类的成员&#x…...

清华大学车辆学院团队推出大模型微调领域的新型强化学习算法——STAPO

清华大学车辆学院团队推出大模型微调领域的新型强化学习算法 近日,清华大学车辆学院李克强院士、李升波教授课题组与滴滴自动驾驶部门联合提出了用于大模型微调训练的 STAPO(Spurious-Token-Aware Policy Optimization)算法,旨在解…...

洛谷:P1424 小鱼的航程(改进版)

题目描述有一只小鱼,它平日每天游泳 250 公里,周末休息(实行双休日),假设从周 x 开始算起,过了 n 天以后,小鱼一共累计游泳了多少公里呢?输入格式输入两个正整数 x,n,表示从周 x 算起…...

往期精彩|EBioMedicine:MRI脑年龄异质性、认知、遗传学与阿尔茨海默病神经病理学之间的关系

摘要总结:该研究基于大样本、多中心、多模态神经影像数据,深入探讨了认知正常老年人群中脑龄异质性与阿尔茨海默病(AD)神经病理、认知表现及遗传背景之间的复杂关系。研究通过构建结构和功能MRI脑龄预测模型,将个体划分…...

ARM指令流水线的分类与比较(ARM处理器指令系统——指令流水线,中篇)

本文声明:内容来源于网络,进行整合/再创作;部分内容由AI辅助生成。ARM微处理器主要包含3级指令流水线、5级指令流水线、7级指令流水线、8级指令流水线和13级指令流水线这5个流水线。本节着重讲述3级、5级指令流水线。3级指令流水线到ARM7为止…...

Jellyfin在Android上的实战指南:打造你的开源家庭媒体中心

1. 为什么选择Jellyfin?从零开始认识你的开源媒体管家 如果你和我一样,家里攒了一堆电影、电视剧、音乐和家庭照片,分散在电脑硬盘、NAS甚至旧手机里,每次想找个片子看都得折腾半天,那你一定需要个“媒体中心”。市面上…...

基于FPGA的以太网设计(五):ARP协议状态机实战与板级调试

1. 从仿真到上板:ARP状态机调试的“最后一公里” 上一篇文章我们详细拆解了ARP接收和发送模块的Verilog代码实现,相信你已经对状态机的每个状态跳转和数据流处理有了清晰的认识。代码写完了,仿真波形看起来也完美无缺,是不是感觉大…...

SER5 Pro迷你主机实战:ESXi+虚拟机打造高效All in One家庭服务器

1. 为什么选择SER5 Pro作为你的家庭服务器核心? 如果你和我一样,是个喜欢折腾但又怕麻烦的家庭技术爱好者,那么一台小巧、安静、性能又够用的迷你主机,绝对是打造家庭数字中枢的绝佳选择。我前前后后用过好几款迷你主机&#xff0…...

C++内存池在Tick级交易系统中的5大致命缺陷:从L3缓存未命中到NUMA跨节点延迟,如何72小时内重构?

第一章:Tick级交易系统内存池的性能悖论与重构动因在毫秒乃至微秒级响应要求的Tick级交易系统中,内存池本应是降低GC压力、规避堆分配抖动的核心基础设施。然而实践中却频繁观测到一种反直觉现象:启用定制化内存池后,订单匹配延迟…...

【自然语言处理】从编译器视角看NLP:分层架构的共性与技术迁移路径

1. 引言:当编译器工程师遇上自然语言 大家好,我是老张,一个在AI和编译器领域摸爬滚打了十多年的老码农。这些年,我见过不少工程师朋友,一提到自然语言处理(NLP),就觉得那是另一个世界…...

IEEE期刊分区大洗牌:2025年这些1区期刊跌到2区,你的论文还值钱吗?

IEEE期刊分区洗牌:科研价值锚点迁移下的理性应对指南 又到了年底,对于很多科研工作者,尤其是计算机、电子、通信等领域的学者和研究生来说,除了年终总结,还有一件牵动神经的大事——中科院期刊分区表的更新。这几天&am…...

Temenos T24核心系统开发实战:JBase Basic语言从入门到精通

1. 初识T24与JBase Basic:银行IT人的新起点 如果你刚加入一家银行的科技部门,或者被分配去维护那个听起来就很高大上的“核心系统”,那么“Temenos T24”这个名字很快就会成为你日常的一部分。别紧张,我第一次接触它的时候也是一头…...

告别自签名警告:基于acme.sh为宝塔面板部署免费IP SSL证书实战

1. 为什么你的宝塔面板总被浏览器“嫌弃”? 每次打开宝塔面板,看到浏览器地址栏那个刺眼的红色“不安全”警告,或者那个需要你手动点击“高级”->“继续前往”的提示,是不是感觉特别不专业?心里还会犯嘀咕&#xff…...

Flutter 三方库 flutter_auto_localizations 的鸿蒙化适配指南 - 国际化研发的减速带切除术、在鸿蒙端实现多语言代码自动生成实战

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.csdn.net Flutter 三方库 flutter_auto_localizations 的鸿蒙化适配指南 - 国际化研发的减速带切除术、在鸿蒙端实现多语言代码自动生成实战 前言 【里程碑达成:我们已跨越 150 篇大关&…...

Flutter 三方库 shelf_open_api 的鸿蒙化适配指南 - 契约驱动的开发美学、在鸿蒙端实现 Shelf 的 OpenAPI 自动生成实战

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.csdn.net Flutter 三方库 shelf_open_api 的鸿蒙化适配指南 - 契约驱动的开发美学、在鸿蒙端实现 Shelf 的 OpenAPI 自动生成实战 前言 在进行 Flutter for OpenHarmony 的端侧微服务开发、或是为鸿…...

【ZERO-PAD】基于微雪RP2040-ZERO与QMK的模块化桌面宏键盘DIY全攻略

【ZERO-PAD】基于微雪RP2040-ZERO与QMK的模块化桌面宏键盘DIY全攻略 大家好,最近在捣鼓桌面快捷键盘,发现很多成品要么太贵,要么功能固定不够好玩。于是,我找到了立创开源平台上一个叫【ZERO-PAD】的项目,它完美解决了…...

nanobot效果展示:Qwen3-4B在QQ中执行netstat -tuln并解释监听端口含义

nanobot效果展示:Qwen3-4B在QQ中执行netstat -tuln并解释监听端口含义 1. 引言:当AI助手遇上系统命令 想象一下,你正在管理一台服务器,需要快速查看哪些端口正在监听网络连接。你打开终端,输入熟悉的 netstat -tuln …...

全栈可视化开发新选择 网易 CodeWave 开发效率拉满

一、什么是网易智企- CodeWave? 网易智企- CodeWave 是网易数智基于自研智能开发底座和 NASL 全栈编程语言打造的企业级应用研发平台,也是国内唯一的「全栈」可视化开发平台。它区别于传统 AI 编码工具仅聚焦代码层提效的局限,实现了数据、页面、逻辑和流程的一体化设计与交付…...

2024年企业级网络架构实战:跨地域OSPF与BGP混合组网解析

1. 为什么你的企业网络需要OSPF与BGP混合组网? 如果你是一家正在快速扩张的集团企业IT负责人,或者是一名负责网络架构的工程师,你一定遇到过这样的烦恼:总部和分公司之间的网络连接,要么慢得像蜗牛,要么三天…...