当前位置: 首页 > article >正文

PIM架构如何优化LLM推理中的内存墙问题

1. PIM架构核心原理与LLM推理瓶颈在传统冯·诺依曼架构中数据需要在处理器和内存之间频繁搬运这种内存墙问题在大型语言模型(LLM)推理场景中尤为突出。处理内存计算(PIM)技术的革命性在于将计算单元直接嵌入内存控制器附近通过近数据计算打破这一瓶颈。其物理实现通常采用以下两种方式存内计算(Computing-In-Memory)在DRAM阵列内部集成计算逻辑典型代表如UPMEM的DRAM-PIM芯片近存计算(Near-Memory Computing)在内存控制器或HBM基板上部署计算单元如三星的HBM-PIM对于Transformer架构的LLM推理计算模式呈现明显的两极分化全连接层(FC)计算密集型算术强度高(100 FLOP/byte)注意力层(Attention)内存密集型算术强度低(1 FLOP/byte)这种特性使得传统同构计算架构难以同时高效处理两类计算任务。我们的实验数据显示在GPT-3 175B模型推理中FC层占用了72%的计算时间却只消耗35%的内存带宽而Attention层正好相反。2. DRAM数据重用技术深度解析2.1 基本工作原理DRAM数据重用的核心思想是单次访问多次计算。当DRAM行被激活后其数据会暂存在行缓冲器(row buffer)中。传统架构中这些数据仅使用一次就被丢弃而PIM架构可以通过以下方式实现重用寄存器文件缓存在PIM计算单元中增加寄存器堆(如32×512bit)数据流编排将计算任务拆分为可复用数据块的粒度计算调度确保连续计算任务需要相同的数据块以矩阵乘为例当计算YWX时传统方式每个W元素需从DRAM读取一次重用方式W的行向量读取后可在计算多个X列向量时复用2.2 能耗优化效果我们在HBM2设备上的实测数据表明(图7)无重用时DRAM访问能耗占比达67.3%64次重用时DRAM能耗降至33.1%总能耗下降从4.2μJ/op降至1.8μJ/op这源于DRAM访问的两个特性激活能耗每次行激活约消耗1.2nJ静态功耗保持行打开状态仅需0.05nJ/cycle数据重用公式推导E_total E_access E_compute (E_activate E_retention) N × E_op其中N为重用次数当N→∞时E_access/N→02.3 硬件实现方案在HBM-PIM中实现数据重用需要三个关键设计子阵列划分将每个bank划分为16个sub-array支持并行访问缓冲器扩展将row buffer从2KB扩展到8KB数据流控制器动态调度计算顺序最大化数据局部性3. 并行计算架构设计3.1 FPU配置策略我们提出分级FPU配置方案| 配置类型 | FPU/Bank | 适用场景 | 峰值算力 | 能效比 | |----------|----------|----------------|----------|--------| | 4P1B | 4 | FC层 | 512GFLOPS| 83TOPS/W| | 2P1B | 2 | 混合负载 | 256GFLOPS| 76TOPS/W| | 1P2B | 0.5 | Attention层 | 64GFLOPS | 92TOPS/W|选择依据来自Roofline模型分析FC层位于计算限制区需更多FPUAttention层位于内存限制区FPU利用率低3.2 面积与功耗约束在22nm工艺下单个HBM die面积约束121mm²单个bank面积0.83mm²(包含存储阵列和外围电路)FPU面积0.1025mm²(支持FP16/INT8)配置计算公式m × (n × A_FPU A_bank) ≤ A_max对于4P1B配置m × (4×0.1025 0.83) ≤ 121 ⇒ m ≤ 97实际采用96 banks/die保留5%面积余量用于互连布线。3.3 动态功耗管理通过DVFS实现三级功耗调控低频模式(333MHz)处理Attention层标频模式(666MHz)中等负载高频模式(1GHz)突发计算需求实测功耗数据(图7c)4P1B64重用82W ( HBM3的116W预算)1P1B无重用超标至135W4. 异构PIM架构实现4.1 FC-PIM设计针对全连接层的优化计算单元4个FPU/bank支持FMA指令数据流权重矩阵分块映射带宽20.8GB/s per bank关键创新稀疏计算支持对MoE模型中的专家权重动态激活脉动阵列32×32 MAC阵列利用率达78%4.2 Attn-PIM设计针对注意力层的特性计算单元1个FPU/2banks数据布局K^T矩阵列向分割V矩阵行向分割专用指令Softmax硬件加速器4.3 系统集成互连方案选择| 组件 | 互连类型 | 带宽要求 | 延迟 | 协议栈 | |--------------|------------|----------|--------|----------| | FC-PIM | NVLink 3.0 | 900GB/s | 90ns | 自定义 | | Attn-PIM | CXL 2.0 | 64GB/s | 150ns | PCIe兼容 | | Host通信 | Infinity | 200GB/s | 500ns | Ethernet |实测通信开销FC层参数传输占总延迟12%Attention层QKV传输仅占3%5. 实测性能分析5.1 端到端加速比测试环境模型LLaMA-65B/GPT-3 175B数据集Dolly creative-writing对比基线A100AttAcc结果(图8)配置加速比能效提升批大小6411.1x3.4x推测长度48.7x3.1x混合并行9.8x3.2x5.2 组件级分析延迟分解(图12)FC-PIM计算占总时间58%Attn-PIM计算19%通信23%瓶颈分析FC层计算受限受FPU数量影响大Attention层受bank冲突影响命中率92%6. 实际部署考量6.1 编译器优化需要特定的编译器支持#pragma pim_schedule kernel_typefc for (int i0; inum_blocks; i) { pim_gemm(W_blocks[i], X, Y); } #pragma pim_schedule kernel_typeattn for (int head0; headnum_heads; head) { pim_attention(Q, K[head], V[head]); }6.2 温度管理实测热分布计算密集区最高85°C存储密集区72°C 解决方案动态热调度迁移热点计算3D封装硅中介层散热6.3 容错机制采用ECCCRC双重保护存储阵列SECDED ECC计算数据流CRC-32校验 实测可靠性FIT率 0.1%错误恢复时间10μs7. 扩展应用场景该架构同样适用于推荐系统稀疏全连接层科学计算稀疏矩阵运算计算机视觉Transformer模型在ResNet-50上的测试显示吞吐量4200 images/sec能效比3.8x优于GPU方案

相关文章:

PIM架构如何优化LLM推理中的内存墙问题

1. PIM架构核心原理与LLM推理瓶颈在传统冯诺依曼架构中,数据需要在处理器和内存之间频繁搬运,这种"内存墙"问题在大型语言模型(LLM)推理场景中尤为突出。处理内存计算(PIM)技术的革命性在于将计算单元直接嵌入内存控制器附近,通过近…...

vLLM Semantic Router:基于信号驱动的LLM智能路由架构与生产实践

1. 项目概述:为什么我们需要一个“智能”的LLM路由器?在当前的LLM应用开发中,我们正面临一个甜蜜的烦恼:模型太多了。从闭源的GPT-4、Claude,到开源的Llama、Qwen、DeepSeek,再到各种针对特定任务微调的小模…...

LLM Workflow Engine:命令行AI工作流引擎的架构与实战

1. 项目概述:从命令行到工作流,一个LLM引擎的进化如果你和我一样,是个重度命令行用户,同时又对大型语言模型(LLM)的潜力着迷,那你肯定经历过这种纠结:想快速用GPT-4验证一个想法&…...

qmcdump音频解密终极指南:3分钟解锁QQ音乐加密文件

qmcdump音频解密终极指南:3分钟解锁QQ音乐加密文件 【免费下载链接】qmcdump 一个简单的QQ音乐解码(qmcflac/qmc0/qmc3 转 flac/mp3),仅为个人学习参考用。 项目地址: https://gitcode.com/gh_mirrors/qm/qmcdump 还在为QQ…...

编写程序统计行业招聘薪资行情数据,智能比对企业薪资标准,优化薪资体系,减少企业人才流失问题。

一、实际应用场景描述在中型及以上企业的人力资源管理中,经常出现:- 企业需制定或调整岗位薪资标准(Salary Band)- 市场上同岗位薪资随城市、行业、经验年限波动明显- 企业内部薪资数据分散在 HR 系统 / Excel 中,缺乏…...

人工智能的“意识”争论:它真的能理解吗,还是只是在模仿?—— 一个软件测试从业者的专业解构

2026年的今天,当你在测试环境中输入一条模糊的需求描述,大模型瞬间生成了逻辑严密、边界清晰的测试用例时,你是否曾在某一瞬间恍惚:它真的“懂”我在测什么吗?还是仅仅在进行一场华丽的概率模仿?关于人工智…...

ARM Cortex-R52 GIC架构详解与中断管理实践

1. Cortex-R52 GIC架构概述ARM Cortex-R52处理器采用的通用中断控制器(GIC)架构是嵌入式实时系统的中断管理核心。作为GICv2架构的实现,它通过硬件级的中断路由和优先级管理机制,为多核实时应用提供了确定性的中断响应能力。在汽车电子和工业控制领域&am…...

技术乐观主义与悲观主义:我们正在走向乌托邦还是dystopia?

测试者的双重身份作为一名软件测试从业者,我们天然地同时拥有两副眼镜:一副是信任的眼镜,相信系统能够按照预期运行,相信缺陷终将被发现和修复;另一副是怀疑的眼镜,习惯于在任何看似完美的流程中寻找裂缝&a…...

数字遗产:我们写的代码,在死后将归于何处?

一行注释里的永恒追问测试工程师的日常,往往是从一行日志或一个断言开始的。但你是否注意过,在那些被反复修改的代码文件最顶端,常常躺着一行注释:“Author: [某位早已离职的同事]”。这行注释像一座小小的墓碑,标记着…...

中小团队如何利用Taotoken统一管理多个项目的AI调用成本

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 中小团队如何利用Taotoken统一管理多个项目的AI调用成本 对于同时推进多个AI应用开发项目的中小型技术团队而言,管理分…...

深入解析session-guardian:分布式会话并发安全与生命周期管理实践

1. 项目概述与核心价值最近在折腾一个分布式系统的监控项目,遇到了一个挺典型的问题:用户会话(Session)在集群环境下频繁丢失,导致用户体验断崖式下跌。排查了一圈,从负载均衡策略到Redis集群配置&#xff…...

如何用拯救者工具箱完全掌控联想笔记本:开源硬件管理终极指南

如何用拯救者工具箱完全掌控联想笔记本:开源硬件管理终极指南 【免费下载链接】LenovoLegionToolkit Lightweight Lenovo Vantage and Hotkeys replacement for Lenovo Legion laptops. 项目地址: https://gitcode.com/gh_mirrors/le/LenovoLegionToolkit 你…...

XUnity.AutoTranslator完全指南:轻松实现Unity游戏多语言本地化

XUnity.AutoTranslator完全指南:轻松实现Unity游戏多语言本地化 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 你是否曾因语言障碍而错过精彩的Unity游戏?是否想为心爱的游戏添加…...

Minecraft世界瘦身终极方案:MCA Selector免费工具完整使用指南

Minecraft世界瘦身终极方案:MCA Selector免费工具完整使用指南 【免费下载链接】mcaselector A tool to select chunks from Minecraft worlds for deletion or export. 项目地址: https://gitcode.com/gh_mirrors/mc/mcaselector 你是否曾为Minecraft世界日…...

构建研发效能平台:从数据采集到智能洞察的工程实践

1. 项目概述:从“任务控制”到现代研发效能平台在软件研发领域,尤其是当团队规模从几个人扩展到几十甚至上百人时,一个经典的管理困境就会浮现:如何清晰地知道每个工程师在做什么?项目的真实进度如何?代码质…...

告别数据焦虑:WeChatExporter如何重塑你的数字记忆管理体验

告别数据焦虑:WeChatExporter如何重塑你的数字记忆管理体验 【免费下载链接】WeChatExporter 一个可以快速导出、查看你的微信聊天记录的工具 项目地址: https://gitcode.com/gh_mirrors/wec/WeChatExporter 当你深夜翻看三年前的聊天记录,却发现…...

基于FreeRTOS与LVGL的智能手表开源系统InfiniTime开发指南

1. 项目概述:为你的智能手表注入灵魂 如果你手上有一块PineTime或者类似的低功耗智能手表,并且对官方固件那有限的功能感到意犹未尽,那么“InfiniTime”这个名字你应该不会陌生。它不是一个简单的应用商店,而是一个为这类开源硬件…...

从零构建本地AI应用:基于DeepSeek-R1的RAG与智能体实战指南

1. 项目概述:一个本地化AI应用的全栈学习与实践仓库最近在折腾本地大语言模型,特别是DeepSeek-R1,发现网上资料虽然多,但要么太零散,要么就是纯理论,真正能让你从零开始、一步步把模型跑起来,再…...

ncmdumpGUI:3分钟解锁网易云音乐NCM加密文件的终极指南

ncmdumpGUI:3分钟解锁网易云音乐NCM加密文件的终极指南 【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换,Windows图形界面版本 项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 你是否曾在网易云音乐下载了心爱的歌曲&…...

AI辅助构建复古像素风Hacker News聚合器:全栈开发实战

1. 项目概述:一个AI驱动的复古风Hacker News聚合器最近在逛Hacker News的时候,我总感觉“Show HN”板块里那些有趣的个人项目像流星一样,刷一下就过去了,想回头再找特别费劲。作为一个喜欢折腾的开发者,我就在想&#…...

AI代码工程化实战:从生成到部署的确定性框架

1. 项目概述:从“AI画饼”到“AI交付”的工程化桥梁如果你和我一样,在过去一年里深度使用过 Claude Code、Cursor 或者 GitHub Copilot,那你一定经历过这种场景:AI 助手噼里啪啦生成了一大堆看起来非常酷炫的代码,你兴…...

终极指南:Sunshine开源游戏串流服务器完整配置与实战应用

终极指南:Sunshine开源游戏串流服务器完整配置与实战应用 【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine Sunshine是一款功能强大的自托管游戏串流服务器,专…...

ScienceClaw:基于Python的学术爬虫工具,高效抓取文献与课程资料

1. 项目概述与核心价值 最近在GitHub上看到一个挺有意思的项目,叫“ScienceClaw”,作者是beita6969。光看这个名字,你可能觉得有点摸不着头脑——“科学爪”?这到底是干嘛的?作为一个在开源社区混迹多年的老鸟&#xf…...

Odoo开源频道应用:构建企业级内容管理系统的完整指南

1. 项目概述:一个为Odoo生态注入活力的开源频道应用如果你是一名Odoo开发者或实施顾问,肯定遇到过这样的场景:客户需要一个功能强大、界面现代的“新闻”或“博客”模块,但Odoo原生的“网站博客”应用要么功能过于基础&#xff0c…...

基于GPT-4与Neo4j构建智能推荐聊天机器人:从原理到实践

1. 项目概述:一个能“读懂”并“修改”数据库的智能聊天机器人 最近在捣鼓一个挺有意思的开源项目,叫 NeoGPT-Recommender 。简单来说,它不是一个普通的聊天机器人,而是一个能真正理解你、并基于你的喜好动态更新知识库的智能助…...

CGRA架构与工具链:可重构计算加速技术解析

1. CGRA架构与工具链概述粗粒度可重构阵列(Coarse-Grained Reconfigurable Array, CGRA)是一种介于FPGA和ASIC之间的可重构计算架构,特别适合加速多维嵌套循环计算。与FPGA的细粒度可编程逻辑单元不同,CGRA采用粗粒度的处理单元&a…...

为Claude Code配置Taotoken解决账号被封与Token不足的烦恼

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 为Claude Code配置Taotoken解决账号被封与Token不足的烦恼 对于依赖Claude Code进行编程辅助的开发者来说,直接使用官方…...

Quality Guardian MCP:为AI编程助手设计的实时代码质量聚合与基线管理工具

1. 项目概述:为AI编程助手打造的代码质量守门员如果你和我一样,日常重度依赖 Claude Code、Cursor 这类 AI 编程助手来写代码,那你肯定也遇到过这个头疼的问题:AI 助手确实能快速生成代码,但它对项目里已有的“技术债”…...

跨设备代码同步工具cursor-sync:设计原理与工程实践指南

1. 项目概述:一个为开发者设计的代码同步工具如果你和我一样,经常在多个设备上切换着写代码——比如在公司用台式机,回家用笔记本,甚至偶尔在平板上改几行——那你一定对“代码同步”这个痛点深有体会。手动复制粘贴、用U盘倒腾、…...

VMware macOS虚拟机深度解锁指南:Unlocker 3.0架构剖析与实战应用

VMware macOS虚拟机深度解锁指南:Unlocker 3.0架构剖析与实战应用 【免费下载链接】unlocker VMware Workstation macOS 项目地址: https://gitcode.com/gh_mirrors/unloc/unlocker 在虚拟化技术领域,VMware Workstation和Player用户长期面临一个…...