当前位置: 首页 > article >正文

ISSCC 2024上的黑科技:用eDRAM做查找表,这个存内计算芯片如何兼顾精度与能效?

ISSCC 2024黑科技eDRAM-LUT如何重塑存内计算的精度与能效平衡在芯片设计领域存内计算Computing-in-Memory, CIM正经历一场从模拟到数字的技术跃迁。当大多数研究者还在SRAM和模拟计算之间徘徊时清华大学团队在ISSCC 2024上展示的eDRAM-LUT架构用数字电路的精度实现了模拟电路般的能效。这背后是一系列反直觉的设计选择为什么放弃成熟的SRAM而选择需要定期刷新的eDRAM查找表如何替代数字设计中最基础的全加器树这些决策背后隐藏着对后摩尔时代芯片设计范式的重新思考。1. 存内计算的十字路口为什么是eDRAMLUT1.1 存储介质的选择困境在存内计算芯片中存储单元约占芯片面积的70%。传统方案通常面临两难SRAM阵营访问速度快但密度低6T单元面积约0.3μm²28nmeDRAM阵营密度高3T单元可做到0.145μm²但需刷新电路// 典型3T eDRAM单元结构示例 module edram_cell ( input WWL, RWL, WBL, inout RBL ); transistor T1(WBL, WWL, storage_node); transistor T2(storage_node, RWL, RBL); capacitor C1(storage_node); endmodule关键指标对比特性SRAMeDRAM本设计优势单元面积0.3μm²0.145μm²面积节省51.7%静态功耗漏电流为主需刷新功耗动态刷新策略优化计算精度数字级通常模拟保持数字精度工艺兼容性标准逻辑需特殊工艺采用标准28nm HKMG1.2 计算单元的范式转换传统数字存内计算依赖全加器树进行累加而本设计大胆采用查找表(LUT)实现乘法累加(MAC)运算。这种转变带来三重收益面积优化9-track全加器树 vs 可编程LUT能效提升消除组合逻辑的翻转功耗灵活性增强支持动态权重更新注意LUT的预计算特性使其特别适合神经网络中重复使用的权重模式但对随机计算负载可能不具优势2. 架构创新CS-DCA双模阵列的精妙设计2.1 可重构的bank结构芯片采用16个独立bank组成的256×160阵列每个bank包含16个eLADeDRAM LUT加法器分层解码器4:16激活解码/8:256存储解码IMREP内存刷新编码端口# 伪代码展示双模切换逻辑 def mode_switch(mode): if mode CIM: activate_decoder(4,16) configure_lut_adder() else: # Memory mode memory_decoder(8,256) disable_compute()2.2 eLAD的电路级创新每个eLAD包含的创新设计动态锁存结构减少刷新能耗双写回路径提升吞吐量阈值电压优化eHVT晶体管用于写字线降低漏电LVT晶体管用于读端口减少延迟3. 实测性能数字精度下的模拟级能效3.1 关键指标突破在28nm工艺下实现的测试结果能效19.7 TOPS/mm² 0.9V精度完整8bit数字精度面积0.017mm²核心面积吞吐10 TOPS总量3.2 横向对比优势与同类方案的性能对比设计类型能效(TOPS/W)精度损失存储密度本设计位置模拟CIM50-1003bit中保持精度SRAM数字CIM5-10无低3倍能效新兴存储器CIM20-301-2bit高工艺成熟4. 设计启示从专用加速到通用计算的路径4.1 动态可配置性价值传统CIM宏的固定尺寸导致小数据维度时40%功耗浪费在重复访问大数据维度时计算资源闲置本设计的bank级可配置性实现了权重更新无需重构整个阵列支持从4×8b到16×16b的灵活配置4.2 面向实际场景的刷新策略通过IMREP模块实现的创新温度自适应刷新25°C时1.3μs60°C时0.5μs计算感知刷新MAC操作期间暂停刷新区域刷新仅刷新活跃bank在BERT-base推理任务中的实测显示相比固定刷新策略可降低28%的刷新能耗。这种设计哲学表明存内计算芯片需要从纯硬件优化转向算法-硬件协同设计。当大多数存内计算研究还在精度与能效间艰难取舍时这项eDRAM-LUT设计展示了一条融合之路。它提醒我们有时候突破性的进步不是来自全新元件的发明而是现有组件的创造性重组。就像LUT这个FPGA中的古老概念在存内计算领域焕发出新的生命力。

相关文章:

ISSCC 2024上的黑科技:用eDRAM做查找表,这个存内计算芯片如何兼顾精度与能效?

ISSCC 2024黑科技:eDRAM-LUT如何重塑存内计算的精度与能效平衡 在芯片设计领域,存内计算(Computing-in-Memory, CIM)正经历一场从模拟到数字的技术跃迁。当大多数研究者还在SRAM和模拟计算之间徘徊时,清华大学团队在IS…...

KO01结算规则配置避坑手册:百分数/权数混用报错的3种处理方案

KO01结算规则配置避坑手册:百分数/权数混用报错的3种处理方案 在SAP财务模块实施过程中,资产类结算规则的配置往往是顾问们最容易踩坑的环节之一。特别是当系统抛出"共享规则不唯一"这类看似简单却暗藏玄机的报错时,不少经验丰富的…...

Kettle分页抽取数据实战:如何用30000条/页高效迁移MySQL表(附完整代码)

Kettle分页抽取数据实战:如何用30000条/页高效迁移MySQL表 数据迁移是ETL工作中最常见的场景之一,尤其是当源表数据量达到百万甚至千万级别时,如何高效稳定地完成迁移成为开发者必须面对的挑战。本文将深入探讨基于Kettle的分页抽取方案&…...

IDA Pro中的*(_DWORD *)和*(_WORD *)表达式解析与应用

1. 理解*(_DWORD )和(_WORD *)表达式的本质 第一次在IDA Pro的反汇编窗口看到*(_DWORD *)0x12345678这样的表达式时,我完全摸不着头脑。后来才发现,这其实是逆向工程中最基础也最重要的内存访问方式之一。简单来说,这种表达式就是在告诉IDA&a…...

Ubuntu 24.04 + Nginx + PHP 8.1 搭建WordPress 6.6.1全流程(含文件权限避坑指南)

Ubuntu 24.04 Nginx PHP 8.1 搭建WordPress 6.6.1全流程(含文件权限避坑指南) 在当今快速发展的互联网时代,拥有一个稳定、高效的网站对于个人和企业都至关重要。WordPress作为全球最受欢迎的内容管理系统,以其强大的功能和灵活…...

考勤打卡新方案:用Retinaface+CurricularFace镜像快速搭建人脸识别系统

考勤打卡新方案:用RetinafaceCurricularFace镜像快速搭建人脸识别系统 还在为传统考勤方式的种种问题头疼吗?指纹打卡容易被代打,刷卡需要随身携带,密码打卡又存在泄露风险。更别提那些因为忘记打卡、设备故障导致的考勤纠纷&…...

ELClient:基于SLIP的ESP8266嵌入式Wi-Fi中间件

1. ELClient 库概述 ELClient 是一个面向嵌入式平台的轻量级 Wi-Fi 通信中间件,专为集成 ESP8266 SoC(System-on-Chip)而设计。其核心定位并非直接操作 ESP8266 的 AT 指令集,而是通过串行链路(UART)承载 S…...

数学小白也能懂:用碗的比喻秒记交集和并集符号(附图解)

数学符号的视觉化记忆:用生活场景破解集合运算 记得第一次在数学课本上看到∩和∪这两个符号时,我盯着它们看了足足五分钟,完全不明白这两个"小碗"到底想表达什么。直到有一天在厨房洗碗时,突然灵光一现——这不就是倒扣…...

Kaggle竞赛老手才知道:数据泄漏的7个隐蔽陷阱与防范技巧

Kaggle竞赛老手才知道:数据泄漏的7个隐蔽陷阱与防范技巧 在数据科学竞赛中,模型在排行榜上的优异表现往往让人欣喜若狂,但当你将同样的模型部署到真实场景时,却发现效果大打折扣——这种落差很可能源于数据泄漏(Data L…...

MMA8452Q加速度传感器I²C驱动与嵌入式集成实战

1. MMA8452Q加速度传感器底层驱动技术解析1.1 器件特性与工程定位MMA8452Q是NXP(现为恩智浦半导体)推出的超低功耗、高精度三轴数字加速度传感器,采用331 mm QFN封装,专为便携式消费电子、可穿戴设备及工业状态监测等对尺寸、功耗…...

0580-防盗串口报警(光幕+光线+热释电)-系统设计(51+AD0832)

功能描述 1、采用51单片机作为主控芯片; 2、采用激光光幕检测阳台、窗户安全 3、采用热释电检测人体移动 4、采用光敏电阻AD0832检测光线 5、采用开关模拟其他位置的报警 6、触发以上检测进行声光报警、并通过串口发送到远端 电路设计 采用Altium Designer作为电…...

PP-DocLayoutV3助力学术出版:LaTeX论文稿件的自动版面分析与格式检查

PP-DocLayoutV3助力学术出版:LaTeX论文稿件的自动版面分析与格式检查 每次收到投稿论文,编辑部的同事们都得深吸一口气。面对动辄几十页的PDF稿件,要逐页核对页边距、检查图表位置、确认参考文献格式是否符合期刊的LaTeX模板要求&#xff0c…...

0579-二维坐标定位-系统设计(51+1602+ULN2003+步进电机)

功能描述 1、采用51单片机作为主控芯片; 2、采用两片ULN2003驱动2个步进电机,实现平面坐标定位; 3、支持启动、停止、速度设置、坐标设置,矩阵键盘输入; 4、步进电机驱动到指定坐标位置后蜂鸣器提示 5、采用1602液晶显…...

Linux服务器性能调优实战:NUMA架构下的内存分配策略与优化技巧

Linux服务器性能调优实战:NUMA架构下的内存分配策略与优化技巧 在数据中心和高性能计算领域,服务器的性能优化始终是系统管理员和开发者的核心课题。当我们面对多核处理器和大内存配置的现代服务器时,一个经常被忽视却至关重要的因素悄然浮现…...

OpenMV IDE连接故障深度排查:从白灯常亮到芯片级修复

1. OpenMV连接故障的典型表现与初步诊断 当你兴冲冲地拿出OpenMV摄像头准备大展身手时,突然发现设备死活连不上OpenMV IDE,而且板子上的白灯一直亮着不灭,这种场景是不是很熟悉?作为用过十几款不同型号OpenMV的老玩家,…...

霜儿-汉服-造相Z-Turbo创意应用:为Unity游戏角色自动生成汉服皮肤

霜儿-汉服-造相Z-Turbo创意应用:为Unity游戏角色自动生成汉服皮肤 1. 引言:当传统美术流程遇上AIGC 如果你在游戏工作室负责美术资源生产,尤其是角色皮肤和服装设计,那你一定对下面这个场景不陌生:策划提了一个需求&…...

手把手教你用acme.sh申请Google免费SSL证书(含Cloudflare DNS验证)

从零开始:使用acme.sh获取Google免费SSL证书全攻略 在当今互联网环境中,SSL证书已成为网站安全的基础配置。对于个人开发者和小型企业而言,获取可靠且免费的SSL证书解决方案至关重要。本文将详细介绍如何利用acme.sh这一轻量级工具&#xff…...

别再只懂systemd了!手把手教你用D-Bus守护进程实现Linux服务间通信

超越systemd:D-Bus守护进程在Linux服务通信中的实战指南 Linux系统管理员们早已习惯了使用systemd来管理服务,但当你需要实现服务间的高效通信时,D-Bus守护进程(db-daemon)才是真正的幕后英雄。本文将带你深入实战,掌握如何配置和…...

LVGL特殊符号全解析:从基础调用到高级组合应用

LVGL特殊符号全解析:从基础调用到高级组合应用 在嵌入式UI开发领域,LVGL凭借其轻量级和高度可定制的特性,已成为开源图形库的首选方案之一。而特殊符号系统作为其视觉表达的重要组成部分,往往被开发者低估——大多数人仅停留在简单…...

PTA数据结构题库实战:从顺序表到二叉树,这些高频考点你掌握了吗?

PTA数据结构高频考点深度解析:从顺序表到二叉树的实战指南 数据结构作为计算机专业的核心基础课程,在各类考试和实际开发中占据重要地位。PTA(Programming Teaching Assistant)平台上的数据结构题库,因其贴近实际、注重…...

协同过滤算法在民宿推荐系统中的应用:从理论到代码实现

协同过滤算法在民宿推荐系统中的实战指南 引言 当你在旅行网站上浏览民宿时,是否曾被那些"猜你喜欢"的推荐所吸引?这些看似神奇的推荐背后,往往隐藏着协同过滤算法的智慧。作为推荐系统领域的经典算法,协同过滤通过挖掘…...

多种方法帮助传输文件到Google Cloud虚拟机

在Google Cloud上运行Linux虚拟机(VM)实例时,可以通过多种方法轻松地将文件传输至Compute Engine虚拟机实例中。使用何种传输方式,主要取决于工作站和目标虚拟机实例所采用的操作系统。接下来,我们将详细介绍几种常用的…...

Kaptcha验证码的进阶玩法:自定义样式、Redis存储与分布式场景下的解决方案

Kaptcha验证码的进阶玩法:自定义样式、Redis存储与分布式场景下的解决方案 1. 验证码技术的演进与Kaptcha核心价值 在数字化身份认证领域,验证码技术经历了从简单数字验证到行为验证的演进过程。作为Google开源的验证码生成工具,Kaptcha凭借其…...

WinEdt与LaTeX高效排版实战:从零基础到科技论文撰写

1. WinEdt与LaTeX的黄金组合:科研排版利器 第一次接触LaTeX时,我被它生成的精美排版震撼了——数学公式像印刷品一样工整,参考文献自动编号,图表位置智能调整。但当我打开纯文本的.tex文件时,密密麻麻的代码又让我望而…...

Ansys ACT实战:用IronPython脚本5分钟实现自定义载荷添加(附代码)

Ansys ACT实战:5分钟用IronPython脚本实现自定义载荷自动化 在机械仿真领域,标准载荷类型往往无法满足复杂工程需求。当遇到非对称冲击载荷、随机振动谱或特殊温度场分布时,传统GUI操作效率低下且容易出错。Ansys ACT(Ansys Custo…...

从20秒到1秒:我是如何用zsh-profiler揪出拖慢终端的罪魁祸首

从20秒到1秒:深度剖析zsh性能优化实战 终端启动速度从20秒优化到1秒,这背后隐藏着怎样的技术奥秘?本文将带你深入探索zsh性能优化的完整方法论,从诊断工具到实战技巧,彻底解决终端卡顿问题。 1. 性能瓶颈诊断&#xff…...

Cartographer实战:如何用官方数据集快速验证你的安装是否正确

Cartographer实战:官方数据集验证安装全流程指南 当你花了大半天时间终于完成了Cartographer的编译安装,看着终端里密密麻麻的日志滚过最后一行"Build finished successfully",心里难免会犯嘀咕:这玩意儿真的装对了吗&a…...

深度学习项目训练环境一文详解:torch25环境切换、workspace目录结构与路径规范

深度学习项目训练环境一文详解:torch25环境切换、workspace目录结构与路径规范 1. 环境概述与快速上手 深度学习项目开发最让人头疼的就是环境配置问题。不同的框架版本、CUDA版本、Python版本之间的兼容性常常让人抓狂。本镜像基于深度学习项目改进与实战专栏&am…...

GNN与Transformer融合新突破!模型性能飙升实战解析

1. GNN与Transformer为何能擦出火花? 最近两年,图神经网络(GNN)和Transformer的结合突然成了AI圈的新宠。这就像把擅长处理社交关系的专家(GNN)和精通文本理解的学霸(Transformer)组…...

Webtoon-Downloader:漫画批量下载利器 轻松获取网络漫画资源

Webtoon-Downloader:漫画批量下载利器 轻松获取网络漫画资源 【免费下载链接】Webtoon-Downloader Webtoons Scraper able to download all chapters of any series wanted. 项目地址: https://gitcode.com/gh_mirrors/we/Webtoon-Downloader 解析核心架构 …...