当前位置: 首页 > news >正文

至强6搭配美光CZ122,证明CXL可以提高生成式AI的性能表现

最近发现了英特尔官网公布的一项最新测试报告,报告显示,将美光的CZ122 CXL内存模块放到英特尔至强6平台上,显著提升了HPC和AI工作负载的内存带宽,特别是在采用基于软件的交错配置(interleave configuration)时,性能优化潜力诱人。

实验中,将12根DDR5内存组成NUMA0,将另外8个美光CXL DDR4内存模组组成CXL NUMA1,考虑到性能差异可能会带来的问题,相关研究者已经在Linux内核(6.11.6)层面进行了优化。

上图清晰展示了在高负载条件下,通过将DRAM和CXL内存组合使用,可以显著提升系统带宽并降低延迟。DRAM + CXL 的优化交错配置(interleaving strategy) 实现了内存资源的高效利用,特别是对于带宽密集型工作负载。

测试人员还发现,DRAM和CXL在不同读写比例下,带宽的表现会有明显差异。其中,DRAM在写的比例更多时,内存带宽会下降。而CXL利用了PCIe双向传输的能力,在写的比例越来越高的时候,带宽会越来越高。

DRAM的延迟较低,但是带宽部分其实不如CXL,在高负载场景下,DRAM的带宽瓶颈会导致性能迅速下降。CXL内存虽然内存延迟比较高,但凭借优秀的双向读写能力,能提供额外的带宽扩展,缓解系统内存压力。

这意味着,在实际应用中,如果想更好地利用CXL的优势,还得看具体场景对延迟和带宽的需求。从操作层面来看,就需要用户根据工作负载来调整使用的DRAM和CXL内存的配比。

接下来看,在实测数据中,DDR5 DRAM搭配DDR4 CXL内存模组是如何提高性能的。

在大语言模型推理任务中,研究人员使用了Intel PyTorch 扩展(IPEX),该开源工具对英特尔硬件进行了专门优化。通过采用3:1 DRAM与CXL内存比例,LLAMA3-8B-Instruct 的推理速度相比仅使用 DRAM 提升了17%。

FAISS 是由 Facebook AI 开发的高效相似性搜索库,用于密集向量的聚类和搜索。在 2:1 DRAM与CXL比例下,FAISS 工作负载的查询时间降低,性能提升了 23%。

说完了大家都比较关心的AI场景,接下来说HPC场景的价值。

OpenFOAM 是一款开源计算流体力学(CFD)软件,用于模拟各种流体动力学场景。采用5:2 DRAM:CXL比例时,OpenFOAM工作负载的执行时间缩短了22%。

HPCG基准测试侧重于稀疏线性系统的求解,强调内存访问模式和数据移动,反映真实科学和工程应用的行为。在3:1 DRAM:CXL 比例 下,HPCG 基准测试实现了 27% 的性能提升。

Xcompact3D基准测试用于评估计算系统在求解不可压缩Navier-Stokes方程时的效率,尤其适用于流体动力学模拟,如3D Taylor-Green涡流。在5:2 DRAM:CXL比例下,Xcompact3D基准测试性能提升达25%。

POT3D基准测试模拟三维Poisson方程,主要用于评估系统在科学与工程计算中的性能,尤其是在分子动力学和计算物理领域。采用 5:2 DRAM:CXL 比例 时,POT3D 工作负载性能提升了27%。

总之,CXL内存的引入使得系统能够有效地扩展内存带宽,解决了传统内存架构的带宽瓶颈,尤其是在大规模AI训练和高性能计算等应用中。通过DRAM和CXL内存搭配,能够根据不同负载的需求,灵活调整内存资源的分配比例,最大化带宽利用率。

实验还表明,随着CXL内存技术的逐步成熟,未来的计算系统将能更好地满足AI、大数据处理以及其他计算密集型应用对内存带宽和容量的要求。通过合理配置内存比例,系统能够更加高效地处理高读写比率的混合负载,提升计算性能和响应速度。

相关文章:

至强6搭配美光CZ122,证明CXL可以提高生成式AI的性能表现

最近发现了英特尔官网公布的一项最新测试报告,报告显示,将美光的CZ122 CXL内存模块放到英特尔至强6平台上,显著提升了HPC和AI工作负载的内存带宽,特别是在采用基于软件的交错配置(interleave configuration&#xff09…...

一文理解ssh,ssl协议以及应用

在使用基于密钥的认证方式的时候,私钥的位置一定要符合远程服务器规定的位置,否则找不到私钥的位置会导致建立ssh连接失败 SSH 全称是 “Secure Shell”,即安全外壳协议。 它是一种网络协议,用于在不安全的网络中安全地进行远程登…...

电子应用设计方案87:智能AI收纳箱系统设计

智能 AI 收纳箱系统设计 一、引言 智能 AI 收纳箱系统旨在为用户提供更高效、便捷和智能的物品收纳与管理解决方案,通过融合人工智能技术和创新设计,提升用户的生活品质和物品整理效率。 二、系统概述 1. 系统目标 - 实现物品的自动分类和整理&#xf…...

BloombergGPT: A Large Language Model for Finance——面向金融领域的大语言模型

这篇文章介绍了BloombergGPT,一个专门为金融领域设计的大语言模型(LLM)。以下是文章的主要内容总结: 背景与动机: 大语言模型(如GPT-3)在多个任务上表现出色,但尚未有针对金融领域的…...

LeetCode - #180 Swift 实现连续数字查询

文章目录 摘要描述SQL 解法Swift 题解代码Swift 题解代码分析核心逻辑关键函数 示例测试及结果测试 1测试 2 时间复杂度空间复杂度总结 摘要 本文将解决如何从日志数据中找出连续出现至少三次的数字。通过 SQL 查询语句结合 Swift 数据库操作,我们将完成这一任务。…...

为什么ip属地一会河南一会江苏

在使用互联网的过程中,许多用户可能会遇到这样一个问题:自己的IP属地一会儿显示为河南,一会儿又变成了江苏。这种现象可能会让人感到困惑,甚至产生疑虑,担心自己的网络活动是否受到了某种影响。为了解答这一疑问&#…...

使用最广泛的FastAPI项目结构推荐,命名规范等

使用最广泛的FastAPI项目结构推荐,命名规范等 一、FastAPI项目结构如下:二、组件管理:使用依赖注入三、命名约定四、建议分层架构的设计五、文档和测试六、版本控制和持续集成七、环境和配置管理工具八、性能优化与权限安全 一、FastAPI项目结…...

[大模型开源]SecGPT 网络安全大模型

模型介绍 SecGPT的愿景是将人工智能技术引入网络安全领域,以提高网络防御的效率和效果。其使命是推动网络安全智能化,为社会提供更安全的数字生活环境。 ① SecGPT开源地址:https://github.com/Clouditera/secgpt② 模型地址:htt…...

android 启动页倒计时页面编写

一、需求和技术 1、实现5,4,3,2,1启动页倒计时 2、倒计时实现使用CountDownTimer 二、activity代码 public class OpenActivity extends AppCompatActivity {private Button in;@Overrideprotected void onCreate(Bundle savedInstanceState) {super.onCreate(savedInstanc…...

nuxt3路由及路由拦截

配置 nuxt3没有专门的路由配置文件,是由文件目录自动生成路由 ssr nuxt3会默认所有页面都是服务端渲染,如果需要设置某个页面不走服务端渲染,可以在nuxt.config.js中单独配置 routeRules: {/home: { ssr: false },/spa/**: { ssr: false …...

git版本管理

安装 打开 使用codeup 连接本地仓库和云仓库 找到本地存放代码的位置 单击右键打开git bash 初始化本地库 设置用户签名 显示隐藏文件夹之后才能看到,git文件夹 把这个复制下来 粘贴到bash中 拉取远程仓库的master分支: git pull origin master master分支提交和 dev 分支开…...

382M 雨晨 19045.5247 Win10PE 网络版

文件: YC10PE2025.iso(全内置网络版) 大小: 401473536 字节 修改时间: 2025年1月7日, 星期二, 18 : 40 : 50 MD5: 49E923DCEF86183A908F2D2C9BF07A23 SHA1: 56DF40393DEA9F73733B2A5693658A01F7A2F6C5 CRC32: 3A87F179 https://www.123684.com/s/zEbRVv-…...

在二维数组中列优先存放是怎么进行的

在二维数组中,列优先存放(Column-major order)是一种存储方式,其中数组的列元素在内存中是连续存放的。这意味着,对于一个二维数组 A[m][n],其中 m 是行数,n 是列数,数组的第一列的所…...

Unity【Colliders碰撞器】和【Rigibody刚体】的应用——小球反弹效果

目录 Collider 2D 定义: 类型: Rigidbody 2D 定义: 属性和行为: 运动控制: 碰撞检测: 结合使用 实用检测 延伸拓展 1、在Unity中优化Collider 2D和Rigidbody 2D的性能 2、Unity中Collider 2D…...

CES 2025:ROG打造极致游戏体验

2025年1月7日晚,备受瞩目的CES 2025 ROG新品发布会在万众期待中拉开帷幕。 作为全球领先的电竞和游戏设备制造商,ROG在此次发布会上隆重推出了多款旗舰级新品,包括旗舰专业电竞本ROG枪神9超竞系列、专业电竞本ROG枪神9系列、旗舰游戏本ROG魔霸…...

英伟达 RTX 5090 显卡赋能医疗大模型:变革、挑战与展望

一、英伟达 RTX 5090 与 RTX 4090 技术参数对比 1.1 核心架构与制程工艺 在探讨英伟达 RTX 4090 与 RTX 5090 的差异时,核心架构与制程工艺无疑是最为关键的基础要素,它们从根本上决定了两款显卡的性能上限与应用潜力。 1.1.1 核心架构差异 RTX 4090…...

Windows 11 上配置VSCode 使用 Git 和 SSH 完整步骤

在 Windows 11 上,通过 VSCode 使用 Git 和 SSH 克隆 GitHub 仓库的完整优化步骤如下: 1. 安装必备工具 下载并安装 Git: 访问 Git 官网 下载最新版本。安装时,选择以下选项: Default editor for Git: Use Visual Stud…...

[读书日志]从零开始学习Chisel 第二篇:Scala的变量与函数(敏捷硬件开发语言Chisel与数字系统设计)

第一篇https://blog.csdn.net/m0_74021449/article/details/144887921 2.2 Scala的变量及函数 2.2.1变量定义与基本类型 变量声明 变量首次定义必须使用关键字var或者val,二者的区别是val修饰的变量禁止被重新赋值,它是一个只读的变量。首次定义变量时…...

Unity:删除注册表内的项目记录

然后WinR按键输入regedit 打开注册表 在注册表 HKEY CURRENT USER—>SOFTWARE—>Unity—>UnityEditor—>DefaultCompany —>language_Test 中,删除我们的之前存储的语言环境数据。在 “ 三、文本调用和替换 ” 测试时已经将语言环境存储到注册表中了…...

【记录】东南大学研究生24-25秋季 学位英语考试

上午刚考完学位英语,感觉一般,反正就是能过,但是也不是考的特别好,在备考的过程中的一些资料也感谢很多人的分享,我这边也把24年的期末说明放一份吧 其他ppt和资料github一个大佬整理了,在这里 然后也留下…...

AI-调查研究-01-正念冥想有用吗?对健康的影响及科学指南

点一下关注吧!!!非常感谢!!持续更新!!! 🚀 AI篇持续更新中!(长期更新) 目前2025年06月05日更新到: AI炼丹日志-28 - Aud…...

java_网络服务相关_gateway_nacos_feign区别联系

1. spring-cloud-starter-gateway 作用:作为微服务架构的网关,统一入口,处理所有外部请求。 核心能力: 路由转发(基于路径、服务名等)过滤器(鉴权、限流、日志、Header 处理)支持负…...

ubuntu搭建nfs服务centos挂载访问

在Ubuntu上设置NFS服务器 在Ubuntu上,你可以使用apt包管理器来安装NFS服务器。打开终端并运行: sudo apt update sudo apt install nfs-kernel-server创建共享目录 创建一个目录用于共享,例如/shared: sudo mkdir /shared sud…...

K8S认证|CKS题库+答案| 11. AppArmor

目录 11. AppArmor 免费获取并激活 CKA_v1.31_模拟系统 题目 开始操作: 1)、切换集群 2)、切换节点 3)、切换到 apparmor 的目录 4)、执行 apparmor 策略模块 5)、修改 pod 文件 6)、…...

【人工智能】神经网络的优化器optimizer(二):Adagrad自适应学习率优化器

一.自适应梯度算法Adagrad概述 Adagrad(Adaptive Gradient Algorithm)是一种自适应学习率的优化算法,由Duchi等人在2011年提出。其核心思想是针对不同参数自动调整学习率,适合处理稀疏数据和不同参数梯度差异较大的场景。Adagrad通…...

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility 1. 实验室环境1.1 实验室环境1.2 小测试 2. The Endor System2.1 部署应用2.2 检查现有策略 3. Cilium 策略实体3.1 创建 allow-all 网络策略3.2 在 Hubble CLI 中验证网络策略源3.3 …...

Cinnamon修改面板小工具图标

Cinnamon开始菜单-CSDN博客 设置模块都是做好的,比GNOME简单得多! 在 applet.js 里增加 const Settings imports.ui.settings;this.settings new Settings.AppletSettings(this, HTYMenusonichy, instance_id); this.settings.bind(menu-icon, menu…...

镜像里切换为普通用户

如果你登录远程虚拟机默认就是 root 用户,但你不希望用 root 权限运行 ns-3(这是对的,ns3 工具会拒绝 root),你可以按以下方法创建一个 非 root 用户账号 并切换到它运行 ns-3。 一次性解决方案:创建非 roo…...

Module Federation 和 Native Federation 的比较

前言 Module Federation 是 Webpack 5 引入的微前端架构方案,允许不同独立构建的应用在运行时动态共享模块。 Native Federation 是 Angular 官方基于 Module Federation 理念实现的专为 Angular 优化的微前端方案。 概念解析 Module Federation (模块联邦) Modul…...

pikachu靶场通关笔记22-1 SQL注入05-1-insert注入(报错法)

目录 一、SQL注入 二、insert注入 三、报错型注入 四、updatexml函数 五、源码审计 六、insert渗透实战 1、渗透准备 2、获取数据库名database 3、获取表名table 4、获取列名column 5、获取字段 本系列为通过《pikachu靶场通关笔记》的SQL注入关卡(共10关&#xff0…...