当前位置: 首页 > article >正文

3.6【A】cxl.cache,mem(1,1)

协议依赖图用于定义不同协议通道之间的依赖关系阻塞条件,目标是确保系统在无循环依赖(Acyclic Dependencies)的前提下实现死锁自由(Deadlock-Free)​

  • 依赖关系:某个协议通道的操作需等待另一个通道的操作完成后才能进行。
  • 死锁自由:只要依赖图中不存在循环依赖链(A→B→C→A),系统就不会陷入永久阻塞

L2层被标记为“Host Specific”​,表示这一层的缓存依赖关系与协议实现是主机厂商自定义的**,未在CXL标准中强制规定。主机厂商可根据自身硬件架构(如CPU类型、缓存层级、互联拓扑)设计私有协议,用于管理内部缓存一致性、内存访问优化等。

核心特点

  • 厂商私有性:不同主机(如Intel、AMD、ARM)可能采用不同的协议实现。
  • 功能定位
    • 协调主机内部缓存一致性(如L1/L2/L3缓存、跨CPU插槽通信)。
    • 与CXL协议(L1=CXL.cache, L3=CXL.mem)无缝对接,确保跨设备的一致性。

  1. Intel的Ultra Path Interconnect (UPI)
    • 在多路Xeon服务器中,UPI用于CPU插槽间的高速互联,支持缓存一致性协议(如MESIF)。
    • 在CXL架构中,UPI作为“Host Specific”的L2层协议,负责管理CPU间缓存同步,再通过CXL.cache(L1)与外部设备交互。
  2. AMD的Infinity Fabric
    • 在EPYC处理器中,Infinity Fabric用于跨CCD(Core Complex Die)的一致性管理。
    • 作为“Host Specific”层,它处理本地NUMA节点的内存访问,并通过CXL.mem(L3)扩展外部内存池

L1协议层(CXL.cache)​**
  • 通道映射
    • L1-Req​ → D2H Req(设备到主机的请求通道)。
    • L1-Snp​ → H2D Req(主机到设备的侦听请求通道)。
    • L1-Rsp​ → H2D/D2H RSP & Data(双向响应与数据通道)

  • L1-Req 依赖 L1-Snp
    主机发送的读请求(如MemRDX)可能需要先通过L1-Snp通道向设备发送侦听请求(Snoop),确认设备缓存状态后,才能完成请求响应。
    例如:CPU读取设备缓存数据时,需先确认设备缓存是否为独占状态(Exclusive),避免脏数据冲突。

 L3协议层(CXL.mem)​**
  • 通道映射
    • L3-Req​ → M2S Req(主机到设备的非数据请求)。
    • L3-RwD​ → M2S RwD(主机到设备的带数据读写请求)。
    • L3-Rsp​ → S2M NDR/DRS(设备到主机的非数据响应和数据响应)。
  • 依赖关系
    L3层操作独立于L1/L2层,但需确保与底层物理通道(如CXL.io)的协作不形成循环

  • 例如在CXL.cache中,请求(Req)需等待侦听(Snp)完成,确保缓存一致性。
  • 跨协议依赖
    CXL.cache的响应(Rsp)可能依赖CXL.mem的数据传输(如设备内存访问完成)

缓存层级与侦听(Snoop)的工作机制
  • L1缓存(CXL.cache层)​
    直接与设备(如GPU、FPGA)交互,维护设备与主机之间的缓存一致性。
    • L1Snp:主机通过CXL.cache协议向设备发送侦听请求(如查询设备缓存状态或强制无效化)。
  • L2缓存(Host Specific层)​
    主机内部私有协议层,管理多CPU插槽、本地缓存(如L2/L3)之间的一致性。
    • L2Snp:主机内部跨CPU插槽或本地缓存之间的侦听请求(如多路服务器中CPU间的缓存同步)

依赖关系示例

当主机需要修改某缓存行时:

  1. L2Snp触发:主机内部协议(如Intel UPI或AMD Infinity Fabric)检测到跨插槽的缓存行需更新。
  2. 依赖L1Snp:若该缓存行可能被外部设备(如CXL GPU)缓存,需先通过L1Snp向设备发送侦听请求,确认或无效化设备缓存。
  3. 完成更新:设备确认缓存无效后,主机内部L2层才能安全更新数据,确保全局一致性。

场景:多CPU服务器与CXL设备共享内存

  1. 步骤1:CPU Socket 0尝试修改某缓存行,该行可能被GPU缓存(通过CXL.cache)。
  2. 步骤2:主机L2层触发L2Snp,通知其他CPU插槽(如Socket 1)无效化本地缓存。
  3. 步骤3:由于GPU可能缓存该数据,L2Snp需等待L1Snp完成,向GPU发送无效化请求。
  4. 步骤4:GPU确认无效化后,L2层继续处理CPU间的缓存同步,最终完成数据修改。

若跳过L1Snp直接执行L2Snp,可能导致GPU仍持有脏数据,后续读取时发生错误。

  1. L2Snp触发:主机内部协议(如Intel UPI或AMD Infinity Fabric)检测到跨插槽的缓存行需更新。
  2. 依赖L1Snp:若该缓存行可能被外部设备(如CXL GPU)缓存,需先通过L1Snp向设备发送侦听请求,确认或无效化设备缓存。
  3. 完成更新:设备确认缓存无效后,主机内部L2层才能安全更新数据,确保全局一致性。

  • 设备缓存可能持有最新数据
    在CXL架构中,设备(如GPU)可通过CXL.cache缓存主机内存。若主机内部(L2层)直接修改数据而未通知设备,会导致设备缓存持有过期数据。
  • 依赖链的作用
    L2Snp必须等待L1Snp完成,确保设备缓存已无效化或更新,再执行主机内部的一致性操作。
    例如:CPU Socket 0修改某数据前,需通过L1Snp通知GPU无效化其缓存副本,再通过L2Snp同步其他CPU插槽的缓存。

相关文章:

3.6【A】cxl.cache,mem(1,1)

协议依赖图用于定义不同协议通道之间的依赖关系和阻塞条件,目标是确保系统在无循环依赖(Acyclic Dependencies)的前提下实现死锁自由(Deadlock-Free)​。 ​依赖关系:某个协议通道的操作需等待另一个通道的…...

Linux驱动开发(1.基础创建)

序言:从高层逻辑到底层硬件的回归 在当今的软件开发中,我们习惯于用高级语言构建抽象层——通过框架、库和云服务快速实现功能。这种“软逻辑”的便利性让开发效率倍增,却也逐渐模糊了我们对计算机本质的认知:一切代码终将落地为…...

InternalError: too much recursion

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》、《前端求职突破计划》 🍚 蓝桥云课签约作者、…...

在WSL2-Ubuntu中安装CUDA12.8、cuDNN、Anaconda、Pytorch并验证安装

#记录工作 提示:整个过程最好先开启系统代理,也可以用镜像源,确保有官方发布的最新特性和官方库的完整和兼容性支持。 期间下载会特别慢,需要在系统上先开启代理,然后WSL设置里打开网络模式“Mirrored”,以设置WSL自动…...

LLM论文笔记 19: On Limitations of the Transformer Architecture

Arxiv日期:2024.2.26机构:Columbia University / Google 关键词 Transformer架构幻觉问题数学谜题 核心结论 1. Transformer 无法可靠地计算函数组合问题 2. Transformer 的计算能力受限于信息瓶颈 3. CoT 可以减少 Transformer 计算错误的概率&#x…...

基于51单片机的智能水箱控制系统proteus仿真

地址:https://pan.baidu.com/s/1zgG90VB5TEA05O2ZkKC3CA 提取码:1234 仿真图: 芯片/模块的特点: AT89C52/AT89C51简介: AT89C52/AT89C51是一款经典的8位单片机,是意法半导体(STMicroelectroni…...

Process-based Self-Rewarding Language Models 论文简介

基于过程的自奖励语言模型:LLM优化的新范式 引言 大型语言模型(LLM)在多种任务中展现出了强大的能力,尤其是在使用人工标注的偏好数据进行训练时。然而,传统的自奖励范式在数学推理任务中存在局限性,甚至…...

虚拟系统实验

实验拓扑 启动虚拟系统 [FW]vsys enable 配置资源类 先查看 配置 创建虚拟系统 [USG6000V1]vsys name vsysa 绑定资源类 [USG6000V1-vsys-vsysa]assign resource-class r1 将接口划入虚拟系统 [USG6000V1-vsys-vsysa]assign interface GigabitEthernet 1/0/1 公共接口 --- 勾…...

mybatis报错org/apache/commons/lang3/tuple/Pair] with root cause

mybatis一对多查询配置resultMap映射报错org/apache/commons/lang3/tuple/Pair] with root cause 原因是mybatis依赖common-lang3这个包, 只需要添加common-lang3的依赖坐标即可: <dependency><groupId>org.apache.commons</groupId><artifactId>comm…...

V90伺服电机初调试

分配设备IP地址 打开博途&#xff0c;将IP地址分配给对应伺服 打开V-ASSISTANT软件&#xff0c;刷新后读取硬件。VASSISTANT软件选择指定伺服&#xff0c;点击设备调试&#xff0c; 在控制模式选项中选择基本定位器控制&#xff08;EPOS&#xff09; 在设置PROFINET-选择报文页…...

Air780EPM:SIM 卡接口设计指导来啦~

在数字化浪潮中&#xff0c;SIM卡作为通信设备的“身份证”&#xff0c;早已成为人们生活中不可或缺的存在。 以下详细阐述了SIM卡接口如何通过读取卡片信息完成4G网络鉴权&#xff0c;并支持双卡切换功能&#xff0c;使设备能够灵活选择最优网络。这种看似简单的机制&#xf…...

DNS云解析有什么独特之处?

在数字化浪潮中&#xff0c;每一次网页点击、视频加载或在线交易背后&#xff0c;都依赖着域名系统&#xff08;DNS&#xff09;的高效运转。传统DNS架构的局限性&#xff08;如单点故障、延迟高、安全脆弱&#xff09;在云计算时代被彻底颠覆&#xff0c;DNS云解析作为新一代解…...

VMware Workstation安装rocky9.5虚拟机

1、在镜像源网站中下载rocky镜像源&#xff0c;下载dvd版&#xff08;图像&#xff0c;软件全部都有&#xff0c;其他版本还需下载图像&#xff09;&#xff0c;这里我使用的镜像源网站是ubuntu-releases安装包下载_开源镜像站-阿里云 2、找到isos&#xff1a; 3、找x86_64/ 4、…...

stack,queue与deque

一.模拟实现stack和queue STL中的stac和queuek是通过容器适配器来实现的&#xff0c;并不是直接实现栈。那什么是容器适配器呢&#xff1f; 举一个简单的例子&#xff0c;不同的插座需要不同的插头来连接&#xff0c;这时候我们用一个插座适配器&#xff0c;我们就不需要关心…...

Git清理本地残留的、但已经在服务器上被删除的分支

要筛选出已经被服务器删除的本地分支&#xff0c;并在本地删除这些分支&#xff0c;可以按照以下步骤进行操作&#xff1a; 步骤 1: 获取远程分支信息&#xff0c;确保本地的远程分支信息是最新的&#xff1a; git fetch -p步骤 2: 列出本地分支和远程分支&#xff1a; git …...

概念|RabbitMQ 消息生命周期 待消费的消息和待应答的消息有什么区别

目录 消息生命周期 一、消息创建与发布阶段 二、消息路由与存储阶段 三、消息存活与过期阶段 四、消息投递与消费阶段 五、消息生命周期终止 关键配置建议 待消费的消息和待应答的消息 一、待消费的消息&#xff08;Unconsumed Messages&#xff09; 二、待应答的消息…...

【c++】时间复杂度与数据规模的对应关系

一、时间复杂度与数据规模的对应关系 &#xff08;以单核CPU每秒处理 (10^6) 次操作为基准&#xff09; 数据规模(n)可接受的时间复杂度最大操作次数估算适用算法示例≤ (10^2)O(n)、O(2ⁿ)≤ 1,000,000暴力搜索、全排列枚举≤ (10^4)O(n)、O(n log n)≤ (10^8)冒泡排序、Flo…...

多模态知识图谱融合

1.Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey 1.1多模态实体对齐 1.2多模态实体链接 研究进展&#...

虚拟机配置nat上网

参考&#xff1a; https://www.jb51.net/server/33323640v.htm https://blog.csdn.net/m0_61560049/article/details/131502564 通过命令修改网络参数&#xff1a; sudo ifconfig eth0 192.168.1.100 netmask 255.255.255.0 sudo route add default gw 192.168.1.1 eth0 通过…...

多宠识别:基于计算机视觉的智能宠物管理系统架构解析

一、行业痛点与技术方案演进 在多宠家庭场景中&#xff0c;传统方案面临三大技术瓶颈&#xff1a; 1. 生物特征混淆&#xff1a;同品种/毛色宠物识别准确率低于65% 2. 动态场景适应&#xff1a;进食/奔跑状态下的误检率达30% 3. 数据孤岛问题&#xff1a;离线设备无法实现持续…...

蓝桥杯-15届研究生组-A 劲舞团

思路和时间复杂度 思路&#xff1a;签到模拟题&#xff0c;但是思路也很重要&#xff0c;在K的重新赋值时&#xff0c;卡了一下&#xff0c;在不满足时间条件时&#xff0c;应该重置为1时间复杂度&#xff1a; 代码 #include <iostream> #include<cmath>…...

不小心更改了/etc权限为777导致sudo,ssh等软件都无法使用

修复流程 一、进入恢复模式&#xff08;无网络或无法登录时必选&#xff09; 1.重启系统&#xff0c;在 GRUB 启动菜单选择 Recovery Mode&#xff08;按 Shift 或 Esc 呼出菜单&#xff09;。2.以 root 身份挂载为可读写&#xff1a; bash 复制 mount -o remount,rw /确保文…...

最长重复子数组、最长公共子序列、判断子序列

20250307 题目区别dp数组含义的区别dp数组状态转移方程 代码随想录&#xff1a; 最长重复子数组 最长公共子序列 判断子序列 题目区别 最长重复子数组&#xff08;连续&#xff09;&#xff1a; 最长公共子序列&#xff08;不连续&#xff09;&#xff1a; 判断子序列 dp数…...

【数据分析】转录组基因表达的KEGG通路富集分析教程

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍差异分析(limma)KEGG富集分析(enrichKEGG)可视化加载R包数据下载导入数据基因差异分析火山图KEGG通路富集分析可视化通路结果另一个案例总结系统信息参考介绍 KEGG富集分析,可…...

SpringBoot - 用责任链模式实现业务编排

文章目录 前因责任链&#xff1a;像工作台一样组织代码CodeSEQ3.1 定义处理器规范3.2 实现具体处理器3.3 共享上下文3.4 组装责任链 适用场景优势 前因 2000多行的业务逻辑里&#xff0c;各种校验规则、促销计算、库存操作像意大利面条一样缠绕在一起。最要命的是这样的代码结…...

Ubuntu 下 nginx-1.24.0 源码分析 - ngx_init_cycle 函数

声明在 src/core/ngx_cycle.h ngx_cycle_t *ngx_init_cycle(ngx_cycle_t *old_cycle);实现在 src/core/ngx_cycle.c ngx_cycle_t * ngx_init_cycle(ngx_cycle_t *old_cycle) {void *rv;char **senv;ngx_uint_t i, n;ngx_log_t …...

Vue 使用 vue-router 时,多级嵌套路由缓存问题处理

Vue 使用 vue-router 时&#xff0c;多级嵌套路由缓存问题处理 对于三级菜单&#xff08;或多级嵌套路由&#xff09;&#xff0c;vue 都是 通过 keep-alive 组件来实现路由组件的缓存。 有时候三级或者多级路由时&#xff0c;会出现失效情况。以下是三级菜单缓存的例子。 最…...

ResNet 改进:轻量级的混合本地信道注意机制MLCA

目录 1. MLCA注意力机制 2. 改进位置 3. 完整代码 Tips:融入模块后的网络经过测试,可以直接使用,设置好输入和输出的图片维度即可 1. MLCA注意力机制 MLCA(Mixed Local Channel Attention)是一种轻量级的混合本地信道注意机制,旨在提升卷积神经网络(CNN)在图像处理…...

【第22节】C++设计模式(行为模式)-Iterator(迭代器)模式

一、问题背景 Iterator 模式是设计模式中最为常见和实用的模式之一。它的核心思想是将对聚合对象的遍历操作封装到一个独立的类中&#xff0c;从而避免暴露聚合对象的内部表示。通过 Iterator 模式&#xff0c;我们可以实现对聚合对象的统一遍历接口&#xff0c;而不需要关心聚…...

FreeRTOS第15篇:FreeRTOS链表实现细节03_List_t与ListItem_t的奥秘

文/指尖动听知识库-星愿 文章为付费内容,商业行为,禁止私自转载及抄袭,违者必究!!! 文章专栏:深入FreeRTOS内核:从原理到实战的嵌入式开发指南 1 FreeRTOS列表的核心数据结构 FreeRTOS的列表实现由两个关键结构体组成:List_t(列表)和ListItem_t(列表项)。它们共同…...