当前位置: 首页 > article >正文

RISC-V 基金会 Data Center SIG 第八次会议圆满结束,围绕AIOE和TG推进展开

一直以来龙蜥社区在 RISC-V 生态建设中持续投入并积极贡献上游社区。RISC-V International Data Center SIG 第八次会议内容见下Atomic I/O EnqueueAIOE 扩展提案 v4 提案评审RISC-V International Data Center SIG 近期召开线上双周例会本次会议在完成例行的社区协作、反垄断与出口管制等合规提示后进入技术讨论环节与会者集中评审 Atomic I/O EnqueueAIOE / Atomic IONQ扩展提案 v4。来自 Inria、Qualcomm、阿里巴巴等机构的代表参会并确认讨论细节。从异构加速到共享列队AIOE 要解决“64 字节原子入队”这一关键缺口本次继续围绕 AIOE v4 展开讨论郭任介绍随着异构编程与加速器在数据中心场景的普及业界逐步形成一种趋势通过 64 字节512-bit的原子 I/O 入队操作将命令/描述符以单次原子写入的方式发送至设备侧的 Device Shared Work Queue共享工作队列也即常见的 enqueue 操作。这类 enqueue 操作通常基于互连上的 deferable/deliverable write 事务语义并结合 PASIDProcess Address Space ID 区分不同地址空间。郭任指出主流互连协议PCIe、以及其他主流互连规范与主流架构x86 的 ENQCMD、Arm 的相关指令已经在该方向给出支持RISC-V 若要在数据中心场景对齐这一趋势需要在 ISA 层补齐相应原语。据介绍本提案拟为 RISC-V ISA 引入一套 AIOE 扩展能力整体包括1 个 PMA 定义、2 条指令以及 4 个 CSR用于支撑跨互连的 64B 原子入队与虚拟化控制。v4 提案更新删除 32B 指令与部分 CSR/控制位聚焦更清晰的最小集合在版本演进方面郭任表示 v4 相比前一版本进行了“瘦身”移除了 32-byte 指令路径以及部分字段/CSR 编码与控制位设计使指令语义与控制面更聚焦便于后续标准化推进与实现落地。指令设计UINQ 与 SENQ 两条 64B 原子入队指令本次评审的核心之一是两条 64B 原子入队指令的语义与使用边界UINQUser enqueue面向用户态的 512-bit 原子 I/O enqueue 指令从 8 个连续通用寄存器中取数拼成 64B 数据并发出执行后在 RD 返回互连侧的状态码0 表示成功其他值表示失败/不支持/自定义错误等。提案要求寄存器起始编号为偶数索引便于潜在微架构优化。对齐要求为 64B对非 AIOE PMA 允许的地址访问将触发相应 fault。SENQSupervisor enqueue特权态版本的 512-bit 原子 enqueue 指令语义与 UINQ 类似但执行权限受限于 S/HS/M 等模式并通过虚拟化控制位决定是否允许在 VS/VU 等虚拟化场景执行不允许时触发 virtual instruction exception。会议中还展示了 C/内联汇编层面的用法示例先将 64B 数据装载到 8 个连续寄存器再执行 enqueue 指令发出命令并读取返回状态。AIOE PMA用“物理内存属性”限定可发出 deferable write 的地址区域为避免任意内存地址都能触发这类互连事务提案定义了新的 AIOE PMAAtomic I/O Enqueue Physical Memory Attribute只有标注该 PMA 的地址区域UINQ/SENQ 才能发出 deliverable/deferable write否则触发 store access fault。郭任特别提到 PCIe BAR 的场景由于 BAR 既可能呈现为 memory/IO 等不同语义提案建议通过 PMA 方式对 BAR 区域进行标注并由 endpoint 设备能力保证其支持所需的事务类型与对齐约束从而降低“高特权信息泄露”等风险。虚拟化控制HAIOE、SPID 与 VMID/PID 附加以及 vPASID→PASID 映射辅助围绕虚拟化场景提案引入/强化了若干 CSR 控制机制HAIOEHypervisor CSR用于控制 SENQ 在 VS 等虚拟化模式下的可执行性以及是否允许 VS 访问 SPID 等关键 CSR。新增的 VMID/PID 附加能力v4会议中口述为更新版本加入一个控制位可使 SENQ 发出的 64B 数据中低位字段携带 VMID 与 PID通过 HEGATP 的 VMID 与 SPID 的 PID 组合以适配更复杂的虚拟化/路由场景郭任提到与 IOMMU 的某些“虚拟命令队列”设想相关后续可单独开会讨论。HPID/HPID mask新增用于 vPASID→PASID或虚拟 PID→真实 PID映射的辅助 CSR 机制支持为虚拟机划分 PID 区间、降低软件陷入路径成本属于实现可选但对效率友好的设计方向。会议小结及后续后续 Data Center SIG 将继续在邮件列表与例会中推进 AIOE 提案的文本完善与共识凝聚并与此前正在筹备的 “Device Shared Work Queue” 场景化推进路径保持衔接进一步面向数据中心异构加速与虚拟化需求补齐 RISC-V 的 ISA 与系统能力。相关阅读推荐玄铁 C950 发布龙蜥社区加速 RISC-V 云计算落地RISC-V 基金会 Data Center SIG 第七次会议圆满结束研讨硬件加速机制Anolis OS 23.4 发布全面支持 RVA23 RISC-V 架构强化安全与云原生生态—— 完 ——

相关文章:

RISC-V 基金会 Data Center SIG 第八次会议圆满结束,围绕AIOE和TG推进展开

一直以来,龙蜥社区在 RISC-V 生态建设中持续投入,并积极贡献上游社区。RISC-V International Data Center SIG 第八次会议内容见下: Atomic I/O Enqueue(AIOE )扩展提案 v4 提案评审 RISC-V International Data Cent…...

5个专业级步骤:NVIDIA Profile Inspector开源工具的显卡性能优化指南

5个专业级步骤:NVIDIA Profile Inspector开源工具的显卡性能优化指南 【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector NVIDIA Profile Inspector是一款免费开源的显卡配置工具,能…...

PyTorch 2.8镜像实战:新闻媒体机构AI短视频批量生成与审核系统部署

PyTorch 2.8镜像实战:新闻媒体机构AI短视频批量生成与审核系统部署 1. 项目背景与需求分析 新闻媒体机构每天需要处理大量视频内容,传统视频制作流程面临三大挑战: 时效性压力:突发新闻需要快速生成视频报道人力成本高&#xf…...

立创庐山派K230双系统实战:基于Linux+RT-Smart SDK的RTL8189FTV WiFi模块配网与脚本自动化

1. 立创庐山派K230开发板与双系统环境简介 第一次拿到立创庐山派K230开发板时,我就被它独特的双系统架构吸引了。这款开发板采用了LinuxRT-Smart的双系统设计,既能享受Linux丰富的软件生态,又能利用RT-Smart实时系统的优势。在实际项目中&am…...

OpenClaw 微信通道配置与部署速查

一、前置核查(必做)版本适配微信:iOS≥8.0.70、安卓≥8.0.69,未达标则更新至最新版。OpenClaw:需为最新稳定版,执行openclaw --version验证,异常则重新获取部署包。环境与权限网络:开…...

FLUX.1-dev旗舰版画质巅峰:多组高清AI绘画作品效果对比

FLUX.1-dev旗舰版画质巅峰:多组高清AI绘画作品效果对比 1. 光影质感革命:FLUX.1-dev的视觉突破 当第一次看到FLUX.1-dev生成的图像时,大多数人都会产生同一个疑问:这真的是AI画的吗?作为当前开源界最强的Text-to-Ima…...

Qwen3-ForcedAligner-0.6B真实效果:实时录音场景下口音适应与断句准确性展示

Qwen3-ForcedAligner-0.6B真实效果:实时录音场景下口音适应与断句准确性展示 1. 项目概述 Qwen3-ForcedAligner-0.6B是阿里巴巴基于Qwen3-ASR-1.7B和ForcedAligner-0.6B双模型架构开发的本地智能语音转录工具。这个工具最大的特点是能够在完全离线的环境下&#x…...

比迪丽模型Python安装全指南:从环境配置到第一个艺术生成

比迪丽模型Python安装全指南:从环境配置到第一个艺术生成 1. 开篇:为什么选择比迪丽模型? 如果你对AI绘画感兴趣,可能已经听说过比迪丽模型。这是一个强大的文本生成图像模型,能够根据你的文字描述创作出令人惊艳的艺…...

2026年全域聚合支付前景如何?一文揭秘!

在数字经济蓬勃发展的当下,全域聚合支付作为支付领域的重要创新模式,正深刻改变着我们的生活和商业运营方式。那么,2026年全域聚合支付的前景究竟怎样呢?让我们以财联支付为例,来深入探究一番。一、市场需求持续增长&a…...

SGLang-v0.5.6应用:快速搭建智能客服对话系统

SGLang-v0.5.6应用:快速搭建智能客服对话系统 1. 引言 在当今企业数字化转型浪潮中,智能客服系统已成为提升服务效率和用户体验的关键工具。传统客服系统面临人力成本高、响应速度慢、服务时间受限等痛点,而基于大语言模型的智能客服解决方…...

制造业企业怎样用好数据智能?聚焦排产、质检与能耗三大场景

过去,某电池工厂的生产计划员每周一都要花两天时间,手动协调数十台设备、上百种物料和几十个订单。稍有变动,整个排产表就要推倒重来。如今,同样的工厂,排产效率提升了600%,周计划达成率稳定在99%以上。这种…...

CYBER-VISION零号协议C盘清理逻辑分析与智能建议生成

CYBER-VISION零号协议C盘清理逻辑分析与智能建议生成 每次看到C盘飘红,是不是都感觉一阵心慌?赶紧打开各种清理工具一顿猛扫,结果要么是清理不彻底,要么是误删了重要文件,系统直接罢工。这种“盲扫”式的清理&#xf…...

主构造函数在ASP.NET Core Minimal API中的秘密用法,5行代码实现自动验证绑定——却被官方文档刻意省略

第一章:主构造函数在Minimal API中的颠覆性登场在 .NET 8 中,Minimal API 的演进迎来关键转折点:主构造函数(Primary Constructor)正式成为定义端点处理器的首选语法范式。它将依赖注入、参数绑定与逻辑封装三者统一于…...

AI 时代新人击穿资深壁垒:专家思维 + 实战案例

一位技术观察者对「一维→二维→三维」成长框架的重新论断 引言:我为什么坚信"经验正在贬值,抽象永远升值" 作为 用维度概念来定义初级、中级、高级程序员 后续文章,我觉得这正是时候,之前所说的初中级概念正在模糊&am…...

3分钟解锁音乐自由:NCMconverter让你的加密音乐随处播放

3分钟解锁音乐自由:NCMconverter让你的加密音乐随处播放 【免费下载链接】NCMconverter NCMconverter将ncm文件转换为mp3或者flac文件 项目地址: https://gitcode.com/gh_mirrors/nc/NCMconverter 你是否曾遇到过这样的情况:从音乐平台下载了喜欢…...

【.NET 9 + CUDA 12.4 + TensorRT 10.2联合推理】:单GPU吞吐达142 tokens/sec,附可复现Benchmark数据集

第一章:.NET 9 AI 推理技术演进与联合推理范式.NET 9 将原生 AI 推理能力深度集成至运行时层,首次在 BCL(Base Class Library)中引入 Microsoft.ML.OnnxRuntime.Managed 的轻量级封装与 System.AI 命名空间,支持 ONNX、…...

2026 全新利器!餐饮零售实体门店督导的三款法宝,巡店稽查与整改追踪全搞定

在餐饮和零售行业担任督导的人员,每日都被工作压得喘不过气来。巡店、检查、整改、培训等任务接连不断,忙得不可开交。而且,他们常常会遭遇一些令人头疼的状况:总部制定的标准,到了门店执行起来就走样;上午…...

Linux硬盘分区管理

硬盘分区管理 大容量的硬盘,分区使用:C盘系统盘,D盘办公,E盘娱乐。 类似于:买了一个房子100平方,隔断:主卧、次卧1、次卧2、厨房、卫生间。识别硬盘设备接口类型设备命名示例说明SATA/SAS/USB/S…...

3步快速完成NCM文件转换:免费音频解密工具终极指南

3步快速完成NCM文件转换:免费音频解密工具终极指南 【免费下载链接】NCMconverter NCMconverter将ncm文件转换为mp3或者flac文件 项目地址: https://gitcode.com/gh_mirrors/nc/NCMconverter 你是否遇到过下载的音乐只能在特定平台播放的困扰?NCM…...

Unity基础:材质Material与Shader的基础关联用法

Unity基础:材质Material与Shader的基础关联用法📚 本章学习目标:深入理解材质Material与Shader的基础关联用法的核心概念与实践方法,掌握关键技术要点,了解实际应用场景与最佳实践。本文属于《Unity工程师成长之路教程…...

5个AI Skill实测:影视内容创作全流程自动化

为什么AI助手的能力上限取决于你装了什么Skill养虾必装的5个Skill,影视博主效率翻倍你的小龙虾(OpenClaw/CodeBuddy/Windsurf)装了几个Skill?很多人养虾只用来写代码、查资料,但其实用小龙虾做内容创作、数据分析、批量…...

“监测-识别-预警-固证”闭环:解码新浪舆情通如何破解直播舆情监测预警难题

“监测-识别-预警-固证”闭环:解码新浪舆情通如何破解直播舆情监测预警难题在直播业态蓬勃发展的今天,直播带货、线上发布会、重大活动直播已成为信息传播的重要形式,其强大的即时传播力与广泛影响力,也对舆情监测预警工作提出了前…...

Git多Gitee账号独立管理方案(单电脑双项目场景)

Git多Gitee账号独立管理方案(单电脑双项目场景) 一、适用场景描述 版本控制:Gitee/GitHub/GitLab都可。 本文以Gitee为例。 在日常开发工作中,很多开发者会遇到同一台电脑,需要管理两个不同Gitee账号,分别对应两个独立项目的场景,具体场景如下: 个人开发项目与公司工…...

《东方星动》“一路有你”公益行走进云南宾川县上沧完小

春风送暖,爱意流淌。4月3日,云南省大理白族自治州宾川县上沧完小校园内,一场以“爱心筑梦情暖校园”为主题的捐赠仪式温暖举行。这是《东方星动》“一路有你”公益行团队继湖南平江之后,再次跨越千里,将艺术的种子播撒…...

zk(zookeeper)的选举机制

zk中有两种角色:Leader 和 Fllower,Leader是集群各台电脑投票选举出来的。事务【非常重要】:一通操作,要么同时成立,要么都不成立。LeaderZookeeper 集群工作的核心。1.事务请求(写操作)的唯一调…...

保姆级教学:雯雯的后宫-造相Z-Image瑜伽女孩模型环境搭建与调用

保姆级教学:雯雯的后宫-造相Z-Image瑜伽女孩模型环境搭建与调用 1. 引言 想自己动手搭建一个能生成专属瑜伽女孩图片的AI服务吗?今天,我就带你从零开始,一步步完成“雯雯的后宫-造相Z-Image-瑜伽女孩”模型的完整环境搭建和调用…...

构建企业级 AI 工作流:基于 OpenClaw 接入纯血 Claude Opus 4.6 实战指南

构建企业级 AI 工作流:基于 OpenClaw 接入纯血 Claude Opus 4.6 实战指南 文章目录构建企业级 AI 工作流:基于 OpenClaw 接入纯血 Claude Opus 4.6 实战指南一、 为什么在生产环境死磕顶级大模型?二、 Claude Opus 4.6 核心能力与底层原理漫谈…...

Redis持久化:从AOF到RDB,如何实现数据不丢失?共

Qt是一个跨平台C图形界面开发库,利用Qt可以快速开发跨平台窗体应用程序,在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置,实现图形化开发极大的方便了开发效率,本笔记将重点介绍QSpinBox数值微调组件的常用方法及灵活应用。…...

“为什么我的Burst编译不生效?”:Unity官方未文档化的5类[AlwaysInline]失效场景及3步诊断法(含IL2CPP符号表验证脚本)

第一章:Burst编译失效问题的典型现象与认知误区Burst编译器是Unity DOTS生态中关键的高性能代码生成组件,但开发者常在构建过程中遭遇“静默失效”——即Burst未实际编译C# Job代码,却无报错提示,导致性能严重退化。该问题最典型的…...

C# 13不安全代码审计清单:7项Roslyn Analyzer新规+4类CI/CD拦截阈值配置(附GHA自动化检测脚本)

第一章:C# 13不安全代码管控配置概览C# 13延续了对内存安全的高度重视,在默认启用/unsafe-(即禁用不安全上下文)的前提下,将不安全代码的启用明确纳入项目级显式管控范畴。开发者必须主动声明许可,并通过多…...