当前位置: 首页 > article >正文

算力 GPU 驱动实战总结:SVM Eviction Fence 设计思想与实现细节

1. 问题背景1.1 STALE _mapcount 问题在 VRAM 超量分配overcommit场景下当 GPU VRAM 被占满时TTM 内存管理器需要驱逐evict旧的 BO 来为新的分配腾出空间。问题对于 SVMShared Virtual Memory的 BO其 VRAM 背后关联着 ZONE_DEVICE 页面struct page这些页面通过dev_pagemap机制映射到用户进程的页表中。如果 TTM 直接释放 VRAM 资源而不先将这些页面迁移回系统内存被释放的 VRAM PFN 会被新的 BO 复用导致新分配的struct page发现_mapcount不是预期的 -1STALE 状态引发内核告警zone_device_page_init: STALE _mapcount0 on pfn0x3ffffdc00 (expected -1)1.2 根因普通 BO 的驱逐VRAM → GTT只是移动 TTM 管理的内存资源不涉及struct page状态。但 SVM BO 的 VRAM 与 ZONE_DEVICE 页面绑定——页面的_mapcount、PTE 映射等状态都挂在这些 PFN 上。TTM 不了解 ZONE_DEVICE 页面的存在直接丢弃 VRAM 资源会留下悬空的页面状态。2. 解决方案概述2.1 核心思想在 SVM BO 的dma_resvreservation object上附加一个eviction fence驱逐围栏。利用 dma_fence 的enable_signaling机制在 TTM 真正驱逐前先将 ZONE_DEVICE 页面安全迁移回系统内存然后才允许 TTM 丢弃空的 VRAM 资源。2.2 两个关键配合机制作用Eviction Fence挡在 TTM 驱逐路径上触发迁移工作并延迟驱逐直到迁移完成DISCARDABLE 标志告诉 TTM驱逐时不要搬到 GTT直接丢弃 VRAM 资源因为数据已经由 fence worker 迁移到了系统内存3. 原理详解3.1 dma_fence 的 enable_signaling 机制dma_fence框架提供了一个关键回调enable_signaling当某个消费者如 TTM首次需要等待一个 fence 时框架调用enable_signaling这个回调的设计意图是告诉 fence 的生产者有人在等你了请安排 signal我们利用这个时机调度迁移工作TTM 要驱逐 BO → 发现 BO 的 dma_resv 上有一个未 signaled 的 fence → 调用 dma_fence_enable_sw_signaling() → 触发我们的 enable_signaling 回调 → 回调中调度异步工作项work item → TTM 阻塞等待 fence signal3.2 DISCARDABLE 的含义普通 BO 被 TTM 驱逐时TTM 会将数据从 VRAM 搬到 GTT系统内存中的 GPU 可访问区域。但 SVM BO 不需要这个行为SVM 页面通过 HMM/drm_pagemap 机制管理数据迁移由 eviction worker 通过 SDMA 完成迁移完成后 VRAM 的数据可直接丢弃设置 DISCARDABLE 后TTM 驱逐时直接num_placement 0丢弃 VRAM 资源即可3.3 Eviction Worker 的迁移原理Worker 使用hmm_range_fault(dev_private_ownerNULL)来触发页面迁移dev_private_owner参数的含义hmm_range_fault遍历虚拟地址范围内的每个页面遇到 device-private 页面时比较dev_private_owner与page-pgmap-owner若相同认为是自己的页面直接返回 PFN正常 GPU fault 路径使用这个若不同包括 NULL认为是外部的页面触发migrate_to_ram回调设置dev_private_owner NULL确保所有 device-private 页面都会被迁移回 RAM。迁移通过dev_pagemap框架的migrate_to_ram回调完成hmm_range_fault(ownerNULL) → 遇到 device-private page → 调用 page-pgmap-ops-migrate_to_ram() → drm_pagemap 框架处理迁移流程 → 最终调用 copy_to_ram 回调SDMA 将 VRAM 数据拷贝到系统内存 → 页面状态更新PTE 指向系统内存ZONE_DEVICE 页面被正确释放3.4 临时 MMU Interval Notifierhmm_range_fault()API 要求调用者提供一个mmu_interval_notifier用于序列号机制mmu_interval_read_begin()返回的序列号用于检测 hmm_range_fault 执行期间是否有并发的页表修改失效通知当虚拟地址范围内的页表发生变化时通知注册者Eviction worker 注册一个临时的notifier仅在迁移期间存在。其invalidate回调是空操作返回 true因为这是一次性迁移不需要跟踪后续失效事件。迁移完成后立即移除。4. 完整驱逐流程4.1 阶段一BO 创建时的准备BO 分配时完成以下准备创建 eviction fence记录进程地址空间mm和虚拟地址范围[start, end)创建 VRAM BO设置DISCARDABLE标志将 fence 附加到 BO 的dma_resv上此时 fence 处于unsignaled状态静静地挂在 BO 上等待。4.2 阶段二TTM 驱逐触发当 TTM 需要腾出 VRAM 时TTM 选中某个 SVM BO 进行驱逐发现DISCARDABLE标志设置num_placement 0丢弃模式等待 BO 的dma_resv上的 fences触发 eviction fence 的enable_signalingenable_signaling调度 eviction workerTTM 阻塞等待 fence signal4.3 阶段三Worker 执行迁移Worker 在异步工作线程中执行检查进程是否还存活mmget_not_zero若已退出则跳过迁移注册临时mmu_interval_notifier调用hmm_range_fault(ownerNULL)迁移所有 device-private 页面清理临时 notifier释放 mm 引用Signal fence— 通知 TTM 可以继续4.4 阶段四TTM 完成驱逐收到 fence signal此时所有 ZONE_DEVICE 页面已安全迁移回 RAM丢弃空的 VRAM 资源num_placement 0VRAM 空间归还给 buddy allocator可供新分配使用5. 生命周期管理5.1 Fence 引用计数Fence 的引用来自三方持有者获取时机释放时机svm_bo创建时所有页面迁移回 RAM 后框架回调释放BO 的dma_resv附加到 resv 时TTM 驱逐完成后 resv 清理Workerenable_signaling时获取引用Worker 完成后释放引用Fence 引用归零后释放mm引用mmdropRCU 延迟释放 fence 内存。6. 错误处理原则核心原则无论成功还是失败必须 signal fence。如果不 signalTTM 会永远等待导致整个 GPU 内存管理挂起。场景处理进程已退出跳过迁移直接 signal内存分配失败记录告警直接 signalhmm_range_fault返回-EBUSY重试并发修改导致hmm_range_fault超时或其他错误记录告警直接 signal7. 时序图TTM Fence Worker drm_pagemap │ │ │ │ │ evict BO │ │ │ │──wait on fence────── │ │ │ │ │ enable_signaling │ │ │ │─────────────────────│ │ │ │ schedule_work │ │ │ (blocked) │ │ │ │ │ │ mmget_not_zero │ │ │ │ notifier_insert │ │ │ │ │ │ │ │ hmm_range_fault ───│ │ │ │ (ownerNULL) │ │ │ │ │ migrate_to_ram │ │ │ │ SDMA: VRAM→RAM │ │ │ │ 页面状态更新 │ │ │─────────────────────│ │ │ │ │ │ │ │ notifier_remove │ │ │ │ mmput │ │ │ signal │ │ │ │─────────────────────│ │ │ │ fence_put │ │ │ fence signaled │ │ │ │──────────────────────│ │ │ │ │ │ │ │ discard VRAM resource│ │ │ │ (VRAM 已空, 安全丢弃) │ │ │ ▼ ▼ ▼ ▼

相关文章:

算力 GPU 驱动实战总结:SVM Eviction Fence 设计思想与实现细节

1. 问题背景 1.1 STALE _mapcount 问题 在 VRAM 超量分配(overcommit)场景下,当 GPU VRAM 被占满时,TTM 内存管理器需要驱逐(evict)旧的 BO 来为新的分配腾出空间。 问题:对于 SVM(S…...

Qt程序在麒麟系统发布:除了.desktop文件,你还需要知道的3种打包方案(含AppImage实战)

Qt程序在麒麟系统发布:除了.desktop文件,你还需要知道的3种打包方案(含AppImage实战) 在国产操作系统生态快速发展的今天,银河麒麟(Kylin)系统作为主流国产OS之一,正吸引着越来越多…...

深入剖析 Android 系统属性:从 build.prop 到 Selinux 安全机制

1. Android系统属性基础入门 第一次接触Android系统属性时,我也被各种.prop文件和复杂的配置搞得一头雾水。经过多年实战,我发现理解属性系统其实有个简单的方法 - 把它想象成Windows的注册表。就像注册表存储着Windows的配置信息一样,Androi…...

Linux网络编程核心API速查手册喊

智能体时代的代码范式转移与 C# 的战略转型 传统的 C# 开发模式,即所谓的“工程导向型”开发,要求开发者创建一个复杂的项目结构,包括项目文件(.csproj)、解决方案文件(.sln)、属性设置以及依赖…...

【万字文档+源码】基于springboot与vue海鲜市场系统-计算机项目设计学习

基于springboot与vue海鲜市场系统1.项目简介 管理员的功能是对用户和商家的信息进行监管,使得管理员能够管理用户、商家、海鲜分类等,并可以对这些进行修改和删除等来保证系统的整体运行。 用户的功能有可以去浏览系统首页和商品的信息,查看…...

多租户下的ERP系统的仓储管理模块分析设计轿

springboot自动配置 自动配置了大量组件,配置信息可以在application.properties文件中修改。 当添加了特定的Starter POM后,springboot会根据类路径上的jar包来自动配置bean(比如:springboot发现类路径上的MyBatis相关类&#xff…...

详细解析Spring如何解决循环依赖问题地

AI训练存储选型的演进路线 第一阶段:单机直连时代 早期的深度学习数据集较小,模型训练通常在单台服务器或单张GPU卡上完成。此时直接将数据存储在训练机器的本地NVMe SSD/HDD上。 其优势在于IO延迟最低,吞吐量极高,也就是“数据离…...

windows/linux安装NVIDIA驱动(cuda加速)

目录 1、windwos安装 2、linux安装NVIDIA驱动(cuda加速) (1)检测是否有NVIDIA显卡 (2)驱动安装 1、windwos安装 https://www.nvidia.cn/geforce/drivers/https://www.nvidia.cn/geforce/drivers/ 2、l…...

别再只用CardView做卡片了!解锁Android Material Design中CardView的5个隐藏用法与实战技巧

解锁Android CardView的5个高阶玩法:从交互动画到性能调优 在Material Design的世界里,CardView早已超越了简单的阴影和圆角容器角色。当大多数开发者还在用基础属性构建静态卡片时,真正的高手已经在探索这些隐藏能力:如何让卡片像…...

别再被mmcv和mmseg升级搞崩溃了!手把手教你从1.x平滑迁移到2.x(附完整API对照表)

从MMSegmentation 1.x到2.x的无痛迁移指南:架构变革与API重构全景解析 第一次尝试将项目从MMSegmentation 1.x升级到2.x时,我盯着满屏红色报错信息足足发呆了十分钟——这感觉就像走进一个熟悉的房间却发现所有家具都被重新摆放了。作为OpenMMLab生态的重…...

避坑指南:当Autoware遇上RS-LiDAR,点云格式转换与地面滤波的那些‘坑’(附源码修改)

Autoware与RS-LiDAR实战:点云格式转换与地面滤波的深度解决方案 当国产激光雷达遇上Autoware这套自动驾驶开发框架,技术团队往往会遇到一些意想不到的兼容性问题。特别是从Velodyne切换到RS-LiDAR这类国产雷达时,点云处理链路的异常往往会导…...

别再手动切换主从了!用Patroni+etcd给PostgreSQL 15上个自动故障转移的保险

告别手动切换时代:用Patronietcd构建PostgreSQL 15全自动高可用架构 凌晨三点,数据库告警短信惊醒梦中人——主库响应超时。你揉着惺忪睡眼打开终端,却发现从库早已自动接管业务流量,应用连接池平稳如常。这不是科幻场景&#xff…...

SEATA分布式事务——AT模式言

简介 AI Agent 不仅仅是一个能聊天的机器人(如普通的 ChatGPT),而是一个能够感知环境、进行推理、自主决策并调用工具来完成特定任务的智能系统,更够完成更为复杂的AI场景需求。 AI Agent 功能 根据查阅的资料,agent的…...

使用 Python 操作 Excel 文件中的工作表(添加和删除)

在处理复杂的 Excel 文档时,工作表的管理是一项基础而重要的技能。无论是需要为不同部门创建独立的数据表格,还是清理不再需要的旧数据,灵活地添加和删除工作表都能帮助我们更好地组织和管理数据。 本文将介绍如何使用 Python 和 Spire.XLS 库…...

HBuilderX真机调试报错找不到android_base.apk?别慌,3个方法帮你快速搞定(附详细路径)

HBuilderX真机调试报错找不到android_base.apk?3种实战解决方案详解 遇到HBuilderX真机调试时控制台突然报错"未查找到基座位置plugins\launcher\base\android_base.apk",这确实会让开发者措手不及。这个错误通常发生在首次尝试连接安卓设备进…...

告别暴力穷举!用ip33在线工具手工反算1~4字节CRC32校验码的原始数据

告别暴力穷举!手工反算1~4字节CRC32校验码的数学艺术 在数据校验的世界里,CRC32就像一位沉默的守门人,它用32位的校验码守护着数据的完整性。但鲜为人知的是,当面对1-4字节的短数据时,这位守门人的规则可以被优雅地逆…...

eMarker芯片如何保障100W+PD充电的安全

一、100W以上充电的独特安全挑战当充电功率跨过100W门槛,安全风险的复杂性和严重性都进入了全新量级。根据UL 62368-1标准,100W是PS2与PS3能量源等级的分界线——PS3能量源等级(100W及以上)意味着设备和线缆发生点火和火灾蔓延的风…...

Python怎么检查安装成功_版本号查询与Hello World测试

Python命令是否可用取决于PATH环境变量是否包含其安装路径;若python --version报错,应尝试python3 --version等变体,并通过import sys; print(sys.version)确认实际运行版本。python 命令是否可用:先看终端能不能认出它很多问题其…...

Chrom和PBV算法全解析:医疗级RPPG心率检测的5个关键陷阱

Chrom和PBV算法全解析:医疗级RPPG心率检测的5个关键陷阱 在ICU病房的昏暗灯光下,护士长李敏正盯着监护仪上剧烈波动的心率曲线皱眉——这位刚完成心脏手术的患者,因传统接触式电极导致皮肤过敏,而基于摄像头的非接触监测系统却频繁…...

GraalVM安全性最佳实践(FIPS 140-3合规版):从JNI绑定校验、证书硬编码剔除到Bouncy Castle静态裁剪全流程

第一章:GraalVM静态镜像安全性全景概览GraalVM 静态镜像(Native Image)通过提前编译(AOT)将 Java 应用构建成独立、无依赖的二进制可执行文件,显著减少了运行时攻击面——既消除了 JVM 解释器、JIT 编译器、…...

MTK Camera调试实战:搞定I2C报错、图像反向、颜色异常等常见问题

MTK Camera调试实战:从寄存器操作到硬件测量的全链路排错指南 当你在实验室盯着那块始终黑屏的Camera模组,或是产线上反复出现颜色失真的测试样机时,真正考验的不仅是技术手册的熟悉程度,更是系统化的调试思维。这份指南将带你穿越…...

【稀缺首发】Blazor Hybrid 2026生产就绪架构图(含MAUI 7.0集成深度):仅开放给前500名订阅者下载的微软Partner认证模板包

第一章:Blazor Hybrid 2026生产就绪架构全景概览Blazor Hybrid 2026代表了微软跨平台富客户端开发的最新演进形态,其核心目标是统一Web与原生体验,在保持Razor语法一致性的同时,深度集成平台能力、离线可靠性、安全沙箱及企业级可…...

别再死磕大卷积核了!用3x3小核+ShiftwiseConv,在ImageNet上跑出SOTA的保姆级解读

3x3小核ShiftwiseConv:在ImageNet上实现SOTA的实战指南 当整个计算机视觉社区沉迷于堆叠更大的卷积核时,CVPR 2025的一项研究却反其道而行——用精巧的3x3小核配合ShiftwiseConv模块,在ImageNet上实现了超越31x31大核模型的性能。这并非简单…...

不用死刷算法题!从零手搓伪随机数,吃透DP、状态机与缓存优化

不用死刷算法题!从零手搓伪随机数,吃透DP、状态机与缓存优化 文章目录不用死刷算法题!从零手搓伪随机数,吃透DP、状态机与缓存优化一、核心训练思路:从「简单迭代」到「多阶依赖」二、入门:从简单迭代开始&…...

Open Images:大规模多标签图像分类与目标检测数据集的技术实现

Open Images:大规模多标签图像分类与目标检测数据集的技术实现 【免费下载链接】dataset The Open Images dataset 项目地址: https://gitcode.com/gh_mirrors/dat/dataset Open Images是由Google构建的大规模视觉数据集,为计算机视觉研究提供了包…...

stock-sdk-mcp 的实践整理倨

一、什么是urllib3? urllib3 是一个用于处理 HTTP 请求和连接池的强大、用户友好的 Python 库。 它可以帮助你: 发送各种 HTTP 请求(GET, POST, PUT, DELETE等)。 管理连接池,提高网络请求效率。 处理重试和重定向。 支…...

IDM永久使用开源解决方案:安全验证与实战指南

IDM永久使用开源解决方案:安全验证与实战指南 【免费下载链接】IDM-Activation-Script IDM Activation & Trail Reset Script 项目地址: https://gitcode.com/gh_mirrors/id/IDM-Activation-Script 问题诊断:破解工具背后的隐藏风险 痛点呈现…...

ArcGIS空间连接实战:如何高效挂接地图斑属性到mdb数据库

ArcGIS空间连接实战:高效挂接地图斑属性到mdb数据库的完整指南 在空间数据处理工作中,将属性数据与空间图形精准关联是GIS分析的基础环节。许多技术人员在使用ArcGIS进行地图斑属性挂接时,常遇到数据不匹配、连接失败或效率低下的问题。本文将…...

外卖霸王餐API接口架构设计思路分析

外卖霸王餐API接口架构设计思路分析 对于开发者而言,构建一套高并发、高可用的外卖霸王餐API接口架构,是实现流量主与外卖平台(美团、饿了么)数据互通的关键。本文将基于俱美开放平台(http://www.baodanbao.com.cn)的技术实践&am…...

工业网关上线前必须做的7项压力测试,第4项让3家客户当场终止验收:PHP-FPM+Docker+K8s边缘集群压测黄金指标手册

第一章:工业网关上线前必须做的7项压力测试,第4项让3家客户当场终止验收:PHP-FPMDockerK8s边缘集群压测黄金指标手册为什么第4项测试如此关键 第4项测试聚焦于 PHP-FPM 在高并发短连接场景下的子进程回收与内存泄漏叠加效应——这正是导致三家…...