当前位置：首页 > article >正文

drm_gpusvm 与 drm_pagemap 执行顺序分析

article 2026/4/3 21:43:59

概述在 SVMShared Virtual Memory实现中drm_gpusvm和drm_pagemap分属两个不同的抽象层协同完成 GPU 对进程虚拟地址空间的共享访问。两者的执行顺序并非固定的先底层后上层而是根据操作场景有不同的编排方式。职责划分组件职责drm_pagemap底层内存操作页面迁移system↔device、设备内存分配、DMA 映射、数据拷贝、CPU PTE 维护drm_gpusvmRange 管理与 GPU 侧状态跟踪range 创建/查找、hmm_range_fault 获取页面、DMA 地址管理、notifier 序列号验证xe_svm驱动级编排决定迁移策略、调用上述两者、更新 GPU 页表、TLB 刷新核心原则drm_pagemap 改变页面的物理归属CPU PTE 层面drm_gpusvm 感知这些变化并管理 GPU 侧的映射状态。凡涉及页面归属变更的操作pagemap 必须先于 gpusvm 的hmm_range_fault()因为后者依赖 CPU 页表来确定页面的当前位置。场景一GPU Page Fault — 迁移到 VRAM当 GPU 访问尚未映射的地址且迁移策略要求迁移到设备内存时执行顺序为GPU Page Fault │ ├─ 1. drm_gpusvm_range_find_or_insert() [range 管理] │ 创建或查找覆盖故障地址的 svm_range │ 纯元数据操作不涉及实际内存 │ ├─ 2. drm_pagemap_populate_mm() [底层迁移] │ ├─ migrate_vma_setup() 获取源 CPU 页 │ ├─ ops-populate_devmem_pfn() 分配设备内存 │ ├─ drm_pagemap_migrate_map_pages() DMA 映射 CPU 页 │ ├─ ops-copy_to_devmem() 数据拷贝 system → device │ └─ migrate_vma_pages() 替换 CPU PTE 为 device_private │ 此时 CPU 页表已变更系统页 → device_private 页 │ ├─ 3. drm_gpusvm_range_get_pages() [获取页面状态] │ ├─ hmm_range_fault() 读取 CPU 页表现在看到 device_private 页 │ ├─ dpagemap-ops-device_map() DMA 映射设备页 │ └─ 更新 dma_addr[]设置 has_devmem_pagestrue │ ├─ 4. svm_range_update_gpu_range() [GPU 页表更新] │ 使用 dma_addr[] 填充 GPU 页表项 │ └─ 5. svm-flush_tlb() [TLB 刷新]关键约束步骤 2 必须在步骤 3 之前。代码注释明确说明Migration modifies the CPU page tables (replacing system PTEs with device_private PTEs), so it must happen before hmm_range_fault() in get_pages().如果顺序颠倒hmm_range_fault()将看到系统页而非设备页导致 GPU 映射指向错误的物理地址。迁移失败的回退步骤 2 失败不是致命错误流程继续执行步骤 3此时hmm_range_fault()看到的仍是系统页GPU 将通过 PCIe 访问系统内存作为回退方案。场景二GPU Page Fault — 不迁移系统内存当迁移策略不要求迁移或设备内存不可用时不涉及 drm_pagemapGPU Page Fault │ ├─ 1. drm_gpusvm_range_find_or_insert() [range 管理] │ ├─ 2. drm_gpusvm_range_get_pages() [获取页面] │ ├─ hmm_range_fault() 获取系统页 PFN │ ├─ dma_map_page() DMA 映射系统页 │ └─ 更新 dma_addr[]has_devmem_pagesfalse │ ├─ 3. svm_range_update_gpu_range() [GPU 页表更新] │ └─ 4. svm-flush_tlb()此场景下 drm_gpusvm 直接通过 HMM 和 DMA API 完成所有工作。场景三驱逐 — 从 VRAM 回到系统内存设备内存压力或 CPU 访问 device_private 页时触发驱逐Eviction Trigger (内存压力 / CPU 访问) │ ├─ 1. drm_pagemap_evict_to_ram() [底层驱逐] │ ├─ drm_pagemap_migrate_populate_ram_pfn() 分配系统页 │ ├─ ops-copy_to_ram() 数据拷贝 device → system │ └─ migrate_vma_pages() 恢复 CPU PTE 为系统页 │ 此时 CPU 页表已恢复device_private → 系统页 │ └─ 2. drm_gpusvm_range_unmap_pages() [清理 GPU 映射] ├─ dpagemap-ops-device_unmap() 解除设备页 DMA 映射 └─ 清除 has_dma_mapping / has_devmem_pages 标志关键约束步骤 1 必须先完成数据拷贝和 CPU PTE 恢复步骤 2 才能安全解除 GPU 侧映射否则可能丢失数据。场景四MMU Notifier 失效CPU 端 unmapCPU 端执行munmap()或部分 unmap 时MMU notifier 回调触发CPU munmap / unmap │ ├─ 1. svm_range_invalidate() [notifier 回调] │ 标记 range 失效记录 pending 操作 │ ├─ 2. drm_gpusvm_range_evict() [驱逐残留设备页] │ └─ 内部调用 drm_pagemap_evict_to_ram() 先迁移数据回系统 │ ├─ 3. drm_gpusvm_range_unmap_pages() [清理 GPU DMA 映射] │ └─ 4. drm_gpusvm_range_remove() [移除 range 元数据]执行顺序总结场景步骤 1步骤 2步骤 3Fault 迁移 VRAMgpusvm: 创建 rangepagemap: 迁移gpusvm: get_pagesFault 系统内存gpusvm: 创建 rangegpusvm: get_pages—驱逐回 RAMpagemap: 数据拷贝恢复 PTEgpusvm: unmap—MMU invalidategpusvm: 标记失效pagemap: 驱逐gpusvm: unmap remove不变量Range 创建总是最先drm_gpusvm_range_find_or_insert()在所有实际内存操作之前因为它只是元数据管理。pagemap 的迁移操作总是在 gpusvm 的hmm_range_fault()之前因为后者依赖 CPU 页表反映当前页面位置。pagemap 的驱逐操作总是在 gpusvm 的 unmap 之前必须先完成数据拷贝再解除映射。GPU 页表更新在 notifier lock 内完成确保与 MMU notifier 回调的串行化。同步机制锁/机制保护范围svm-svm_lockrange 查找/创建、迁移决策gpusvm-notifier_lockGPU 页表更新、range 状态检查notifier_seq检测 get_pages 到 GPU 页表更新之间 CPU 页表是否变化mmap_read_lockhmm_range_fault 期间保护 VMA

drm_gpusvm 与 drm_pagemap 执行顺序分析

相关文章：

drm_gpusvm 与 drm_pagemap 执行顺序分析

3款轻量级替代方案：华硕笔记本硬件控制工具深度解析

计算机春考-系统管理与服务器配置-01安装Windows Server 2012 R2操作系统

解决 Antigravity 新谷歌账户无法登录的问题

考虑浆液黏度时变性与重力效应的注浆压力作用下隧道围岩变形的流固耦合动态分析模型基于6.1版本...

CST可调谐太赫兹超材料吸收器仿真教学，石墨烯，二氧化钒，锑化铟等材料设置包括建模过程，后处理

偏振无关宽带消色差长波红外超透镜模型粒子群优化算法复现论文：2022年博士论文

发散创新：基于Python的轻量级知识推理引擎实现与实战在人工智能飞速发展的今天，知识推理

发散创新：服务端渲染（SSR）的深度实践与性能优化实战在现代前端架构

AI大模型的简历如何写才能拿到面试机会？简历+项目+面试技巧+面试题一套全搞定！

突破下载瓶颈：3个鲜为人知的ComfyUI加速方案，速度提升300%的秘密

企业级AI智能体平台技术评测：9款产品架构差异与生产落地能力分析

如何永久保存微信聊天记录：WeChatMsg本地化数据管理完全指南

AutoCAD数据处理的.NET解决方案：ACadSharp全功能指南

5大核心功能打造高效媒体播放：免费开源解码工具LAV Filters全解析

LangChain全面解析：从入门到实战，构建你的第一个AI应用

基于九轴传感器 + K-means 聚类的振动异常检测实战教程

谷歌SEO网站收录秘籍：如何用AI工具去创作高质量文章

不再依赖翻译专员：跨马翻译让运营人员也能独立完成高质量多语言出图

C语言完美演绎6-18

CLI为什么突然爆了？一文讲清 Skill、MCP、CLI 的真实关系

android studio 解决git用户名和用户邮箱不一致的问题

Python NumPy 使用指南：科学计算的基石

YOLO26涨点改进| TPAMI 2026 |独家创新首发、Conv改进篇| 引入LPM 局部先验特征增强模块，更加聚焦于目标区域并抑制背景干扰，助力目标检测、图像分割、图像恢复、图像增强有效涨点

Linux/C++多进程

OpenClaw × 88API：10 分钟搭好本地网关，解决 API 超时和多渠道切换（2026 完整教程）

大以论文与万方、维普、WPS AI 综合对比（2026）

OpenCore Legacy Patcher完全指南：突破硬件限制让旧Mac焕发新生

突破视频内容壁垒：B站视频转文字的智能解决方案

基于 HT for Web 的机车整备场数字孪生系统技术实现