当前位置: 首页 > article >正文

在24GB显存大小的GPU上运行27GB的Pytorch模型

在24GB显存大小的GPU上运行27GB的Pytorch模型

    • 一.背景:显存不足时的破局之道
      • 1.1 大模型时代的显存困境
      • 1.2 CUDA统一内存的魔法
    • 二.性能测试数据深度解读
      • 关键发现:
    • 三.复现过程
      • 3.1 准备自定义分配器
      • 3.2 准备测试程序
      • 3.3 执行流程
      • 3.4 开始测试
    • 四.原理深度剖析
      • 4.1 统一内存的工作机制
      • 4.2 性能差异的本质

一.背景:显存不足时的破局之道

1.1 大模型时代的显存困境

当使用像Qwen3-14B这样的千亿参数大模型时,模型权重加载后通常需要超过24GB的显存。这给普通消费级显卡用户带来了巨大挑战。传统解决方案包括:

  • 模型量化(牺牲精度)
  • 梯度累积(延长训练时间)
  • 多卡并行(增加硬件成本)

1.2 CUDA统一内存的魔法

PyTorch通过CUDA统一内存(Unified Memory)技术实现了突破。其核心是cudaMallocManaged函数,该函数会:

  1. 创建在CPU和GPU之间自动迁移的内存空间
  2. 当GPU访问数据时,自动将所需内存页迁移到显存
  3. 当显存不足时,自动将不活跃页换出到内存

二.性能测试数据深度解读

我们通过三组实验对比不同内存策略(测试环境:RTX 4090 24GB + 64GB DDR4)

配置模式显存占用TPS(Token/秒)关键技术解析
基础统一内存20584 MB1.75完全依赖自动内存迁移
强制驻留内存744 MB0.90数据常驻内存,显存仅作缓存
优化读取模式20622 MB1.77声明数据可多设备共享读取

关键发现:

  1. 显存换速度:当强制数据驻留内存(模式2)时,虽然显存占用骤降97%,但推理速度下降48%
  2. 智能预取优势:默认统一内存(模式1)通过智能页迁移,在有限显存下仍保持较高性能
  3. 读优化增益:设置SetReadMostly后(模式3),允许GPU缓存只读数据,TPS提升1%

三.复现过程

3.1 准备自定义分配器

cat > allocater.cc <<-'EOF'
#include <sys/types.h>
#include <cuda_runtime_api.h>
#include <iostream>
#include <assert.h>
#include <unordered_map>
#include <iostream>
#include <mutex>
#include <stdlib.h>
#include <unistd.h>class UserCudaAllocater {
public:void* allocate(size_t size) {void* ptr;int mode=0;char *env=getenv("ALLOC_MODE");if(env){mode=atoi(env);}if(mode>0){assert(0==cudaMallocManaged(&ptr,size));// 核心:申请统一内存if(mode>1){// 建议数据首选位置在CPU(减少显存占用)assert(0==cudaMemAdvise(ptr, size, cudaMemAdviseSetPreferredLocation, cudaCpuDeviceId));}if(mode>2){// 声明数据将被多设备频繁读取(提升缓存效率)assert(0==cudaMemAdvise(ptr, size, cudaMemAdviseSetReadMostly, 0));}}else{assert(0==cudaMalloc(&ptr,size)); // 传统显存分配}return ptr;}void deallocate(void* ptr) {if (ptr) {assert

相关文章:

在24GB显存大小的GPU上运行27GB的Pytorch模型

在24GB显存大小的GPU上运行27GB的Pytorch模型 一.背景:显存不足时的破局之道1.1 大模型时代的显存困境1.2 CUDA统一内存的魔法二.性能测试数据深度解读关键发现:三.复现过程3.1 准备自定义分配器3.2 准备测试程序3.3 执行流程3.4 开始测试四.原理深度剖析4.1 统一内存的工作机…...

【数据机构】2. 线性表之“链表”

- 第 97 篇 - Date: 2025 - 05 - 16 Author: 郑龙浩/仟墨 【数据结构 2】 续上一篇 线性表之“顺序表” 文章目录 3 链表(用指针来首位相连)① 基本介绍② 分类 与 变量命名1 &#xff09;分类&#xff1a;2 &#xff09;大体介绍不同结构&#xff1a; ③ “单链表” 的实现:*…...

【51单片机中断】

目录 配置流程 1.在IE寄存器中开启总中断通道和需要的某中断通道 2.在TCON寄存器开启所用中断的触发方式 3.使用中断函数完成中断 4.若需要中断嵌套则在IP寄存器中配置 5.若需要使用串口的中断&#xff0c;则配置SCON寄存器 6.代码示例 配置流程 1.在IE寄存器中开启总…...

JavaSE基础语法之方法

方法 一、方法入门 1.方法定义 方法是一种语法结构&#xff0c;它可以把一段代码封装成一个功能&#xff0c;以便重复调用。 2.方法的格式 修饰符 返回值类型 方法名( 形参列表 ){方法体代码(需要执行的功能代码) }示例&#xff1a; public static int sum ( int a ,…...

华为网路设备学习-22(路由器OSPF-LSA及特殊详解)

一、基本概念 OSPF协议的基本概念 OSPF是一种内部网关协议&#xff08;IGP&#xff09;&#xff0c;主要用于在自治系统&#xff08;AS&#xff09;内部使路由器获得远端网络的路由信息。OSPF是一种链路状态路由协议&#xff0c;不直接传递路由表&#xff0c;而是通过交换链路…...

go-数据库基本操作

1. 配置数据库 package mainimport ("gorm.io/driver/mysql""gorm.io/gorm" ) #配置表结构 type User struct {ID int64 json:"id" gorm:"primary_key" // 主键ID自增长Username stringPassword string } #配置连接接信息 func…...

vue 中绑定样式 【style样式绑定】

style样式绑定 在 Vue 中&#xff0c;style 的绑定与 class 类似&#xff0c;也是通过 v-bind:style&#xff08;或简写 :style&#xff09;实现的&#xff0c;允许你动态地控制内联样式。Vue 对 style 做了非常智能的处理&#xff0c;支持对象、数组、字符串等多种语法&#…...

印刷业直角坐标型码垛机器人系统设计与应用研究

摘要 随着印刷行业自动化水平的提升&#xff0c;本文针对传统人工码垛存在的效率低、标准化程度不足等问题&#xff0c;提出基于直角坐标系的专用码垛机器人解决方案。重点阐述机械臂结构设计、运动控制系统及智能抓取装置三大核心模块&#xff0c;通过实际应用验证系统在速度、…...

Mysql存储过程(附案例)

​ 文章目录 存储过程概述1、基本语法2、变量①、系统变量②、用户自定义变量③、局部变量 3、流程控制语句①、if语句②、参数③、case语句④、while语句⑤、repeat语句⑥、loop语句⑦、cursor游标⑧、handler 4、存储函数 存储过程概述 存储过程是事先经过编译并存储在数据…...

【Web应用】Vue 项目前端项目文件夹和文件介绍

文章目录 ⭐前言⭐一、文件夹介绍&#x1f31f;1、.idea&#x1f31f;2、bin&#x1f31f;3、build&#x1f31f;4、node_modules&#x1f31f;5、public&#x1f31f;6、src ⭐二、文件介绍&#x1f31f;1、.editorconfig&#x1f31f;2、.env.development、.env.production、…...

Stratix 10 FPGA DDR4 选型

文章目录 前言DDR3 和 DDR4 的区别Micron 8Gb DDR4 规格书详解Micron 8Gb DDR4 编码规则ConfigurationDDR4 寻址原理 Speed Grade内存的频率MT/s 与 MHz&#xff1a;更好的内存速度衡量指标为什么 DDR4 的核心频率与 I/O 总线频率的比例是 1:4 呢&#xff1f; 带宽 Altera FPGA…...

Rust 输出到命令行

Rust 输出到命令行 引言 Rust 是一门系统编程语言&#xff0c;以其高性能、内存安全、并发支持和零成本抽象等特性而闻名。在开发过程中&#xff0c;将 Rust 程序的输出传递到命令行是常见的需求。本文将详细介绍 Rust 输出到命令行的多种方法&#xff0c;帮助读者掌握这一技…...

费曼技巧及提高计划

费曼技巧及提高计划 一、什么是费曼技巧&#xff1f; 费曼技巧&#xff08;Feynman Technique&#xff09;由诺贝尔物理学奖得主理查德费曼提出&#xff0c;是一种通过“以教代学”来彻底理解复杂概念的学习方法。其核心逻辑是&#xff1a; “如果你不能简单解释一件事&#x…...

扩展:React 项目执行 yarn eject 后的 config 目录结构详解

扩展&#xff1a;React 项目执行 yarn eject 后的 config 目录结构详解 什么是 yarn eject&#xff1f;React 项目执行 yarn eject 后的 config 目录结构详解&#x1f4c1; config 目录结构各文件作用详解env.jsgetHttpsConfig.jsmodules.jspaths.jswebpack.config.jswebpackDe…...

CMU-15445(4)——PROJECT#1-BufferPoolManager-Task#2

PROJECT#1-BufferPoolManager Task #2 - Disk Scheduler 在前一节我实现了 TASK1 并通过了测试&#xff0c;在本节中&#xff0c;我将逐步实现 TASK2。 如上图&#xff0c;Page Table&#xff08;页表&#xff09;通过哈希表实现&#xff0c;用于跟踪当前存在于内存中的页&am…...

百度智能云千帆携手联想,共创MCP生态宇宙

5月7日&#xff0c;2025联想创新科技大会&#xff08;Tech World&#xff09;在上海世博中心举行&#xff0c;本届大会以“让AI成为创新生产力”为主题。会上&#xff0c;联想集团董事长兼CEO杨元庆展示了包括覆盖全场景的超级智能体矩阵&#xff0c;包括个人超级智能体、企业超…...

Python 中的 typing.ClassVar 详解

一、ClassVar 的定义和基本用途 ClassVar 是 typing 模块中提供的一种特殊类型&#xff0c;用于在类型注解中标记类变量&#xff08;静态变量&#xff09;。根据官方文档&#xff0c;使用 ClassVar[…] 注释的属性表示该属性只在类层面使用&#xff0c;不应在实例上赋值 例如&…...

【动态导通电阻】GaN HEMT动态导通电阻的精确测量

2023 年 7 月,瑞士洛桑联邦理工学院的 Hongkeng Zhu 和 Elison Matioli 在《IEEE Transactions on Power Electronics》期刊发表了题为《Accurate Measurement of Dynamic ON-Resistance in GaN Transistors at Steady-State》的文章,基于提出的稳态测量方法,研究了氮化镓(…...

java 使用zxing生成条形码(可自定义文字位置、边框样式)

最新工作中遇到生成条形码的需求&#xff0c;经过一番摸索之后找到了zxing这个工具类&#xff0c;实现效果如下&#xff1a; 首先引入依赖&#xff1a; <!-- 条形码生成器 --><dependency><groupId>com.google.zxing</groupId><artifactId&g…...

day19-线性表(顺序表)(链表I)

一、补充 安装软件命令&#xff1a; sudo apt-get install (软件名) 安装格式化对齐&#xff1a;sudo apt-get install clang-format内存泄漏检测工具&#xff1a; sudo apt-get install valgrind 编译后&#xff0c;使用命令 valgrind ./a.out 即可看内存是…...

CSS- 2.1 实战之图文混排、表格、表单、学校官网一级导航栏

本系列可作为前端学习系列的笔记&#xff0c;代码的运行环境是在HBuilder中&#xff0c;小编会将代码复制下来&#xff0c;大家复制下来就可以练习了&#xff0c;方便大家学习。 HTML系列文章 已经收录在前端专栏&#xff0c;有需要的宝宝们可以点击前端专栏查看&#xff01; 点…...

Armijo rule

非精线搜索步长规则Armijo规则&Goldstein规则&Wolfe规则_armijo rule-CSDN博客 [原创]用“人话”解释不精确线搜索中的Armijo-Goldstein准则及Wolfe-Powell准则 – 编码无悔 / Intent & Focused...

从零搭建AI工作站:Gemma3大模型本地部署+WebUI配置全套方案

文章目录 前言1. 安装Ollama2.Gemma3模型安装与运行3. 安装Open WebUI图形化界面3.1 Open WebUI安装运行3.2 添加模型3.3 多模态测试 4. 安装内网穿透工具5. 配置固定公网地址总结 前言 如今各家的AI大模型厮杀得如火如荼&#xff0c;每天都有新的突破。今天我要给大家安利一款…...

贝叶斯优化Transformer融合支持向量机多变量时间序列预测,Matlab实现

贝叶斯优化Transformer融合支持向量机多变量时间序列预测&#xff0c;Matlab实现 目录 贝叶斯优化Transformer融合支持向量机多变量时间序列预测&#xff0c;Matlab实现效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.BO-TransformerSVM多变量时间序列预测&#xff0c…...

执行apt-get update 报错ModuleNotFoundError: No module named ‘apt_pkg‘的解决方案汇总

Ubuntu版本ubuntu18.04 报错内容&#xff1a; //执行apt-get upgrade报错&#xff1a; Traceback :File “/usr/lib/cnf-update-db”, line 8, in <module>from CommandNotFound.db.creator import DbcreatorFile “/usr/lib/python3/dist-packages/CommandNotFound/db…...

maven中relativepath标签的含义及使用方法

在Maven中,<relativePath>标签用于指定子模块的父POM文件的相对路径,以便在构建时优先从本地项目结构中查找父项目,而非直接从仓库获取。以下是其含义和使用方法的详细说明: 含义 作用:在子模块的<parent>元素中,<relativePath>定义了父POM文件相对于当…...

C++_STL_map与set

1. 关联式容器 在初阶阶段&#xff0c;我们已经接触过STL中的部分容器&#xff0c;比如&#xff1a;vector、list、deque、 forward_list(C11)等&#xff0c;这些容器统称为序列式容器&#xff0c;因为其底层为线性序列的数据结构&#xff0c;里面 存储的是元素本身。那什么是…...

项目依赖版本修改

React项目 因UI库无法兼容React19版本,故此降低React版本至18.x (为什么不升级UI库版本,因为没有最新版,而且找不到好的替代品) package.json 先修改package.json文件中你想修改的依赖版本号 "dependencies": { - "react": "^19.1.0", - "…...

蚁群算法赋能生鲜配送:MATLAB 实现多约束路径优化

在生鲜农产品配送中&#xff0c;如何平衡运输效率与成本控制始终是行业难题。本文聚焦多目标路径优化&#xff0c;通过 MATLAB 实现蚁群算法&#xff0c;解决包含载重限制、时间窗约束、冷藏货损成本的复杂配送问题。代码完整复现了从数据生成到路径优化的全流程&#xff0c;助…...

机器学习与人工智能:NLP分词与文本相似度分析

自然语言处理 你有没有想过&#xff0c;生成式 AI 工具或大型语言模型背后究竟发生了什么&#xff1f;自然语言处理&#xff08;NLP&#xff09;是这些工具的核心&#xff0c;它使计算机能够理解人类语言。换句话说&#xff0c;NLP 是连接人类交流和机器&#xff08;如计算机&…...