当前位置：首页 > article >正文

python打卡day34

article 2026/2/8 10:45:39

GPU训练及类的call方法

知识点回归：

CPU性能的查看：看架构代际、核心数、线程数
GPU性能的查看：看显存、看级别、看架构代际
GPU训练的方法：数据和模型移动到GPU device上
类的call方法：为什么定义前向传播时可以直接写作self.fc1(x)

判断 CPU 的好坏需要综合考虑硬件参数、性能表现、适用场景：

看架构代际，新一代架构通常优化指令集、缓存设计和能效比。如Intel 第 13 代 i5-13600K 比第 12 代 i5-12600K 多核性能提升约 15%
看制程工艺，制程越小，晶体管密度越高，能效比越好，如AMD Ryzen 7000 系列（5nm）比 Ryzen 5000 系列（7nm）能效比提升约 30%
看核心数：性能核负责高负载任务（如游戏、视频剪辑），单核性能强。能效核负责多任务后台处理（如下载、杀毒），功耗低。如游戏 / 办公：4-8 核足够，内容创作 / 编程：12 核以上更优
看线程数目
看频率，高频适合单线程任务（如游戏、Office），低频多核适合多线程任务（如 3D 渲染）
支持的指令集和扩展能力

如何衡量GPU的性能好坏？

1.通过“代”

前两位数字代表“代”: 40xx (第40代), 30xx (第30代), 20xx (第20代)。“代”通常指的是其底层的架构 (Architecture)。每一代新架构的发布，通常会带来工艺制程的进步和其他改进。也就是新一代架构的目标是在能效比和绝对性能上超越前一代同型号的产品

2.通过级别

后面的数字代表“级别”：

- xx90: 通常是该代的消费级旗舰或次旗舰，性能最强，显存最大 (如 RTX 4090, RTX 3090)

- xx80: 高端型号，性能强劲，显存较多 (如 RTX 4080, RTX 3080)

- xx70: 中高端，甜点级，性能和价格平衡较好 (如 RTX 4070, RTX 3070)

- xx60: 主流中端，性价比较高，适合入门或预算有限 (如 RTX 4060, RTX 3060)

- xx50: 入门级，深度学习能力有限

3.通过后缀

Ti 通常是同型号的增强版，性能介于原型号和更高一级型号之间 (如 RTX 4070 Ti 强于 RTX 4070，小于4080)

4.通过显存容量 VRAM （最重要！！）

他是GPU 自身的独立高速内存，用于存储模型参数、激活值、输入数据批次等。单位通常是 GB（例如 8GB, 12GB, 24GB, 48GB）。如果显存不足，可能无法加载模型，或者被迫使用很小的批量大小，从而影响训练速度和效果

1、GPU训练

要让模型在 GPU 上训练，主要是将模型和数据迁移到 GPU 设备上。在 PyTorch 里，.to(device) 方法的作用是把张量或者模型转移到指定的计算设备（像 CPU 或者 GPU）上：

对于张量（Tensor）：调用 .to(device) 之后，会返回一个在新设备上的新张量
对于模型（nn.Module）：调用 .to(device) 会直接对模型进行修改，让其所有参数和缓冲区都移到新设备上

在进行计算时，所有输入张量和模型必须处于同一个设备，要是它们不在同一设备上，就会引发运行时错误。并非所有 PyTorch 对象都有 .to(device) 方法，只有继承自 torch.nn.Module 的模型以及 torch.Tensor 对象才有此方法

我这里用的kaggle的云服务器（算力平台真的很推荐，环境啥的都配置好了，猛猛用就行），迁移到GPU时先看看CUDA，再设置一下设备

import torch# ----------- cell 1 ------------
# 检查CUDA是否可用
if torch.cuda.is_available():print("CUDA可用！")# 获取可用的CUDA设备数量device_count = torch.cuda.device_count()print(f"可用的CUDA设备数量: {device_count}")# 获取当前使用的CUDA设备索引current_device = torch.cuda.current_device()print(f"当前使用的CUDA设备索引: {current_device}")# 获取当前CUDA设备的名称device_name = torch.cuda.get_device_name(current_device)print(f"当前CUDA设备的名称: {device_name}")# 获取CUDA版本cuda_version = torch.version.cudaprint(f"CUDA版本: {cuda_version}")# 查看cuDNN版本（如果可用）print("cuDNN版本:", torch.backends.cudnn.version())else:print("CUDA不可用。")# ------------ cell 2 ------------
# 设置GPU设备
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(f"使用设备: {device}")

代码改动很小，就是张量和模型实例化的时候改一改

# 转换为张量
x_train = torch.FloatTensor(x_train).to(device)
x_test = torch.FloatTensor(x_test).to(device)
y_train = torch.LongTensor(y_train).to(device)
y_test = torch.LongTensor(y_test).to(device)# 实例化网络
model = MLP().to(device)

CPU和GPU都用kaggle的跑，CPU训练用时0.3726秒，GPU训练用时0.7579秒，照理说GPU会更快对吧。但对于非常小的数据集和简单的模型，CPU通常会比GPU更快，本质是因为GPU在计算的时候，相较于cpu多了3个时间上的开销：

数据传输开销 (CPU 内存 <-> GPU 显存)，对于少量数据和非常快速的计算任务，这个传输时间可能比 GPU 通过并行计算节省下来的时间还要长
核心启动开销 (GPU 核心启动时间)，GPU执行的每个操作都涉及到在GPU上启动一个“核心”(kernel)，如果核心内的实际计算量非常小（本项目的小型网络和鸢尾花数据），这个启动开销在总时间中的占比就会比较大
性能浪费：计算量和数据批次，这个数据量太少，GPU的很多计算单元都没有被用到，即使用了全批次也没有用到的全部计算单元

所以综上所述，GPU适合大型数据集，大型模型，复杂繁琐的并行计算操作

2、call方法

在 Python 中，__call__ 方法是一个特殊的魔术方法（双下划线方法），如果一个类定义了 __call__ 方法，它的实例可以通过实例名() 的方式调用，就像调用函数一样，这种特性使得对象可以表现得像函数，同时保留对象的内部状态

举个例子，之前训练时要选定损失函数，nn.CrossEntropyLoss() 是一个类，criterion 是它的实例，criterion(output, y_train) 实际上是 criterion.__call__(output, y_train)，这个__call__方法内部会计算交叉熵损失，并返回结果

criterion = nn.CrossEntropyLoss()  # 实例化损失函数
loss = criterion(output, y_train)  # 像函数一样调用

说白了，PyTorch 的损失函数、模型层（如 nn.Linear）等模块都通过__call__方法来实现相应的功能，它们内部可能保存了参数和状态，每次调用时利用这些状态进行计算，所以用的时候一定要记住实例化（加括号），忘了好多次总会出莫名其妙的错误

判断到底是函数还是类的实例化，可以看官方文档决定，但是看看命名也是好方法：

类名：通常首字母大写（如 CrossEntropyLoss, torch.FloatTensor）
函数名：全小写（如sum,add）

@浙大疏锦行

python打卡day34

1、GPU训练

2、call方法

相关文章：