当前位置：首页 > news >正文

pytorch-模型训练

news 2026/5/21 0:10:27

1. 模型训练的基本步骤

以cifar10和Lenet5为例

1.1 train、test数据下载

使用torchvision中的datasets可以方便下载cifar10数据

cifar_train = datasets.CIFAR10('cifa', True, transform=transforms.Compose([transforms.Resize((32, 32)),transforms.ToTensor(),transforms.Normalize(mean=[0.485, 0.456, 0.406],std=[0.229, 0.224, 0.225])]), download=True)

transforms.Resize((32, 32)) 将数据图形数据resize为32x32，这里可不用因为cifar10本身就是32x32
transforms.ToTensor()是将numpy或者numpy数组或PIL图像）转换为PyTorch的Tensor格式，以便输入网络。
transforms.Normalize()根据指定的均值和标准差对每个颜色通道进行图像归一化，可以提高神经网络训练过程中的收敛速度

1.2 train、test数据加载

使用pytorch torch.utils.data中的DataLoader用来加载数据

cifar_train = DataLoader(cifar_train, batch_size=batchz, shuffle=True)

batch_size=batchz: 这里batchz是一个变量，代表每个批次的样本数量。
shuffle=True: 这个参数设定为True意味着在每次训练循环（epoch）开始前，数据集中的样本会被随机打乱顺序。这样做可以增加训练过程中的随机性，帮助模型更好地泛化，避免过拟合特定的样本排列顺序。

1.3 Lenet5实例化、初始化loss函数、初始化优化器

    device = torch.device('cuda')model = Lenet5().to(device)crition = nn.CrossEntropyLoss().to(device)optimizer = optim.Adam(model.parameters(), lr=1e-3)

注意：网络和模型一定要搬到GPU上

1.4 开始train和test

循环epoch
加载train数据、输入模型、计算loss、backward、调用优化器
加载test数据、输入模型、计算prediction、计算正确率
输出正确率

 for epoch in range(1000):model.train()for batch, (x, label) in enumerate(cifar_train):x, label = x.to(device), label.to(device)logits = model(x)loss = crition(logits, label)optimizer.zero_grad()loss.backward()optimizer.step()# testmodel.eval()with torch.no_grad():total_correct = 0total_num = 0for x, label in cifar_test:x, label = x.to(device), label.to(device)logits = model(x)pred = logits.argmax(dim=1)correct = torch.eq(pred, label).float().sum().item()total_correct += correcttotal_num += x.size(0)acc = total_correct / total_numprint(epoch, 'test acc:', acc)

2. 完整代码

import torch
from torchvision import datasets
from torch.utils.data import DataLoader
from torchvision import transforms
from torch import nn, optim
import syssys.path.append('.')
from Lenet5 import Lenet5def main():batchz = 128cifar_train = datasets.CIFAR10('cifa', True, transform=transforms.Compose([transforms.Resize((32, 32)),transforms.ToTensor(),transforms.Normalize(mean=[0.485, 0.456, 0.406],std=[0.229, 0.224, 0.225])]), download=True)cifar_train = DataLoader(cifar_train, batch_size=batchz, shuffle=True)cifar_test = datasets.CIFAR10('cifa', False, transform=transforms.Compose([transforms.Resize((32, 32)),transforms.ToTensor(),transforms.Normalize(mean=[0.485, 0.456, 0.406],std=[0.229, 0.224, 0.225])]), download=True)cifar_test = DataLoader(cifar_test, batch_size=batchz, shuffle=True)device = torch.device('cuda')model = Lenet5().to(device)crition = nn.CrossEntropyLoss().to(device)optimizer = optim.Adam(model.parameters(), lr=1e-3)for epoch in range(1000):model.train()for batch, (x, label) in enumerate(cifar_train):x, label = x.to(device), label.to(device)logits = model(x)loss = crition(logits, label)optimizer.zero_grad()loss.backward()optimizer.step()# testmodel.eval()with torch.no_grad():total_correct = 0total_num = 0for x, label in cifar_test:x, label = x.to(device), label.to(device)logits = model(x)pred = logits.argmax(dim=1)correct = torch.eq(pred, label).float().sum().item()total_correct += correcttotal_num += x.size(0)acc = total_correct / total_numprint(epoch, 'test acc:', acc)if __name__ == '__main__':main()

model.train()和model.eval()的区别和作用
model.train()
作用：当调用模型的model.train()方法时，模型会进入训练模式。这意味着：
启用 Dropout层和BatchNorm层：在训练模式下，Dropout层会按照设定的概率随机“丢弃”一部分神经元以防止过拟合，而Batch Normalization（批规范化）层会根据当前批次的数据动态计算均值和方差进行归一化。
梯度计算：允许梯度计算，这是反向传播和权重更新的基础。
应用场景：在模型的训练循环中，每次迭代开始之前调用，以确保模型处于正确的训练状态。

model.eval()
作用：调用model.eval()方法后，模型会进入评估模式。此时：
禁用 Dropout层：Dropout层在评估时不发挥作用，所有的神经元都会被保留，以确保预测的确定性和可重复性。
固定 BatchNorm层：BatchNorm层使用训练过程中积累的统计量（全局均值和方差）进行归一化，而不是当前批次的统计量，这有助于模型输出更加稳定和一致。
应用场景：在验证或测试模型性能时使用，确保模型输出是确定性的，不受训练时特有的随机操作影响，以便于准确评估模型的泛化能力。

pytorch-模型训练

目录

1. 模型训练的基本步骤

1.1 train、test数据下载

1.2 train、test数据加载

1.3 Lenet5实例化、初始化loss函数、初始化优化器

1.4 开始train和test

2. 完整代码

相关文章：

pytorch-模型训练

Linux /proc目录总结

【JavaEE】浅谈线程（二）

爬虫：爬取知乎热榜一级评论及回答2024不包含翻页

AI 编程探索- iOS动态标签控件

计算机网络——数据链路层（数据链路层概述及基本问题）

【前端】前端权限管理的实现方式：基于Vue项目的详细指南

MySQL数据库基础练习系列——教务管理系统

windowns server2016服务器配置php调用powerpoint COM组件

Git之checkout/reset --hard/clean -f区别(四十二)

MySQL数据库基础练习系列：科研项目管理系统

算法设计与分析--考试真题

【鸿蒙学习笔记】页面和自定义组件生命周期

ASPICE与ISO 21434：汽车软件与网络安全标准的协同与互补

视频格式转换方法：如何使用视频转换器软件转换视频

vim操作小诀窍：快速多行添加注释

无线麦克风领夹哪个牌子好，2024年领夹麦克风品牌排行榜推荐

Mybatis入门——语法详解：基础使用、增删改查、起别名、解决问题、注释、动态查询，从入门到进阶

仓库选址问题【数学规划的应用(含代码)】阿里达院MindOpt

Docker Compose 一键快速部署 RocketMQ

STM32F030硬件I2C避坑指南：Timing值、滤波器配置与NBYTES重加载模式详解

影刀RPA跨境店群自动化实战：Python协同Chromium底层调度与容器化环境隔离系统架构

CLup使用：一键创建Doris存算一体集群

【计算机组成原理】无符号整数乘法原理（基于移位累加，零基础看懂CPU乘法）

MifareOneTool完全指南：零基础掌握Windows最强NFC卡片管理工具

Kubernetes Operator开发实战

7天掌握FontForge：免费开源字体编辑器的完整使用指南

【独家首发】DeepSeek官方未公开的DRY检查白皮书（v2.3.1内测版）：覆盖LoRA适配器、MoE路由层、Tokenizer预处理3大高危模块

别再踩坑了！用Java Arrays.fill()初始化二维数组，这3个细节新手必看

别再乱配了！RuoYi-Vue-Plus中Sa-Token的activity-timeout与timeout到底啥区别？一个例子讲透