当前位置：首页 > news >正文

一文彻底讲透 PyTorch

news 2026/5/18 2:42:45

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。

针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。

汇总合集：

《AIGC 面试宝典》(2024版) 发布！

《大模型面试宝典》(2024版) 发布！

大模型的火热，彻底把PyTorch带火，Tensorflow 最近落寞了很多。想学会大模型，PyTorch 是必需要学的工具之一。

PyTorch 是利用深度学习进行数据科学研究的重要工具，在灵活性、可读性和性能上都具备相当的优势，近年来已成为学术界实现深度学习算法最常用的框架。

考虑到PyTorch的学习兼具理论储备和动手训练，两手都要抓两手都要硬的特点，我梳理一份《深入浅出 PyTorch 》，帮助大家从入门到熟练掌握 PyTorch 工具，进而实现自己的深度学习算法。

需要《深入浅出 PyTorch 》，可以加入我们技术群获取。

技术交流

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了算法岗面试与技术交流群，想要进交流群、需要源码&资料、提升技术的同学，可以直接加微信号：mlc2040。加的时候备注一下：研究方向 +学校/公司+CSDN，即可。然后就可以拉你进群了。

方式①、微信搜索公众号：机器学习社区，后台回复：深入浅出 PyTorch
方式②、添加微信号：mlc2040，备注：深入浅出 PyTorch +CSDN

在这里插入图片描述

内容简介

第零章：前置知识
- 人工智能简史
- 相关评价指标
- 常用包的学习
- Jupyter相关操作
第一章：PyTorch的简介和安装
- PyTorch简介
- PyTorch的安装
- PyTorch相关资源简介
第二章：PyTorch基础知识
- 张量及其运算
- 自动求导简介
- 并行计算、CUDA和cuDNN简介
第三章：PyTorch的主要组成模块
- 思考：完成一套深度学习流程需要哪些关键环节
- 基本配置
- 数据读入
- 模型构建
- 损失函数
- 优化器
- 训练和评估
- 可视化
第四章：PyTorch基础实战
- 基础实战——Fashion-MNIST时装分类
- 基础实战——果蔬分类实战（notebook）
第五章：PyTorch模型定义
- 模型定义方式
- 利用模型块快速搭建复杂网络
- 模型修改
- 模型保存与读取
第六章：PyTorch进阶训练技巧
- 自定义损失函数
- 动态调整学习率
- 模型微调-torchvision
- 模型微调-timm
- 半精度训练
- 数据扩充
- 超参数的修改及保存
- PyTorch模型定义与进阶训练技巧
第七章：PyTorch可视化
- 可视化网络结构
- 可视化CNN卷积层
- 使用TensorBoard可视化训练过程
- 使用wandb可视化训练过程
第八章：PyTorch生态简介
- 简介
- 图像—torchvision
- 视频—PyTorchVideo
- 文本—torchtext
- 音频-torchaudio
第九章：模型部署
- 使用ONNX进行部署并推理
第十章：常见网络代码的解读(推进中)
- 计算机视觉
  - 图像分类
    - ResNet源码解读
    - Swin Transformer源码解读
    - Vision Transformer源码解读
    - RNN源码解读
    - LSTM源码解读及其实战
  - 目标检测
    - YOLO系列解读
  - 图像分割
- 自然语言处理
  - RNN源码解读
- 音频处理
- 视频处理
- 其他

部分内容展示

在深度学习模型的训练中，权重的初始值极为重要。一个好的初始值，会使模型收敛速度提高，使模型准确率更精确。一般情况下，我们不使用全0初始值训练网络。为了利于训练和减少收敛时间，我们需要对模型进行合理的初始化。PyTorch也在torch.nn.init中为我们提供了常用的初始化方法。
通过本章学习，你将学习到以下内容：

常见的初始化函数
初始化函数的使用

torch.nn.init内容

通过访问torch.nn.init的官方文档链接，我们发现torch.nn.init提供了以下初始化方法：
1 . torch.nn.init.uniform_(tensor, a=0.0, b=1.0)
2 . torch.nn.init.normal_(tensor, mean=0.0, std=1.0)
3 . torch.nn.init.constant_(tensor, val)
4 . torch.nn.init.ones_(tensor)
5 . torch.nn.init.zeros_(tensor)
6 . torch.nn.init.eye_(tensor)
7 . torch.nn.init.dirac_(tensor, groups=1)
8 . torch.nn.init.xavier_uniform_(tensor, gain=1.0)
9 . torch.nn.init.xavier_normal_(tensor, gain=1.0)
10 . torch.nn.init.kaiming_uniform_(tensor, a=0, mode=‘fan__in’, nonlinearity=‘leaky_relu’)
11 . torch.nn.init.kaiming_normal_(tensor, a=0, mode=‘fan_in’, nonlinearity=‘leaky_relu’)
12 . torch.nn.init.orthogonal_(tensor, gain=1)
13 . torch.nn.init.sparse_(tensor, sparsity, std=0.01)
14 . torch.nn.init.calculate_gain(nonlinearity, param=None)
关于计算增益如下表：

nonlinearity	gain
Linear/Identity	1
Conv{1,2,3}D	1
Sigmod	1
Tanh	5/3
ReLU	sqrt(2)
Leaky Relu	sqrt(2/1+neg_slop^2)

我们可以发现这些函数除了calculate_gain，所有函数的后缀都带有下划线，意味着这些函数将会直接原地更改输入张量的值。

torch.nn.init使用

我们通常会根据实际模型来使用torch.nn.init进行初始化，通常使用isinstance()来进行判断模块（回顾3.4模型构建）属于什么类型。

import torch
import torch.nn as nnconv = nn.Conv2d(1,3,3)
linear = nn.Linear(10,1)isinstance(conv,nn.Conv2d) # 判断conv是否是nn.Conv2d类型
isinstance(linear,nn.Conv2d) # 判断linear是否是nn.Conv2d类型

True
False

对于不同的类型层，我们就可以设置不同的权值初始化的方法。

# 查看随机初始化的conv参数
conv.weight.data
# 查看linear的参数
linear.weight.data

tensor([[[[ 0.1174,  0.1071,  0.2977],[-0.2634, -0.0583, -0.2465],[ 0.1726, -0.0452, -0.2354]]],[[[ 0.1382,  0.1853, -0.1515],[ 0.0561,  0.2798, -0.2488],[-0.1288,  0.0031,  0.2826]]],[[[ 0.2655,  0.2566, -0.1276],[ 0.1905, -0.1308,  0.2933],[ 0.0557, -0.1880,  0.0669]]]])tensor([[-0.0089,  0.1186,  0.1213, -0.2569,  0.1381,  0.3125,  0.1118, -0.0063, -0.2330,  0.1956]])

# 对conv进行kaiming初始化
torch.nn.init.kaiming_normal_(conv.weight.data)
conv.weight.data
# 对linear进行常数初始化
torch.nn.init.constant_(linear.weight.data,0.3)
linear.weight.data

tensor([[[[ 0.3249, -0.0500,  0.6703],[-0.3561,  0.0946,  0.4380],[-0.9426,  0.9116,  0.4374]]],[[[ 0.6727,  0.9885,  0.1635],[ 0.7218, -1.2841, -0.2970],[-0.9128, -0.1134, -0.3846]]],[[[ 0.2018,  0.4668, -0.0937],[-0.2701, -0.3073,  0.6686],[-0.3269, -0.0094,  0.3246]]]])
tensor([[0.3000, 0.3000, 0.3000, 0.3000, 0.3000, 0.3000, 0.3000, 0.3000, 0.3000,0.3000]])

初始化函数的封装

人们常常将各种初始化方法定义为一个initialize_weights()的函数并在模型初始后进行使用。

def initialize_weights(model):for m in model.modules():# 判断是否属于Conv2dif isinstance(m, nn.Conv2d):torch.nn.init.zeros_(m.weight.data)# 判断是否有偏置if m.bias is not None:torch.nn.init.constant_(m.bias.data,0.3)elif isinstance(m, nn.Linear):torch.nn.init.normal_(m.weight.data, 0.1)if m.bias is not None:torch.nn.init.zeros_(m.bias.data)elif isinstance(m, nn.BatchNorm2d):m.weight.data.fill_(1) 		 m.bias.data.zeros_()

这段代码流程是遍历当前模型的每一层，然后判断各层属于什么类型，然后根据不同类型层，设定不同的权值初始化方法。我们可以通过下面的例程进行一个简短的演示：

# 模型的定义
class MLP(nn.Module):# 声明带有模型参数的层，这里声明了两个全连接层def __init__(self, **kwargs):# 调用MLP父类Block的构造函数来进行必要的初始化。这样在构造实例时还可以指定其他函数super(MLP, self).__init__(**kwargs)self.hidden = nn.Conv2d(1,1,3)self.act = nn.ReLU()self.output = nn.Linear(10,1)# 定义模型的前向计算，即如何根据输入x计算返回所需要的模型输出def forward(self, x):o = self.act(self.hidden(x))return self.output(o)mlp = MLP()
print(mlp.hidden.weight.data)
print("-------初始化-------")mlp.apply(initialize_weights)
# 或者initialize_weights(mlp)
print(mlp.hidden.weight.data)

tensor([[[[ 0.3069, -0.1865,  0.0182],[ 0.2475,  0.3330,  0.1352],[-0.0247, -0.0786,  0.1278]]]])
"-------初始化-------"
tensor([[[[0., 0., 0.],[0., 0., 0.],[0., 0., 0.]]]])

注意：
我们在初始化时，最好不要将模型的参数初始化为0，因为这样会导致梯度消失，从而影响模型的训练效果。因此，我们在初始化时，可以使用其他初始化方法或者将模型初始化为一个很小的值，如0.01，0.1等。

一文彻底讲透 PyTorch

技术交流

内容简介

部分内容展示

torch.nn.init内容

torch.nn.init使用

初始化函数的封装

相关文章：

一文彻底讲透 PyTorch

JVM常用概念之锁粗化和循环

HTML (总结黑马的)

YOLOv8 segment介绍

PMBOK® 第六版项目整合管理概念

【Qt】【模型视图架构】代理模型

Flutter 中的 IconTheme 小部件：全面指南

virtualbox虚拟机、centos7安装增强工具

Kotlin 泛型

Tomcat 面试题（一）

跟踪一个Pytorch Module在训练过程中的内存分配情况

LeetCode 2965.找出缺失和重复的数字：小数据？我选择暴力（附优化方法清单：O(1)空间方法×3）

【运维】VMware Workstation 虚拟机内无网络的解决办法（或许可行）

如何使用Dora SDK完成Fragment流式切换和非流式切换

低代码开发平台（Low-code Development Platform）的模块组成部分

Java网络编程(上)

Spring Kafka 之 @KafkaListener 注解详解

【量算分析工具-贴地距离】GeoServer改造Springboot番外系列九

【linux】（1）文件操作及vi

【5】MySQL数据库备份-XtraBackup - 全量备份

CentOS8实战：ZeroTier构建安全异地虚拟局域网

δ - mem：提升大型语言模型内存效率，得分最高可达 1.31 倍！

ViGEmBus终极指南：Windows游戏手柄模拟驱动的完整解决方案

JetBrains IDE试用期重置终极指南：3种简单方法实现30天无限续杯

DIY便携FPV地面站：从电路设计到3D打印的完整制作指南

Kubernetes上Jenkins全栈部署：动态Agent与生产环境调优指南

faah：轻量级自动化任务编排器，简化运维与数据处理工作流

构建团队技能仓库：从知识管理到可执行技能包的系统化实践

基于Go的轻量级自托管IM系统OpenWhisp部署与架构解析

【模拟电路】Circuit JS：从零到一，构建你的首个交互式电路实验