当前位置：首页 > article >正文

2026.04.02随记

article 2026/4/7 21:20:41

1、DL1、反向传播backward propagation是计算网络参数梯度的方法用链式法则从输出层到输入层遍历算出每个参数该怎么改。反向传播中每一个记录的梯度都是该函数的导数。梯度下降不等于反向传播反向传播是算梯度梯度下降是用梯度更新参数、2、梯度公式3、梯度消失、爆炸原因及其解决办法梯度损失函数L对某个变量的偏导数梯度消失和梯度爆炸定义梯度消失参数更新过小每次更新几乎不会移动导致模型无法学习。梯度爆炸参数更新过大破坏了模型的稳定收敛。梯度消失与梯度爆炸其实是一种情况。两种情况下梯度消失经常出现一是在深层网络中二是采用了不合适的激活函数比如sigmoid。梯度爆炸一般出现在深层网络和权值初始化值太大的情况下。下面分别从这两个角度分析梯度消失和爆炸的原因比较简单的深层网络如下前向传播第一步线性组合第二步激活函数第二层输出层损失函数反向传播其中a1对z1求导就是对激活函数求导如果此部分大于1那么层数增多的时候最终的求出的梯度更新将以指数形式增加即发生梯度爆炸。如果此部分小于1那么随着层数增多求出的梯度更新信息将会以指数形式衰减即发生了梯度消失。下图为sigmoid导数图其梯度是不可能超过0.25的这样经过链式求导之后很容易发生梯度消失。同理tanh作为损失函数它的导数图如下可以看出tanh比sigmoid要好一些但是它的导数仍然是小于1的。权值初始化值太大做反向传播的时候总会有一些线性层而这些线性层的局部导数就等于权重本身如果权值初始化太大可能会造成梯度爆炸梯度消失、爆炸的解决方案采用ReLU函数、LeakyRelu函数、ELU函数等作为激活函数ReLU思想也很简单如果激活函数的导数为1那么就不存在梯度消失爆炸的问题了每层的网络都可以得到相同的更新速度relu就这样应运而生。下图是ReLU函数图和导数图ReLU的主要贡献在于解决了梯度消失、爆炸的问题计算方便计算速度快加速了网络的训练同时也存在一些缺点由于负数部分恒为0会导致一些神经元无法激活输出不是以0为中心的梯度 δ × 输入、δ 是“已经从后面所有层传回来的梯度信息最后再乘上“当前参数对输出的导数输入”得到参数的梯度。如果 ReLU 输出全是正数那么x0于是梯度符号完全取决于δ假设一个batch中所有样本的δ0那么所有权重的梯度都 0所有权重一起往同一个方向更新后果梯度更新“方向单一”你之前提到的 zig-zag 问题优化过程会变成不是“朝最优点直线走”而是“来回震荡偏移”2、PyTorch1、N维数组就是有N个维度的数据结构0维标量、1维向量、2维矩阵、3维RGB图像数组也被称为张量tensor张量是多维数据的统一表示一中数据结构里面包含了多种方法tNumPy 中的 ndarray 仅支持CPU 计算而 PyTorch 中的 Tensor 能够放到 GPU 上计算并且支持自动微分2、创建数组需要形状、数据类型int、float、元素值3、访问元素4、张量数据操作torch.__version__ # 查看torch版本 x torch.arange(12) # 标量 x.shape # torch.Size([]) x torch.arange(12) # 初始化一个0-11的张量这是一维的 x.shape # 张量的形状 torch.Size([12]) x.numel() # 张量中元素的总数 number of elements x x.reshape(3,4) # 一维张量改为3行4列的二维张量 y torch.zeros((2,3,4)) # 创建全0张量 #tensor([[[0., 0., 0., 0.], [0., 0., 0., 0.], [0., 0., 0., 0.]], [[0., 0., 0., 0.], [0., 0., 0., 0.], [0., 0., 0., 0.]]]) y torch.tensor([[2,1,4,3],[1,2,3,4],[4,3,2,1]]) # 二维tensor创建特定值张量 z torch.tensor([[[2,1,4,3],[1,2,3,4],[4,3,2,1]]]) # 三维tensor x torch.arange(12,dtypetorch.float32).reshape((3,4)) y torch.tensor([[2.0,1,4,3],[1,2,3,4],[4,3,2,1]]) m torch.cat((x,y),dim0) # 按行合并起来 n torch.cat((x,y),dim1) # 按列合并起来 # 即使形状不同也可以张量广播运算 a torch.arange(3).reshape((3,1)) b torch.arange(2).reshape((1,2)) print(ab) tensor([[0, 1], [1, 2], [2, 3]]) # 张量内存变化 x torch.arange(12,dtypetorch.float32).reshape((3,4)) y torch.tensor([[2.0,1,4,3],[1,2,3,4],[4,3,2,1]]) before id(y) y x y # 为了保证安全y会开辟新的内存空间以免新y和旧y所占内存空间不同 print(id(y) before) x torch.arange(12,dtypetorch.float32).reshape((3,4)) y torch.tensor([[2.0,1,4,3],[1,2,3,4],[4,3,2,1]]) z torch.zeros_like(y) # z 的数据类型、尺寸和y一样里面的元素全为0 print(id(z):,id(z)) z[:] x y # 原地操作id不会变 print(id(z):,id(z)) x torch.arange(12,dtypetorch.float32).reshape((3,4)) y torch.tensor([[2.0,1,4,3],[1,2,3,4],[4,3,2,1]]) before id(x) x y # 原地操作id不会变 print(id(x) before) x torch.arange(12,dtypetorch.float32).reshape((3,4)) A x.numpy() # tensor转ndaaray B torch.tensor(A) # ndaaray转tensor a torch.tensor([3.5]) print(a) # tensor([3.5000]) print(a.item()) # 3.5 .item()是把只包含一个元素的张量转化为python普通数值 print(float(a)) # 3.5 print(int(a)) # 3 sum_A A.sum(axis1,keepdimsTrue) #keepdimsTrue不丢掉维度否则三维矩阵按一个维度求和就会变为二维矩阵二维矩阵若按一个维度求和就会变为一维向量 torch.dot(x,y) # 向量点积 torch.mv(A,x) # 矩阵和向量的乘积 torch.mm(A,B) # 矩阵相乘y x y 是创建新的张量x y 是原地操作id不会变

2026.04.02随记

相关文章：

2026.04.02随记

WeChatMsg终极方案：构建个人微信数据管理中心

Arm_Cortex-M3权威指南

基于Stackelberg博弈与需求响应的光伏用户群内部优化定价模型研究

做自媒体，如何从“不会写”到“持续输出”

虚幻引擎6.5 C++多线程渲染管线深度解密，揭秘Nanite+Lumen底层Hook点与自定义RenderPass安全注入时机

Amazon日本站、欧洲站A+内容翻译怎么做？跨马翻译在多站点运营中的实际应用

棒板电极流注放电与氩气等离子体仿真的COMSOL研究

别再手写MCP适配层了！2024最新Python企业模板已内置SPI扩展点、链路追踪埋点与熔断降级策略

为什么你的医疗3D体绘制在NVIDIA A100上仍掉帧？——解析CUDA流同步、纹理缓存对齐与HIP-Clang跨编译器ABI兼容性三大致命盲区

Python MCP服务器开发模板实战手册（含完整CI/CD流水线与OpenTelemetry集成）

【2026 Python原生AOT编译终极指南】：零依赖、亚毫秒启动、生产级瘦身——来自CPython核心组的3项未公开落地规范

JetBrains GoLand 2026.1 (macOS, Linux, Windows) - 为 Go 开发者打造的完整 IDE

RAG 不需要向量库？无向量检索新范式全攻略（非常硬核），大模型检索从入门到精通，收藏这一篇就够了！

深入解析C语言位运算与操作符

阿里云千问大模型API申请避坑指南：从注册到调用的完整流程

2026 RAG 全景落地教程（非常详细），从大模型基座到 Agent 记忆从入门到精通，收藏这一篇就够了！

百考通：AI精准精准赋能论文降重与去AI痕迹，让学术成果更高效、更专业

【实测】GitNexus实测：拖入GitHub链接秒出代码知识图谱，今天涨了857星

【深度】GPT-6 定档4月14日 × Claude 4小时攻破FreeBSD：CUDA转CANN迁移实战 + AI安全防御架构全解

Vivado硬件调试避坑指南：为什么你的ILA信号总被优化？（附解决方案）

从零构建数字货币量化交易系统：Python实战指南

人形机器人核心部件揭秘：减速器、传感器如何撑起宇树和智元的未来？

JavaScript中函数体代码量对V8内联优化特性的影响

西门子S7_200PLC与MCGS组态在污水处理控制设计中的应用

MCGS 基于PLC的风力发电控制系统带解释的梯形图程序，接线图原理图图纸，io分配

Python flask django大学生一体化服务系统校园生活服务平台选课失物招领自习室预约,实习系统y98ioc9x

Golang GORM怎么做Scopes复用_Golang GORM Scopes教程【推荐】

OpenMMLab 环境配置避坑指南：从 ModuleNotFoundError 到 YOLO 模型成功部署

电源PFC入门 TI单相三相维也纳VIENNA整流器无桥原理图PCB资料一个PFC设计案例...