当前位置：首页 > news >正文

常用的深度学习优化方式

news 2025/12/27 11:50:08

全连接层

PyTorch中的全连接层（Fully Connected Layer）也被称为线性层（Linear Layer），是神经网络中最常用的一种层。全连接层将输入数据的每个元素与该层中的每个神经元相连接，输出结果是输入数据与该层的权重矩阵相乘，并加上该层的偏置向量。

假设我们有一个输入向量x，它的维度是n，全连接层有m个神经元，那么全连接层的输出可以表示为：

y = Wx + b

其中W是一个m×n的权重矩阵，b是一个长度为m的偏置向量。通常情况下，权重矩阵和偏置向量都是需要学习的参数，即神经网络在训练过程中会不断调整它们的值以使得网络的输出更接近真实值。

全连接层的作用是将输入数据进行线性变换，并将其映射到一个新的空间中，从而得到更高层次的特征表示。在深度学习中，通常会将多个全连接层组合起来构成一个神经网络。这些全连接层可以在输入和输出之间插入非线性的激活函数，例如ReLU、sigmoid等，从而使得神经网络可以拟合非线性的函数关系。

在PyTorch中，我们可以使用nn.Linear类来创建全连接层。例如，下面的代码创建了一个输入维度为784，输出维度为256的全连接层：

import torch.nn as nnfc = nn.Linear(784, 256)

创建全连接层后，我们可以将数据传递给它，并通过调用forward方法计算输出。例如，假设我们有一个输入张量x，维度为(batch_size, 784)，我们可以将它传递给全连接层并计算输出：

output = fc(x)

这将返回一个形状为(batch_size, 256)的输出张量。

总之，全连接层是神经网络中最基本的一种层，它可以将输入数据进行线性变换并将其映射到一个新的空间中。在深度学习中，我们通常将多个全连接层组合起来构成一个神经网络，从而得到更高层次的特征表示。在PyTorch中，我们可以使用nn.Linear类来创建全连接层，并将数据传递给它进行计算。

交叉熵

PyTorch中的交叉熵是一个常用的损失函数，通常用于多分类任务。在深度学习中，我们的目标是使模型能够尽可能地正确地预测输入数据的标签或类别。交叉熵损失函数通过测量预测的类别分布与实际类别分布之间的距离来评估模型的性能。

在PyTorch中，交叉熵可以通过以下方式定义：

loss = nn.CrossEntropyLoss()

其中nn是PyTorch中的一个模块，包含了许多神经网络的工具。CrossEntropyLoss()是其中的一个类，用于计算交叉熵损失。通常情况下，我们在训练过程中使用这个类来计算损失。

假设我们有一个大小为N的批次（batch）的样本，每个样本有C个类别，我们将样本的标签表示为一个大小为N的一维张量y，每个元素的值为0到C-1之间的整数。同时，我们有一个大小为N x C的二维张量y_pred，每一行表示一个样本的预测概率分布。也就是说，对于第i个样本，它属于第j个类别的概率为y_pred[i][j]。这个概率分布可以通过模型的输出层获得。

使用PyTorch中的交叉熵损失函数可以这样计算：

loss = nn.CrossEntropyLoss()
output = model(input)
loss_value = loss(output, target)

其中，input是模型的输入数据，output是模型的输出数据，target是样本的标签。loss_value是损失函数的值，用于反向传播和更新模型的参数。

正则化（Regularization）

正则化（Regularization）是机器学习中一种用于避免过拟合的技术。在训练机器学习模型时，我们通常会将数据集分成训练集和验证集，通过训练集来训练模型，然后通过验证集来评估模型的性能。然而，在训练过程中，模型可能会过度拟合训练数据，这意味着模型在训练集上表现良好，但在验证集上表现不佳。过拟合可能是由于模型过于复杂，而无法从数据中学习到通用模式所致。

为了避免过拟合，正则化技术会对模型的复杂度进行惩罚，以鼓励模型学习到通用模式，而不是仅适应训练数据。常见的正则化技术包括L1正则化和L2正则化。L1正则化通过对模型的权重向量进行惩罚，鼓励模型使用较少的特征。L2正则化通过对模型的权重向量的平方进行惩罚，鼓励模型使用所有的特征，但使权重向量中的值不会过大。

正则化技术可以帮助提高模型的泛化能力，从而在未见过的数据上表现更好

动量与学习率衰减

动量（Momentum）是一种在梯度下降中使用的优化方法，它有助于加速收敛和减少震荡。动量方法在每次迭代时都会考虑之前迭代的梯度，将当前梯度与之前的梯度进行加权平均。通过引入动量，模型在更新参数时会更加平滑，减少了噪声对模型的影响，从而能够更快地达到最优解。

学习率衰减（Learning Rate Decay）是指在训练过程中逐渐降低学习率的方法。随着训练的进行，学习率衰减可以帮助模型更加细致地调整参数，从而达到更好的效果。学习率衰减可以有不同的方式实现，比如按照固定的步长进行衰减，或者根据训练过程中的性能表现动态地调整衰减的程度。

综合来说，动量和学习率衰减都是优化神经网络训练的方法，它们可以帮助模型更快地收敛、减少震荡、避免局部最优解等问题，从而提高模型的泛化能力和性能。

常用的深度学习优化方式

全连接层

交叉熵

正则化（Regularization）

动量与学习率衰减

相关文章：

常用的深度学习优化方式

全面吃透Java Stream流操作，让代码更加的优雅

机器学习学习记录1：假设空间

开源工具系列5：DependencyCheck

JDBC知识点全面总结2：JDBC实战编写CRUD

java - 数据结构，算法，排序

二叉树经典14题——初学二叉树必会的简单题

基于NMOSFET的电平转换电路设计

mongoDB搭建集群

[深入理解SSD系列闪存2.1.5] NAND FLASH基本读操作及原理_NAND FLASH Read Operation源码实现

最新 JVM 面试经典问题

HTML5 和 CSS3 的新特性

Vulnhub系列：FristLeaks

XWiki Annotation Displayer 存在任意代码执行漏洞（CVE-2023-26475）

数字孪生GIS智慧风场Web3D可视化运维系统

Retrofit核心源码分析（二）- 网络请求和响应处理

STM32启动模式讲解与ICP下载电路

5款小巧好用的电脑软件，让你的工作生活更加高效！

python线程池

深入浅出PaddlePaddle函数——paddle.ones_like

网络六边形受到攻击

PHP和Node.js哪个更爽?

前端倒计时误差!

23-Oracle 23 ai 区块链表（Blockchain Table）

基于uniapp+WebSocket实现聊天对话、消息监听、消息推送、聊天室等功能，多端兼容

376. Wiggle Subsequence

postgresql|数据库|只读用户的创建和删除（备忘）

IoT/HCIP实验-3/LiteOS操作系统内核实验(任务、内存、信号量、CMSIS..)

在WSL2的Ubuntu镜像中安装Docker

《C++ 模板》